что используют для обработки текстовой информации
Теоретический материал «Технология обработки текстовой информации»
5.2. ТЕХНОЛОГИЯ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ
Создавать, редактировать, форматировать и распечатывать текстовые документы можно с помощью специальных программ обработки программ обработки текстов: текстовых редакторов и текстовых процессоров:
Текстовые редакторы – это программы для создания, редактирования, форматирования, сохранения и печати документов.
Текстовые процессоры – это текстовые редакторы, имеющие в своем составе расширенный набор функций для работы с документами.
Текстовые файлы – наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами. Первая проблема – чрезвычайно большое число символов, требующихся для поддержки различных языков. Вторая проблема заключается в том, что люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Кроме того, документы, распространяемые в Интернет (он-лайновые документы), содержат мультипликацию, ссылки на различные ресурсы и звуковое сопровождение.
Многие текстовые файлы передаются в виде простого текста. Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графиков, заголовков, подзаголовков и т.д. Эти дополнительные особенности называются разметкой текста указывается точный вид каждого фрагмента: положение на странице, размер и начертание шрифта. При логической разметке указывается логическое значение данного фрагмента, например: «это заголовок главы». Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того, чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть на приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом для каждого фрагмента указывается шрифт, размер и стиль.
При обмене информацией физическое оформление текста накладывает ряд ограничений, особенно для он-лайновых документов. Размер экрана, разрешение и шрифты различны для различных систем. В некоторых случаях логическое оформление текста практически необходимо (при создании электронных документов типа страниц WWW или при создании и публикации объемных трудов, таких как книги).
Основные объекты окна приложения
При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если у вас нет программного обеспечения, поддерживающего такой формат, вы все же сумеете в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе:
HyperText Markup Language (HTML), использующий в Word Wide Web;
В процессе вывода символа на экран компьютера производится обратный процесс – декодирование. Одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. В большинстве случаев пользователь не должен заботится о перекодировках текстовых документов, так как это делают специальные программы – конвекторы, встроенные в приложения.
Все документы MS Word создаются на основе выбранного шаблона (образца).
Шаблон – это служебный файл, который содержит всевозможную информацию о структуре и оформлении документов конкретного типа.
Использование шаблонов позволяет создавать документы таким образом, чтобы все элементы оформления органично сочетались между собой.
Поясним некоторые термины.
Кегль (размер шрифта) – вертикальный размер, измеряемый в пунктах (1 пункт равняется 0,376 мм). Для большинства документов используются 10-12 – пунктовые шрифты, в то время как газетная полоса может иметь только 8 – пунктовые шрифты. Размер шрифта более 14 пунктов обычно используется лишь для заготовков и выделений.
Гарнитура (тип шрифта) определяет особенности написания целого набора символов, включающего в себя заглавные и строчные буквы, цифры, знаки пунктуации и специальные символы. Каждый тип шрифта имеет несколько стилей начертания символов (например, полужирный, курсив, полужирный курсив, обычный). Кроме того, можно ввести подчеркивание символов и фрагментов текста.
С помощью инструментов мы производим различные операции над документами. Так, оперируя различными символами, можно ввести текст, придать ему необходимый вид, расположить на странице.
Выполняя операции с фигурным текстом, можно оформить красивый заголовок на титульном листе. Операции с рисунками позволяют украсить внешний вид вашего документа и сделать его содержание более понятным.
Символ – это минимальный элемент текста. Он обладает следующими свойствами:
начертание (обычное, жирное, курсивное, подчеркивание);
Из символов состоят другие объекты текстового редактора: строка, абзац, страница, текст. Каждый последующий объект наследует свойства предыдущего, и к ним добавляются характерные свойства данного объекта.
Строка – это последовательность символов, завершенная кодом конца строки.
Строка как объект имеет следующие свойства:
начало и конец строки;
номер строки в тексте;
левая и правая границы строки (левая граница – позиция, в которой начинается строка, правая граница – позиция, за которую она не должна заходить).
Абзац – это набор строк, выделяемый наличием отступа красной строки в начале.
левый и правый отступы;
отступ в красной строке, т.е. позиция, с которой начинается первая строка абзаца;
положение на странице.
Страница – это набор строк, завершаемый кодом конца страницы. Её свойства:
число строк на странице.
Последним, глобальным, объектом текстового редактора является весь текст в целом. Ко всем наследуемым свойствам у текста добавляются новые:
начало и конец текста;
число строк в тексте;
расположение текста на странице.
Итак, для того чтобы подготовить документ для печати, необходимо научиться выполнять следующие операции:
Информатика. 10 класс
Конспект урока
Информатика, 10 класс. Урок № 15.
Тема — Обработка текстовой информации
Когда вы хотите получить результат в какой-то области деятельности, то используете некоторую технологию, т. е. совокупность методов и инструментов.
Изучая предмет «Технология», вы знакомились с так называемыми «материальными» технологиями — технологиями обработки древесины, металла, ткани, лазерными технологиями, космическими технологиями, прототипированием и др.
Информационные же технологии отличаются тем, что как исходным материалом для них являются данные, так и для их применения также используются данные.
Информационные технологии (ИТ) — это совокупность методов, производственных процессов, программно-технических и лингвистических средств, объединённых с целью сбора, обработки, хранения, отображения и использования информации, представленной в цифровой форме.
По мере распространения компьютеров — универсальных устройств для обработки данных — сформировалась отдельная отрасль Информационные технологии (ИТ). Это очень важное и перспективное направление.
На уроках информатики основной школы информационные технологии классифицировались по видам обрабатываемой информации.
Исследование базовых принципов обработки информации мы начнём с обработки текста.
Среди вариантов текстовых документов можно выделить художественный текст, научный текст, деловой документ, рекламный текст, личный документ.
Наборы правил, рекомендуемых для создания каждого из перечисленных видов текста, различны.
В зависимости от выбранного вида текста следует подбирать и программное обеспечение (ПО). Рассмотрим классификацию ПО по назначению. Когда нужен текстовый документ простой структуры, то достаточно использовать текстовый редактор, например Блокнот для ОС Windows. Другими подобными текстовыми редакторами являются leavepad, gedit и др. Все текстовые редакторы имеют ограниченный набор функций для работы с текстовой информацией, но очень хорошо подходят для всевозможных заметок.
Более сложными программными комплексами для работы с текстовой информацией являются текстовые процессоры. Наиболее широко известны MS Word, LibreOffice Writer. Это полнофункциональные инструменты для работы с текстом, позволяющие включать в него таблицы и графические изображения, форматировать и структурировать текст, применять автоматическую нумерацию страниц и многое другое.
Бывают ситуации, когда нужно оформить текст с большим количеством специфических знаков, например, математических, химических или других формул. Обычно это касается разного рода научных материалов, а также студенческих курсовых работ. В этом случае удобно использовать свободно доступную систему подготовки публикаций TEX и наиболее популярную версию LaTEX.
Книги, журналы, другие многостраничные документы, требующие специального расположения текста, иллюстраций и других сложных объектов на странице, проходят весь цикл допечатной обработки на компьютере с использованием комплекса программных средств, называемых издательскими системами. Процесс создания компьютерного макета будущего печатного издания называют вёрсткой, а точную копию самого издания принято называть оригинал-макетом.
В качестве примеров таких программ можно назвать QuarkXPress, Adobe InDesign, Scribus. Последняя из них распространяется свободно, поэтому каждый из вас может её освоить.
Электронные словари и переводчики — это ещё одна группа программ для работы с текстами. Примерами таких программ являются — PROMT (translate.ru), ABBYY Lingvo.
Некоторые современные браузеры позволяют осуществлять автоматический перевод содержания страниц сайта на выбранный вами язык. Онлайн переводчики встроены в такие поисковые системы как Яндекс и Google.
Существует особый вид словарей — тезаурус — связь слов в них происходит на основе каких-либо лексических отношений. Например, слова-синонимы, слова-антонимы и т. д.
Когда вам нужно редактировать текст, напечатанный, например, в журнале, то для таких целей подходят системы оптического распознавания текста. С их помощью графическое изображение, получаемое при сканировании, преобразуется в текстовый документ в формате, удобном для редактирования. Наиболее известным является продукт отечественной компании ABBYY, который называется ABBYY FineReader.
Программы для работы с текстовой информацией используются ещё для создания текстов программ на языках программирования. Как правило, они интегрированы в системы программирования, но могут быть и самостоятельными программами или являться частью HTML-редакторов, в которых создаются веб-страницы. Примерами могут служить Geany, веб-редактор Blue Fish.
Нужно понимать, что многообразие ПО для работы с текстами представленными программами не заканчивается, их значительно больше. Каждый из вас при желании может составить расширенную схему, дополнив её другими программными продуктами.
Поговорим о подготовке текстовых документов. Она включает в себя три основные группы операций: ввод, редактирование и форматирование.
Ввод текста может осуществляться как прямым набором текста с клавиатуры, так и сканированием печатного документа. Операция ввода текста служит для формирования первоначального содержимого текстового документа и сохранения его в памяти компьютера.
Вспомним основные правила набора текста:
— между словами может быть только один пробел;
— переход на новую строку происходит автоматически;
— нажатие клавиши Enter означает конец абзаца;
— для скобок и других парных знаков (кавычки) пробелы ставятся с внешних сторон (до открывающих и после закрывающих), а внутри пробелы не ставятся;
— тире окаймляется пробелами с двух сторон, «дефис» в словах вводится без пробелов;
— для ввода римских цифр используются прописные латинские буквы I, V, X, L, C, D, M;
— для ввода неразрывного пробела используется комбинация клавиш Ctrl+Shift+пробел. В основном этот знак используется для записи дат, инициалов и другой информации, которую не принято писать на разных строках.
Для контроля ввода информации с клавиатуры полезно включать отображение непечатных символов. Эти символы не выводятся на печать, но отражают структуру документа. Рассмотрите примеры отображения некоторых скрытых символов для LibreOffice Writer в таблице.
Для автоматизации ввода существуют инструменты Автозамена, который автоматически исправляет наиболее частые опечатки и Автотекст, позволяющие по первым буквам автоматически вставить короткую фразу из списка элементов автотекста.
Большим преимуществом компьютерной технологии создания текстовых документов является возможность его редактирования, т. е. правки. Ввод и редактирование документа часто происходят параллельно. Редактирование существующего электронного документа происходит за счёт копирования, перемещения или удаления выделенных фрагментов текста, перестановки частей документа, слияния нескольких документов, разбиения одного документа на несколько более мелких и др.
Для того чтобы точно определить, как будет выглядеть текст на экране монитора или на листе бумаги после печати на принтере, используется операция форматирования. Операции форматирования могут применяться к отдельным объектам текстового документа, в этом случае говорят о прямом форматировании. Объекты и некоторые их свойства представлены на схеме.
В случае большого документа принято применять форматирование ко всему документу в целом — в этом случае используется стилевое форматирование. Однотипным структурным элементам текста назначается определенный стиль форматирования, т. е. набор параметров форматирования (шрифт, абзацные отступы и т. д.).
При создании текстовых документов следует придерживаться определённых правил:
• желательно выбирать один формат для всего основного текста, а для заголовков и смысловых фрагментов выбирать другой формат;
• количество разных цветов и шрифтов документа принято выбирать не более трёх;
• размер символов и междустрочный интервал выбираются комфортными для чтения;
• цветовая гамма должна соответствовать назначению документа;
• однотипную информацию лучше представлять в списках и таблицах;
• графические изображения использовать для того, чтобы дополнять содержание текста, их нужно выдерживать в едином стиле;
• фон и поля документа следует делать единообразными.
Для автоматизации работы текстовые процессоры содержат такие инструменты, как шаблоны, макросы и другие средства работы со структурными компонентами документа. Чтобы работать с шаблоном документа в текстовом процессоре LibreOffice Writer, достаточно в меню Файл выбрать Создать. Шаблоны…
Все шаблоны распределены по категориям:
• личная корреспонденция и документы;
• прочие деловые документы;
Среди шаблонов представлены современные деловые письма, резюме, визитки и др. Имеется возможность импорта/экспорта шаблона.
При работе с большими документами часто приходится выполнять некоторую одинаковую последовательность действий над разными фрагментами текста. Например, выделить определённым образом название школы во всём документе. Это занимает много времени. Для автоматизации процесса используются Макросы. В них один раз записывается необходимый алгоритм, макрос сохраняется и затем его можно применять к любому тексту в любое время для автоматизации процесса работы с документом.
В многостраничных документах (книгах, журналах, рефератах и т. д.) принято выделять структурные элементы — главы, параграфы, пункты и т. п., создавая при этом иерархическую структуру документа. Посмотрите на структуру своего учебника информатики. Вы видите, что в нём есть главы и параграфы. Главы находятся на первом уровне структуры документа, параграфы — на втором уровне.
В текстовых процессорах существуют специальные стили для создания иерархической структуры документа. Например, в LibreOffice Writer это стили с именами:
Если в документе к заголовкам разного уровня применено стилевое форматирование, то текстовый процессор автоматически создаст оглавление документа после специальной команды пользователя.
Современные текстовые процессоры устроены таким образом, что позволяют совершать совместную работу над одним и тем же документом. Вариантов организации такого совместного взаимодействия несколько, при этом существует возможность отслеживания внесенных в документ изменений каждым пользователем команды, поэтому важно, чтобы в документ были внесены корректные данные о пользователе, поскольку именно они останутся в редактируемом документе.
Проектной деятельности уделяется особое внимание в последнее время. В соответствии с ФГОС СОО, каждый ученик старшей школы готовит индивидуальный проект. Существуют определённые требования к оформлению проекта. Во многом они схожи с оформлением реферата.
Основные требования таковы:
• на листах белой бумаги формата А4 (210 х 297 мм);
• стандартные размеры полей обычно по 20 мм с каждой стороны;
• междустрочный интервал — полуторный;
• размер шрифта 12—14 пунктов;
• выравнивание абзаца по ширине;
• отступ первой строки 8—12 мм.
При работе с текстом существует множество задач, не связанных с процессом ввода и обработки. Представим некоторые возможности обработки текстовой информации, относящиеся к компьютерной лингвистике:
• поиск текста по заданным признакам;
• рубрицирование текста — разбиение текста на тематические подпотоки по заранее заданным рубрикам;
• реферирование текста — подготовка сокращённой версии;
• перевод текста с одного языка на другой;
• анализ текста на предмет выявления заимствований.
Многие из них вы можете исследовать самостоятельно. Остановимся лишь на системах, выявляющих заимствование текстов, например, на российском интернет-проекте антиплагиат (antiplagiat.ru) для проверки текстовых документов на наличие заимствований из сети Интернет и других источников. Это хороший помощник при создании авторских работ. Не забывайте, что уникальность текста в исследовательской или проектной работе должна составлять не менее 75%.
На сегодняшнем уроке мы определились с понятием информационных технологий.
Начали рассмотрение современных ИТ с возможностей программного обеспечения для работы с текстовой информацией.
Систематизировали программное обеспечение для работы с текстом в зависимости от назначения.
Рассмотрели три основные группы операций при работе с текстовой информацией — ввод, редактирование и форматирование.
Выяснили, что компьютерные технологии не только позволяют автоматизировать процесс создания текстовых документов за счет возможности работы с фрагментами, проверки правописания, использования шаблонов, макросов и др., но и решать множество других задач обработки текстовой информации.
Эти задачи относятся к области компьютерной лингвистики. К ним можно отнести поиск, рубрицирование, реферирование, перевод и анализ текста.
Что используют для обработки текстовой информации
Часто интерактивные текстовые редакторы содержат дополнительную функциональность, призванную автоматизировать действия по редактированию, или отображают текстовые данные специальным образом (например, с подсветкой синтаксиса ).
Также нужно упомянуть удобный интерфейс, позволяющий быстро освоить приложение. Казалось бы, зачем искать что-то еще, но… есть одно «но». Microsoft Word – не бесплатное приложение. Конечно, тем, для кого работа на дому в интернете, к примеру, по набору текста стала источником стабильного и достаточно высокого дохода, имеет смысл купить этот редактор. Но, если человек использует подобное ПО достаточно редко, можно выбрать что-то похожее, только бесплатно.
Текстовый редактор LibreOffice Writer.
LibreOffice Writer – на данный момент это самый мощный среди бесплатных текстовых редакторов. Он позволяет работать с документами Microsoft Word, RTF, создавать HTML документы. В нем также можно вставлять в тексты таблицы, картинки, мультимедийные объекты и другие элементы. В LibreOffice Writer имеется редактируемый словарь и функция проверки орфографии. Интерфейс программы напоминает ранние версии Word, поэтому освоить его несложно. Тем более что есть русская версия приложения. Одним словом, этот редактор можно смело назвать бесплатным аналогом или упрощенной версией Microsoft Word. Есть и другие бесплатные приложения (AbiWord, OpenOffice), но, судя по отзывам пользователей, им далеко до LibreOffice Writer.
Текстовый редактор Блокнот.
Блокнот – это самый простой текстовый редактор, который входит в стандартный пакет установки системы Windows. Он работает с расширением TXT, но может открывать файлы INF, INI, LOG.
Тем не менее, Блокнот полезен не только начинающим, но и опытным пользователям, как простой и удобный вспомогательный инструмент. Вот лишь некоторые возможности этой программы:
Редактор текста Google, позволяющий печатать текст онлайн бесплатно.
По своим функциональным возможностям редактор текста Google – это что-то среднее между Microsoft Word и Блокнотом. Он поддерживает несколько текстовых форматов (DOCX, RTF, TXT), а также HTML, PDF. В нем можно форматировать тексты, использовать разные шрифты и стили, менять цвет текста, вставлять таблицы, рисунки, формулы, ссылки, специальные символы, номера страниц, сноски и комментарии, осуществлять поиск и проверку орфографии (редактор подчеркивает слова с ошибками и предлагает варианты их написания). Еще одна уникальная функция – это перевод текста на разные языки. Переведенный текст открывается в новом окне, что позволяет сравнить его с оригиналом.
Все документы автоматически сохраняются в разделе «Мой диск», где их можно оставить, если тексты еще нужны, или скачать на компьютер. Кстати, все это можно делать с мобильного телефона.
Бесплатный текстовый редактор Notepad для программистов и веб-мастеров.
Есть еще один редактор, о котором хотелось бы упомянуть, так как сам им пользуюсь. Это Notepad, который является аналогом блокнота и ориентирован на работу с исходным кодом PHP и Html. Он является незаменимым инструментом для блогеров и тех, кого интересует создание сайтов самостоятельно, и кто уже сталкивался с проблемой чистки и редактирования кода.
Приложение распространяется бесплатно, скачать текстовой редактор Notepad можно на сайте разработчиков. Программа очень легкая и обеспечивает максимальную скорость работы. К сожалению, подробно рассказать о редакторе в этом материале не получится, отмечу лишь некоторые особенности:
По статистике, редактором Notepad Plus пользуются до 70% Web-мастеров.
Пожалуй, на этом можно и завершить краткий обзор самых популярных текстовых редакторов. Желаю всем удачи и успехов!
Конспект по дисциплине Информационные технологии на тему «Обработка текстовой информации»
Обработки текстовой информации
Текстовая информация может возникать из различных источников и иметь различную степень сложности по форме представления. В зависимости от формы представления для обработки текстовых сообщений используют разнообразные информационные технологии. Чаще всего в качестве инструментального средства обработки текстовой электронной информации применяют текстовые редакторы или процессоры. Они представляют программный продукт, обеспечивающий пользователя специальными средствами, предназначенными для создания, обработки и хранения текстовой информации. Текстовые редакторы и процессоры используются для составления, редактирования и обработки различных видов информации. Отличие текстовых редакторов от процессоров заключается в том, что редакторы, как правило, предназначены для работы только с текстами, а процессоры позволяют использовать и другие виды информации.
Редакторы, предназначенные для подготовки текстов условно можно разделить на обычные (подготовка писем и других простых документов) и сложные (оформление документов с разными шрифтами, включающие графики, рисунки и др.). Редакторы, используемые для автоматизированной работы с текстом, можно разделить на несколько типов: простейшие, интегрированные, гипертекстовые редакторы, распознаватели текстов, редакторы научных текстов, издательские системы.
В простейших редакторах-форматерах (например, “Блокнот”) для внутреннего представления текста дополнительные коды не используются, тексты же обычно формируются на основе знаков кодовой таблицы ASCII.
Текстовые процессоры представляют систему подготовки текстов (Word Processor). Наибольшей популярностью среди них пользуется программа MS Word. Технология обработки текстовой информации с помощью таких программ обычно включает следующие этапы:
1) создание файла для хранения текстовой информации;
2) ввод и (или) копирование текстовой информации в компьютер;
3) сохранение текста, представленного в электронной форме;
4) открытие файла, хранящего текстовую информацию;
6) форматирование текста, хранящегося в электронной форме;
7) создание текстовых файлов на основе встроенных в текстовый редактор стилей оформления;
8) автоматическое формирование оглавления к тексту и алфавитного справочника;
9) автоматическая проверка орфографии и грамматики;
10) встраивание в текст различных элементов и объектов;
11) объединение документов;
К основным операциям редактирования относят: добавление; удаление; перемещение; копирование фрагмента текста, а также поиска и контекстной замены. Если создаваемый текст представляет многостраничный документ, то можно применять форматирование страниц или разделов. При этом в тексте появятся такие структурные элементы, как: закладки, сноски, перекрестные ссылки и колонтитулы.
Большинство текстовых процессоров поддерживает концепцию составного документа – контейнера, включающего различные объекты. Она позволяет вставлять в текст документа рисунки, таблицы, графические изображения, подготовленные в других программных средах. Используемая при этом технология связи и внедрения объектов называется OLE (Object Linking and Embedding – связь и внедрение объектов).
Для автоматизации выполнения часто повторяемых действий в текстовых процессорах используют макрокоманды. Самый простой макрос – записанная последовательность нажатия клавиш, перемещений и щелчков мышью. Она может воспроизводиться, как магнитофонная запись. Её можно обработать и изменить, добавив стандартные макрокоманды.