Информация, выраженная с помощью естественных и формальных языков в письменной форме, называется текстовой.
В общем случае электронная система обработки текстовой информации состоит из видеотерминала, возможно, специально сконструированного или модифицированного для этих целей, некоторой внешней памяти для хранения специального программного обеспечения и файлов с текстовой информацией, а также печатающего устройства, позволяющего получать качественные копии созданных документов. Средства обработки текстовой информации, несмотря на их весьма широкий спектр, обеспечивают следующие основные функции:
- создание и редактирование текстового документа, включая: вставки, удаления, копирование, перемещение текста в документе, поиск и замена элементов документа, добавление в документ текстовой и графической информации;
- форматирование и распечатка документов с выбором размеров бумаги и форматов, а также с указанием числа копий и выводимой части документа;
- выравнивание документа и/или его отдельных частей по указанным границам с автоматической обработкой переносов строк;
- возможность создания документа по стандартному шаблону;
- использование различных шрифтов распространенных алфавитов;
- размещение в документе таблиц, диаграмм, рисунков и т.д.,
- а также ряд других функций, состав которых определяется уровнем и назначением конкретного программного средства.
Данный материал посвящён программным средствам и технологиям обработки текстовой информации, т.к. ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей.
В начале 1975 года кинорежиссёр и программист из Нью-Йорка Майкл Шрейер стал обладателем комплекта для сборки микрокомпьютера «Альтаир 8800». Он собрал машину и вскоре начал создавать и продавать небольшие программы, которые со временем получались всё более и более сложными, а потому и руководства к ним усложнялись. Шрейер пришёл к выводу, что целесообразно готовить эти руководства с помощью компьютера, а не печатать их на машинке.
Целый год он упорно трудился над новой программой, дав ей название «Электрический карандаш». Через некоторое время Шрейер понял, что подобная программа может заинтересовать обладателей микрокомпьютеров и создал 78 вариантов «Электрического карандаша», учитывая особенности целого ряда принтеров. Распространялась данная программа при помощи почты, потому что магазинов, занимающихся продажей программного обеспечения, практически не было.
В первые два года после своего выхода «Электрический карандаш» являлся, по сути дела, единственным текстовым редактором, доступным массовому потребителю. Однако по мере расширения рынка персональных компьютеров другие предприниматели тоже стали делать шаги в данном направлении.
Одним из них был житель Нью-Йорка Сеймур Рубинштейн, в планы которого входило создание текстового процессора. Совместно с программистом Джоном Барнэби при помощи многочисленных опросов было выяснено, какими возможностями должен обладать текстовый процессор, чтобы привлечь внимание потенциальных покупателей.
Так, в 1978 году появилась довольно удачная система, которая получила название WordStar, которая практически сразу же стала стандартом текстовых процессоров для микрокомпьютеров. «Электронный карандаш», WordStar являлись предшественниками популярнейшей сегодня компьютерной программы для обработки текстовой информации — Microsoft Office Word.
Для обработки текстовой информации на компьютере используются приложения общего назначения – текстовые редакторы.
Текстовые редакторы — это программы для создания, редактирования, форматирования, сохранения и печати документов. Современный документ может содержать, кроме текста, и другие- объекты (таблицы, диаграммы, рисунки и т. д.).
Простые текстовые редакторы (например, Блокнот) позволяют редактировать текст и осуществлять простейшее форматирование шрифта.
Более совершенные текстовые редакторы, имеющие целый спектр возможностей по созданию документов (например, поиск и замена символов, средства проверки орфографии, вставка таблиц и др.), называют иногда текстовыми процессорами. Примером такой программы является Word из офисного пакета MicrosoftOffice, или Writer из пакета StarOffice.
Мощные программы обработки текста — настольные издательские системы — предназначены для подготовки документов к публикации. Пример подобной системы — Adobe PageMaker.
Для подготовки к публикации в Интернете web-страниц используют специализированные приложения (например, Microsoft FrontPage или Macromedia Dreamweaver).
World Wide Web («Всемирная паутина») обеспечивает хранение, обработку и распространение публикаций в виде:
- рекламных страниц;
- электронной периодики;
- справочников, каталогов;
- периодических иллюстрированных журналов;
- электронных газет;
- различного рода энциклопедии;
- учебников (гипермедийные издания в рамках виртуального публичного университета).
Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor), мощные текстовые редакторы с расширенным спектром функций называют также текстовыми процессорами (word-processor). Некоторые текстовые процессоры могут работать не только с текстами, но и с изображениями, например, редактировать иллюстрированные документы.
Основные функции текстовых редакторов и процессоров:
- работа с файлами — сохранение текста на магнитном диске в виде файла, считывание текста (файла) с диска, копирование в редактируемый текст любого количества строк из другого файла, имеющегося на диске. Для надежности редактируемый файл должен периодически записываться на диск по команде пользователя или автоматически;
- показ текста на экране — текст или его фрагмент можно показывать в специальном окне объемом 15 — 25 строк, организованном на экране монитора. Текст на экране можно передвигать вверх-вниз, влево – вправо с помощью клавиш, помеченных стрелками, а также быстро заменять фрагмент текста на другой фрагмент по номеру строки. Некоторые редакторы позволяют организовывать на экране несколько окон с различными файлами или с различными частями одного файла;
- вывод на печать (если в составе компьютера имеется принтер). Обычно в редакторы, работающие со многими шрифтами и алфавитами, встроена функция вывода на печать, хотя некоторые простые редакторы сами на печать не выводят и требуется сначала записать текст на магнитный диск, выйти из редактора и вывести файл на печать средствами операционной системы;
- вставка символов и строк в места, указанные курсором. При этом текст раздвигается;
- перемещение части текста, помеченного соответствующим образом (обычно помечаются начало и конец фрагмента), на другое место, указанное курсором, или дублирование части текста в другом месте;
- удаление символов и строк, указанных курсором и помеченных соответствующим образом. При этом текст сжимается. Обычно редакторы позволяют также восстанавливать ошибочно удаленные фрагменты текста;
- контекстный поиск — поиск строки по заданному фрагменту текста;
- выравнивание ширины — выравниваются правый край, левый край или «по центру строки» путем вставки дополнительных пробелов. Переносы слов при этом не делаются;
- перенос слов. Простейшие редакторы не используют перенос слов и если слово не помещается в строке, то оно целиком переносится на следующую строку. Более мощные редакторы, «понимающие» грамматику языка текста, могут выполнять переносы слов. Это удобно при подготовке текста к типографской печати. Некоторые редакторы можно «обучать» переносу слов;
- резка и склейка строк. Можно отделить часть строки и перенести в следующую строку и, наоборот, строку «подклеить» к предыдущей строке;
- замена одного фрагмента на другой. Можно произвести замену одного фрагмента на другой, например, имя «Pascal» заменить во всем тексте на «Basic», автоматически или полуавтоматически (с контролем); можно заменить прописные буквы на строчные, один год на другой и т.п.;
- вставка заготовок. Можно вставлять заранее заготовленные фрагменты (имена, служебные слова языков программирования) в предварительно помеченные места текста;
- орфографический и синтаксический контроль текста с указанием цветом или подчеркиванием мест ошибок или непонятных редактору слов и выражений. «Обучаемые» редакторы можно научить понимать эти слова и выражения в дальнейшем.
Текстовые редакторы разделяются на три группы:
- редакторы общего назначения (сюда относятся, например, редакторы «Лексикон», MS Word, WordPerfect и др.);
- редакторы научных текстов (ChiWriter, ТеХ и др.);
- редакторы исходных текстов программ (например, Multi-Edit или встроенные редакторы систем программирования для языков Бейсик, Фортран, Си и др.).
По сравнению с редакторами общего назначения специализированные редакторы позволяют легче готовить и редактировать соответствующие тексты: например, редакторы научных текстов удобнее для набора математических или химических формул.
Программы оптического распознавания символов
Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).
Системы оптического распознавания символов (OCR – Optical character recognition) стали неотъемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.
Работа сканеров основана на принципах функционирования фото-множительных устройств:
- изображение, считываемое сканером, хранится в электронном виде;
- сканер не может отличать текст от рисунков и представляет их в виде отдельных графических фрагментов из черных и белых эле-ментов.
Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания тек-ста (OCR) можно: - отделить текст от рисунков;
- записать этот текст в формате файла текстового процессора.
Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.
Основные технологические требования к OCR при использовании компьютерных издательских систем:
- умение распознавать начало и конец отдельных символов, поскольку сам сканер лишь оцифровывает изображение и, кроме того, многие шрифты являются пропорциональными;
- возможность работать с большим диапазоном гарнитур, кеглей, начертаний шрифтов, которые могут использоваться при полиграфическом оформлении документа;
- возможность работать с оригиналами различного качества (в том числе созданными типографским способом или на лазерном принтере);
- возможность распознавать многоколонный текст;
возможность распознавать текст, имеющий в составе таблицы и рисунки; - достаточно высокая достоверность распознавания (не менее 90-96 %).
Существует два типа пакетов OCR: обучаемые и интеллектуальные.
Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания. В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное совпадение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”.
В случае интеллектуальной системы — более мощном методе преобразования считанного документа в текстовый файл — программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения символа по контуру система выполняет ряд перекрестных проверок полученного текста.
Развитие индустрии систем электронного документооборота требует новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусственного интеллекта. Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.
Сегодня актуальна фраза: “Кто владеет информацией, тот владеет миром”.
Умение овладевать новой информацией и корректно располагать ее при подготовке документов – одно из условий совершенствования информационной культуры человека. А понятие информационной культуры весьма многозначно и содержит в себе множество видов работы, ключевым из которых является обработка текста.
Комментарии: