Цифровая обработка изображений КИС Лекция 6 Обзор цифровой обработки изображений Цифровая обработка изображений может быть сделана с помощью сканера.

Презентация:

Advertisements

Похожие презентации

помочь учащимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, воспитание информационной.

Advertisements

Системы распознавания текста Технология обработки текстовой информации.

Системы распознавания текста Технология обработки текстовой информации.

Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.

Информатика в школе Системы распознавания текста Технология обработки текстовой информации.

Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.

Система оптического распознавания документа Шинкаренко Евгений Александрович МОУ Гимназия 2 г. Чернняховск Калининградской области.

На дом: §17 Системы перевода и распознавания текстов.

Устройства ввода информации Выполняла Сорокина К. 9б.

Учитель информатики Трашков О.Л.. Обработка информации в компьютере и управление всеми его устройствами осуществляется с помощью программ. Компьютер представляет.

Тема урока:. Можете ли вы полностью ответить на следующие вопросы: Знаете ли вы, что такое текст? Из каких основных объектов он состоит? Работали ли вы.

Е.А. Тулаева МОУ СОШ 18 г.Пензы Текстовый процессор Microsoft Word Технология обработки текстовой информации.

ИНСТРУМЕНТЫ РАСПОЗНОВАНИЯ ТЕКСТОВ И КОМПЬЮТЕРНОГО ПЕРЕВОДА ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ.

Системы оптического распознавания символов. Оптическое распознавание символов механический или электронный перевод изображений рукописного, машинописного.

Программное обеспечение. Операционные системы 2010 г.

СУБД Microsoft Access 2003 ЗНАКОМСТВО. Что такое Access? Access – Приложение, входящее в состав пакета Microsoft Office (разработано компанией Microsoft).

Системы распознавания текста Технология обработки текстовой информации.

Автор: Ахтямова Флюза Мавлитбаевна РБ, Белокатайский район МБОУ СОШ с.Белянка.

Текстовая информация и компьютер 8 класс. Повторение Компьютер – это универсальное устройство для обработки информации. Компьютер работает со следующими.

ИНСТРУМЕНТЫ РАСПОЗНОВАНИЯ ТЕКСТОВ И КОМПЬЮТЕРНОГО ПЕРЕВОДА ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ Информатика и ИКТ.

Транксрипт:

Цифровая обработка изображений КИС Лекция 6

Обзор цифровой обработки изображений Цифровая обработка изображений может быть сделана с помощью сканера или цифровой камеры и систем оптического распознавания символов (OCR-систем). Ска́нер (англ. scanner) устройство, которое, анализируя какой-либо объект (обычно изображение, текст), создаёт цифровую копию изображения объекта. Процесс получения этой копии называется сканированием. В большинстве сканеров для преобразования изображения в цифровую форму применяются светочувствительные элементы на основе приборов с зарядовой связью (ПЗС). 12 ноября 2014 г.КИС *** Лекция 62

12 ноября 2014 г. 3КИС *** Лекция 6 Рис. 2. Планшетный сканер со слайд- адаптером

Обзор цифровой обработки изображений Чтобы поместить изображение в публикацию, его необходимо представить в цифровом виде. Для начала представьте, что у вас уже есть отсканированное изображение. При сканировании информация о цвете изображения преобразуется в набор пикселей (pixel от Picture Element) или таблицу, состоящую из конечного числа квадратиков определенного цвета. 12 ноября 2014 г.КИС *** Лекция 64

Обзор цифровой обработки изображений Если задать каждому цвету номер, то получится матрица, состоящая из чисел. Это и есть оцифровка изображения. Далее полученные данные можно сохранить в файл. После обработки полученного изображения его импортируют в публикацию, созданную, скажем, в Scribus или QuarkXPress. Во время вывода пиксели заменяются последовательностями полутоновых точек, которые и видны на бумаге. Точки не имеют цвета и имеют разный размер, благодаря чему создается впечатление наличия разных оттенков. 12 ноября 2014 г.КИС *** Лекция 65

Получение изображения цифровой камерой Сканирование самый распространенный, но не единственный способ получения изображений в цифровом виде. Вместо сканера можно использовать цифровые камеры, которые позволяют снятые на них изображения открывать сразу же в программе редактирования, например в Photoshop или Gimp. Качество такого изображения зависит от возможностей камеры. Цифровая фотокамера это фотоаппарат с традиционной оптической схемой, но использующий вместо пленки специальное устройство для приема изображения CCD-матрицу или CMOS-матрицу. 12 ноября 2014 г.КИС *** Лекция 66

12 ноября 2014 г. 7КИС *** Лекция 6 Рис. 3. Panasonic Lumix DMC-LX2 Рис. 4. Цифровой фотоаппарат с контрольным дисплеем

Получение изображения цифровой камерой Основным параметром матрицы является ее разрешение. Это количество светочувствительных элементов пикселей, расположенных на ней. В описании фотокамеры обычно указывается число пикселей в миллионах. Чем больше число пикселей, тем выше качество изображения. Например, камера Nikon Coolpix P90 имеет матрицу : Физический размер матрицы: 1/2.33"; Эффективное число пикселей: 12.1 Мп; Максимальное разрешение:4000 x ноября 2014 г.КИС *** Лекция 68

Получение изображения цифровой камерой От разрешения матрицы зависит максимальное разрешение и, следовательно, качество изображения, которое получается при съемке. Практически все камеры позволяют делать снимки в нескольких разрешениях, а в описаниях фотокамер указывают максимальное и минимальное разрешение. Разрешение 640 х 480 можно на сегодняшний день считать минимальным. Такое разрешение используется при публикации снимков в Интернете, поскольку такие изображения нормально выглядят на экране монитора (см. рис. 5). 12 ноября 2014 г.КИС *** Лекция 69

Рис. 5. Фотография для Web-страницы с разрешением 500 х 375 точек 12 ноября 2014 г. 10КИС *** Лекция 6

OCR-системы Cognitive OpenOCR

Что такое системы распознавания или OCR-системы? Технология оптического распознавания, или OCR (от англ. Optical Character Recognition), позволяет преобразовывать различные типы документов (например, бумажные документы, PDF-файлы или фотографии текстов, полученные при помощи цифровой камеры) в редактируемый вид с возможностью полнотекстового поиска. Это может быть книга, газета, журнал, факс - любой документ, который надо перенести в компьютер в электронном виде. 12 ноября 2014 г.КИС *** Лекция 612

Для чего нужны OCR-системы? Допустим, вам необходимо оцифровать журнальную статью или договор. У вас два пути: либо несколько часов перепечатывать текст на компьютере и затем править ошибки, либо за несколько минут отсканировать его (или сфотографировать цифровой камерой) и обработать специальной программой для оптического распознавания символов. 12 ноября 2014 г.КИС *** Лекция 613

Как работают OCR-системы? Принцип работы OCR-систем: OCR-системы очень просты в своем использовании. 12 ноября 2014 г.КИС *** Лекция 614 Достаточно выполнить всего 3 действия: Вы вставляете документ в сканер; Нажимаете кнопку "Сканировать и распознать"; И распознанный текст появляется в окне текстового редактора (например, MS Word).

Как работают OCR-системы? Если у вас под рукой нет сканера, то вам придет на помощь цифровой фотоаппарат или мобильный телефон с фотокамерой: Вы фотографируете документ или часть документа; Подключаете фотоаппарат к компьютеру и нажимаете кнопку "Получить изображение и распознать"; И распознанный текст появляется в окне текстового редактора (например, MS Word). Все довольно просто! Вы экономите ваше время и силы на перепечатывание текста! 12 ноября 2014 г.КИС *** Лекция 615

Системы оптического распознавания символов Программы OCR (Optical Character Recognition, Оптического Распознавания Символов) анализируют графические файлы (например, полученные со сканера), распознают содержащийся в них текст, и представляют в виде обычного электронного документа. Большая часть систем этого рода умеет распознавать печатный текст, причем достаточно требовательна к качеству печати. Однако уже существует ряд систем, способных работать и с рукописным текстом. 12 ноября 2014 г.КИС *** Лекция 616

Распознавание рукописного текста Системы распознавания рукописного текста (преобразования рукописного письма в соответствующий печатный текст или команды в режиме реального времени) наконец вступают в область зрелых, готовых к широкому применению технологий. 12 ноября 2014 г. 17КИС *** Лекция 6

Распознавание рукописного текста Несколько преждевременно появившись на рынке в ранних КПК (где они использовались большей частью в сильно формализованном виде, поэтому для надежного распознавания приходилось писать специальными значками типа стенографических), эти технологии вызвали некоторое разочарование, но сейчас, спустя десять лет, они могут получить применение в таких устройствах, как Tablet PC и Ultra Mobile PC (UMPC). 12 ноября 2014 г.КИС *** Лекция 618

Распознавание рукописного текста Реально работающие технологии рукописного ввода уже широко используются в таких отраслях, как почта, финансовые операции и заполнение каких-либо стандартизованных форм. Из лидеров в области рукописного ввода можно отметить такие компании, как IBM, Microsoft, Nuance Communications и Paragon Software. 12 ноября 2014 г.КИС *** Лекция 619

OCR-системы В России рынок программных продуктов распознавания символов представлен в основном несколькими продуктами. В основном это семейство FineReader от компании ABBYY (коммерческий программный продукт), и группа продуктов Cuneiform [kju:niifo:m]( в переводе - клинопись), разработанная компанией Cognitive Technologies. 12 ноября 2014 г.КИС *** Лекция 620

ABBYY FineReader ABBYY FineReader омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания». 12 ноября 2014 г.КИС *** Лекция 621

OCR-системы Процесс ввода документа в компьютер можно подразделить на два этапа: 1.Сканирование. На первом этапе сканер играет роль «глаза» Вашего компьютера: «просматривает» изображение и передает его компьютеру. При этом полученное изображение является ни чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе. 12 ноября 2014 г.КИС *** Лекция 622

Рис. 6. Сканирование в ABBYY FineReader ноября 2014 г. 23КИС *** Лекция 6

OCR-системы 2.Распознавание. Обработка изображения OCR-системой. Остановимся на втором шаге более подробно. Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы. 12 ноября 2014 г.КИС *** Лекция 624

OCR-системы Распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания». Целостность - объект описывается как целое с помощью значимых элементов и отношений между ними. Целенаправленность - распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. Адаптивность - способность OCR-системы к самообучению. 12 ноября 2014 г.КИС *** Лекция 625

Рис. 7. Процесс распознавания в ABBYY FineReader ноября 2014 г. 26КИС *** Лекция 6

Рис. 8. Результат распознавания в ABBYY FineReader ноября 2014 г. 27КИС *** Лекция 6

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма. 12 ноября 2014 г.КИС *** Лекция 628 технология «целостного целенаправленного адаптивного распознавания»

ABBYY FineReader В результате работы в окне FineReader появится распознанный текст, который Вы можете отредактировать (см. рис. 8) и сохранить в наиболее удобном для Вас формате. Распределенная обработка документов по сети дает возможность обрабатывать изображения одновременно на нескольких рабочих станциях, например на одном компьютере происходит сканирование, на другом – распознавание, на третьем – проверка результатов. 12 ноября 2014 г.КИС *** Лекция 629

ABBYY FineReader С помощью ABBYY FineReader Рукопись вы можете обрабатывать даже не машиночитаемые формы (так называемые гибкие формы). Это возможно благодаря уникальной технологии FlexiForm, реализованной в FineReader Рукопись. 12 ноября 2014 г.КИС *** Лекция 630

Системы оптического распознавания тесно интегрированы с офисными пакетами. Распознанный текст может быть напрямую передан, например, в Microsoft Office, Adobe Acrobat, Web-браузер и обработан там в обычном порядке. 12 ноября 2014 г. 31КИС *** Лекция 6

ABBYY FineReader Professional Edition Профессиональная версия FineReader Professional Edition является одним из самых лучших Приложений Оптического Распознавания символов (OCR). И это не удивительно, ведь она сделана русскими специалистами. FineReader Professional Edition рекомендуется для локального использования. Встроенный редактор позволяет редактировать размещение изображения вручную, если, например, нет необходимости распознавать всё изображение. 12 ноября 2014 г.КИС *** Лекция 632

ABBYY FineReader Professional Edition 8.0 Профессиональная версия Вы можете отредактировать распознанный текст при просмотре вашего исходного текста. Встроенная программа поиска опечаток проверит текст. Версия поддерживает пакетную обработку документа: сохраняет исходные изображения, пакетные опции и распознанные тексты в той же самой папке. Система поддерживает прямой доступ (интеграцию) из MS Office (Word, Excel...) и фоновое распознавание. 12 ноября 2014 г.КИС *** Лекция 633

ABBYY FineReader 11 Corporate Edition ( 12 ноября 2014 г.КИС *** Лекция 634

Основы сканирования Профессиональное сканирование сложный процесс, требующий не только опыта и навыков, но и достаточно глубоких знаний теории цвета, технологии печати и технических характеристик конкретных моделей сканеров. Сканер это то устройство, с помощью которого в компьютер попадает изображение. Он обрабатывает свет, отраженный от непрозрачных оригиналов или пропущенный слайдом, и генерирует соответствующие показатели интенсивности в диапазоне от 0 до 255 для каждого из трех первичных аддитивных цветов (красного, зеленого, синего). 12 ноября 2014 г.КИС *** Лекция 635

Основы сканирования Существует множество разнообразных сканеров: настольные, планшетные сканеры, высокопроизводительные барабанные сканеры. Задача сканирования заключается в наиболее полном считывании информации с оригинала. При этом желательно при необходимости скорректировать недостатки оригинала с точки зрения последующего использования изображения. Например, компенсировать нежелательный цветовой сдвиг, тоновый дисбаланс или подавить полиграфический растр оригинала. 12 ноября 2014 г.КИС *** Лекция 636

OCR-системы с открытыми исходными кодами 12 ноября 2014 г.КИС *** Лекция 637

Cognitive OpenOCR Cognitive OpenOCR первая в России OCR-система с открытыми исходными кодами Cognitive Technologies открыла исходные коды интерфейса системы распознавания текстов OCR Cuneiform и анонсировала дальнейшие планы развития проекта Cognitive OpenOCR. Об этом было объявлено на выставке Softool 2008 на совместной с GNU/Linuxcenter пресс- конференции. На мероприятии были продемонстрированы уже имеющиеся результаты проекта показана работа OCR-комплекса, собранного из кодов ядра распознавания, под управлением ОС Linux. Это событие очередной шаг программы «Распознавание должно быть на каждом компьютере», цель которой сделать общедоступными технологии OCR, благодаря открытости кода и нулевой стоимости ПО. 12 ноября 2014 г.КИС *** Лекция 638

Cognitive OpenOCR Открытие кодов интерфейса программы имеет большое значение для пользователей свободного программного обеспечения. Если открытые коды ядра распознавания были ориентированы в основном на разработчиков и системных программистов, которые могли встраивать технологии OCR в свои программные продукты, то сейчас домашние и корпоративные пользователи могут самостоятельно собрать и использовать OCR-систему полностью из открытых кодов. Кроме этого, публикация исходных кодов интерфейса позволит расширить круг участников проекта OpenOCR. Теперь разработчики сообщества Open Source получат возможность, наряду с развитием функциональных возможностей, вносить улучшения в текущий и создавать новые пользовательские интерфейсы системы. 12 ноября 2014 г.КИС *** Лекция 639

В Петербурге разработана начальная версия OCR-системы с открытым кодом Группа сотрудников факультета Прикладной Математики- Процессов Управления Санкт-Петербургского государственного университета при поддержке компании Digital Design разработала начальную версию продукта с открытым кодом для распознавания графических изображений "Система распознавания текстов". 12 ноября 2014 г.КИС *** Лекция 640

Идея разработать открытую программу распознавания текста возникла на факультете ПМ-ПУ как продолжение научных исследований, ведущихся на факультете. «Практическое значение этой идеи очевидно, - утверждает директор Департамента развития и исследований Digital Design Владимир Габриель. - Несмотря на наличие большого количества программных продуктов для распознавания текста (Fine Reader фирмы ABBYY, CuneiForm фирмы Cognitive Technologies, Caere OmniPage), на рынке нет программ с открытым кодом, позволяющих встраивать функции распознавания текста в программные системы, разработанные независимыми производителями». 12 ноября 2014 г.КИС *** Лекция 641

В октябре 2003 года инициативная группа преподавателей факультета прикладной математики и процессов управления начали работу над проектом. В ходе реализации проекта его участникам удалось добиться определенных успехов в разработке и отладке рабочих алгоритмов и создать прообраз ядра программной системы, работу которого демонстрирует сетевая версия, доступная на сайте проекта. Система распознает графическое изображение и тексты, напечатанных некоторым ограниченным набором стандартных шрифтов, при условии хорошего разрешения изображений. В результате работы система формирует файл, содержащий распознанный текст. Система имеет возможность расширения за счет подключения новых, ранее неизвестных ей шрифтов. 12 ноября 2014 г.КИС *** Лекция 642

Разглядеть всё: FineReader против Cuneiform Николай Петроченко, 27 октября 2009, рубрики: Мега-Soft Когда речь заходит о программах для распознавания символов, практически все русскоязычные пользователи уверенно заявляют: в этом секторе бесплатных альтернатив ABBYY FineReader нет. Но на самом деле с недавних пор выбор есть, ведь российская компания Cognitive Technologies открыла исходные коды своего продукта Cuneiform, сделав его доступным всем. И мы столкнём двух гигантов лицом к лицу в попытке выяснить, что же лучше: отрытый код и бесплатность, или коммерческая разработка. Немного истории Чтобы лучше понять нынешнее положение дел на рынке OCR-систем, необходимо вспомнить историю рассматриваемых программ. 12 ноября 2014 г.КИС *** Лекция 643

FineReader против Cuneiform По странному стечению обстоятельств, первые публичные версии обоих программ увидели свет в 1993 году. Именно тогда молодая компания BIT Software (будущая ABBY) выпустила систему распознавания символов FineReader 1.0, а только что созданная Cognitive Technologies выпускает шрифтонезависимую систему распознавания OCR CuneiForm и даже лицензирует её канадской Corel Corporation для использования в пакете Corel Draw ноября 2014 г.КИС *** Лекция 644

FineReader против Cuneiform Год спустя ABBY подписывает контракт с Recognita Corp. И начинает распространение FineReader в Европе и США, а также договаривается с компанией «Фитек» о комплектации поставляемых ею сканеров Logitech системой FineReader 2.0 Light. Год 1996-й ознаменовался выпуском CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания. А ABBY тем временем продала исходный код FineReader компании Samsung Electronics (корейские специалисты использовали этот код при разработке фирменного программного обеспечения для своей продукции). Адаптивное распознавание метод, основанный на комбинации двух алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, адаптируясь к конкретным входным символам. 12 ноября 2014 г.КИС *** Лекция 645

FineReader против Cuneiform Дальнейшее развитие обоих систем шло практически параллельно. Однако, в 2004 году Cognitive Technologies практически остановила развитие CuneiForm, тогда как ABBYY продолжает совершенствовать свой продукт по сей день. После нескольких лет перерыва в разработке, 12 декабря 2007 года Cognitive объявила об открытии исходных кодов своей OCR-системы. Само же открытие состоялось 2 апреля 2008 года. До сего момента, впрочем, сообщество OpenSource не опубликовало ни одной новой версии CuneiForm, сосредоточившись на чистке кода ядра распознавания и подготовке его к портированию на отличные от Windows платформы. Первые версии графических интерфейсов к модифицированному ядру, основанные на библиотеки Qt 4, уже опубликованы для платформы Linux. 12 ноября 2014 г.КИС *** Лекция 646

FineReader против Cuneiform На ринг! В сегодняшнем противостоянии будут участвовать последняя на данный момент Windows-версия CuneiForm 12, доступная на сайте разработчиков (33 Мбайт, OpenSource), а также лицензионная версия ABBY FineReader 9.0 Professional (последняя на данный момент версия 10.0 вышла в конце сентября 2009 года и ещё не успела получить широкого распространения). В ходе тестирования мы изучим функциональные возможности программ, их интерфейсы и что самое важное испытаем обоих противников на нескольких документах разной сложности, проверив качество распознавания. 12 ноября 2014 г. 47КИС *** Лекция 6

FineReader против Cuneiform Встречаем по одёжке... Знакомство с любой программой начинается с интерфейса, ведь даже самая функциональная программа, с которой неудобно работать, растеряет половину своих пользователей. 12 ноября 2014 г. 48КИС *** Лекция 6

FineReader против Cuneiform В этом отношении между нашими конкурентами установился паритет обе программы отличаются достаточно аскетичным интерфейсом, с минимальным набором элементов управления. В плане удобства работы интерфейсы также можно считать равнозначными. Единственный минус CuneiForm дизайн в стиле давно почившей Windows 98, что может не сильно понравиться пользователям, привыкшим к красотам Vista и Windows 7. У FineReader же не всё идеально с интерфейсом в режиме редактирования документа большее, чем у конкурента, число функций сказалось не самым лучшим образом. 12 ноября 2014 г.КИС *** Лекция 649

FineReader против Cuneiform...и по уму Обычно по уму провожают, но в нашем случае умом будут считаться заявленные характеристики испытуемых программ. В этом раунде победу, как ни крути, придётся отдать FineReader планомерно развиваясь на протяжении последних 5 лет, он успел заметно обогнать конкурента. Впрочем, и возможностей CuneiForm будет более чем достаточно для рядового пользователя. Он умеет открывать графические файлы, принимать изображения со сканера, автоматически производить разметку документа, распознавать таблицы и, конечно же, текст, форматировать распознанный документ в Word-подобном редакторе и экспортировать результаты свое работы в Word и Excel. 12 ноября 2014 г.КИС *** Лекция 650

FineReader против Cuneiform Единственный существенный недостаток бесплатной программы невозможность работы с документами в формате PDF. FineReader в добавок к уже перечисленным функциям умеет работать с PDF (открывать для распознавания и сохранять), получать изображения с цифровых фотокамер, автоматически определять угол наклона распознаваемого документа и очищать изображение от мусора, сохранять результат работы в форматах последних версий Office (docx, xlsx), распознавать штрих-коды и работать на многоядерных процессорах (с соответствующим приростом производительности). 12 ноября 2014 г.КИС *** Лекция 651

FineReader против Cuneiform Лицом к лицу В качестве тестового задания мы использовали несколько образцов разной степени сложности, однако полная картинка открылась уже на самом простом (как нам казалось) тесте. Исходное задание было таким: распознать сфотографированный на цифровую камеру лист формата А4, на котором в два столбца размещался текст, набранный шрифтом Times New Roman кегля 12pt (см. рисунок). Задача усложнялась тем, что текст на изображении был повернут под углом примерно 3 градуса, из-за плохих условий съёмки был немного размыт, а в добавок имелись оптические искажения, вызванные тем, что лист при фотографировании был незначительно изогнут. 12 ноября 2014 г.КИС *** Лекция 652

12 ноября 2014 г. 53КИС *** Лекция 6 FineReader против Cuneiform

Для CuneiForm распознавание этого документа оказалось задачей почти не разрешимой. Подумав всего 5 секунд, программа выдала результат, в котором действительно правильно было распознано менее 10% слов. Остальное было распознано либо с ошибками, либо превратилось в нечитаемый мусор. FineReader показал гораздо лучший результат: ни одной ошибки и около двух десятков «сомнительных» символов (почти все они в итоге оказались верными программа просто перестраховывалась). Опыт был повторён после небольшой зачистки документа в графическом редакторе: вычищены шумы, увеличена резкость, текст расположен строго горизонтально (при этом символы были немного искажены, поскольку разрешение изображения оставляло желать лучшего). 12 ноября 2014 г.КИС *** Лекция 654

FineReader против Cuneiform Такое вмешательство принесло свои плоды: CuneiForm увеличил число правильно распознанных символов примерно до 20%. В случае с FineReader результат практически не изменился. Дальнейшие опыты только подтвердили первое впечатление: бесплатная программа, увы, устарела и в настоящее время годится лишь для работы с идеально отсканированными документами с достаточно простой структурой. Правда, к её чести стоит сказать, что в текстовый редактор она передаёт документы более корректно (FineReader при передаче описанного выше примера перемудрил с разметкой, в результате чего дальнейшее редактирование документа в OpenOffice Writer превратилось в весьма нетривиальную задачу). 12 ноября 2014 г.КИС *** Лекция 655

FineReader против Cuneiform Итого Во многих областях OpenSource ПО уже давно на равных конкурирует с коммерческими разработками, а кое-где даже постепенно вырывается вперёд. Однако в сфере OCR время массового распространения открытых программ ещё не настало. CuneiForm оправдывает лишь тот факт, что эта система находится на начальной стадии своего OpenSource-пути и у неё всё ещё впереди. А пока пользователям, желающим получать гарантированный результат, по-прежнему придётся платить. И скорее всего их покупкой будет одна из последних версий FineReader. 12 ноября 2014 г.КИС *** Лекция 656

всё! 12 ноября 2014 г.КИС *** Лекция 657