А.А. Рогов, А.В. Скабин, И.А. Штеркель Петрозаводский Государственный Университет
На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.
Бинаризация документов; создание БД графики стенографических символов; кластеризация изображений стенографических символов; создание базы данных стенографических символов; выделение строк; разработка математической модели распознавания символа; поиск символа в базе данных;
Гистограммы RGB и HSB
оригинальное изображение имеет низкое качество; при бинаризации происходят разрывы символов; при сегментации возникает необходимость разбиения символов
Отношение высоты к ширине; Подсчет количества сегментов; Поиск по шаблону; Сравнение проекций; Граф на основе точек сопряжения; Сравнение длин отрезков; Моменты Ху; Метод «Shape context».
Отношение высоты к ширине Подсчет количества сегментов Поиск по шаблону h w
Сравнение проекций Граф на основе точек сопряжения;
Сравнение длин отрезков
Моменты Ху Hu1 0,21470,20940,21760,21170,1938 Hu2 0,01390,01090,01360,00530,0034 Hu3 1,5925E-051,8696E-055,60783,0727E-055,6286E-06 Hu4 1,2413E-051,7896E-054,3674E-059,3077E-064,7169E-06 Hu5 1,7090E-103,1893E-102,1551E-091,5224E-102,4304E-11 Hu6 8,5411E-071,2221E-063,6388E-061,6644E-077,9079E-08 Hu7 3,5408E-11-7,3859E-11-1,6609E-103,9974E-111,5291E-13
Метод «Shape context» Определение номера корзины для точки:
Сравнение гистограмм: K – множество корзинок h i (k), h j (k) – значения гистограмм p i, q j – точки изображений π(i) – i-й вариант назначений
Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов); Метод поиска символа, ближайшего к уже найденному символу в строке; Комбинированный алгоритм
Искривление строк при письме: Подстрочные и надстрочные символы: Исправления в тексте:
- последовательность стенографических символов - множество его возможных распознаваний для символа - возможные трактовки распознанного символа - распознанный текст
Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной., где На основании формулы Байеса равна Оценка k-го (k>3) имеет вид
Ac – точность вычисления - расстояние между символом и его возможным эталонным значением - частота появления комбинации символов
, где частота появления фрагмента текста Данная оценка производится на основании анализа текстов автора, в данном случае Ф.М. Достоевского.