Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемДемид Яткин
1 Разработка программы лингвистического анализа для распознавания авторства текста. Выполнил: студент ИВТ-04 Гранин А. Руководитель проекта: к.т.н. Макаров Д. А.
2 Основные проблемы лингвистического анализа Проверка правописания Синтаксический анализ Распознавание авторства и выявление плагиата Фонетический анализ Удобочитаемость и благозвучие Анализ поэтических и художественных текстов «Машинное творчество»
3 Распознавание авторства текста Вероятностный характер Множество методик распознавания авторства Сравнимость текстов Проблемы: Разработка нового метода распознавания с помощью ассоциативной памяти Автоматизация сбора метрик (характеристик) текстов Создать базу, допускающую добавление других методик распознавания авторства Задачи:
4 Карта благозвучия Карта благозвучия – визуальное представление благозвучия текста. Сложность и многообразие фонетических правил звучания Отсутствие прямого соответствия между буквой и звуком Проблемы: Универсальный подход к формализации правил звучания Графическое представление правил звучания Универсальный подход к применению правил звучания Составление карты благозвучия текста на основе выявленных элементов звучания Задачи:
5 1. Конечный автомат – для разбиения текста на структурное дерево (абзацы, предложения, слова) Алгоритмы, часть 1 ВЕСЬ ТЕКСТ Абзац 1Абзац 2Абзац N … Предложение 1 … Предложение 2 Предложение M Слово 1 … Слово 2Слово K Знаки конца предложения:? !. cr lf ?! !! !!! ?!. … Знаки конца абзаца:cr lf cr+lf lf+cr Уровень 1 Уровень 0 Уровень 2 Уровень 3 Конфигурация конечного автомата – это схема разбиения текста Возможность использования нескольких схем разбиения Единообразная работа с уровнями дерева (весь текст, абзацы, предложения, слова)
6 2. Выборка образцов для сравнения Алгоритмы, часть 1 Выборка производится по трем уровням: абзацы, предложения, слова Обеспечивается минимально необходимая сравнимость текстов Возможность изменить схему выборки образцов 2 Уровень абзацев текста 1 Уровень абзацев текста 2 Уровень абзацев текста n Min количество абзацев по длинам … … … Шаблон выборки образцов по min количеству, уровень абзацев 21112
7 3. Сбор статистических характеристик образцов Алгоритмы, часть 1 Шаблон Абзацы текста Компоновка текста Частотное распределение символов Сохранение характеристик в лингвопрофиле Уровень: абзацы, текст 1 … АоУК ВЕп, к ИмиС юМ, - мкт: «вий иов» А - 10! - 4 ю - 11 а - 44? - 6 я - 10 Б - 9, - 22ё - 1 б - 15… - 4 с - 7 В - 3?! - 1 т - 33 в - 17! ь - 5 Лингвопрофиль образца 1
8 Алгоритмы, часть 1 4. Нейросистема Хэмминга – компьютерная реализация ассоциативной памяти Эталонные сигналы («память» нейросистемы) Входной сигнал Пороговая активационная функция Распознавание образа через нелинейную функцию нейросистемы m m k k … … x1x1 x2x2 xjxj xnxn y1y1 y2y2 ykyk ymym
9 Алгоритмы, часть 2 1. Карта благозвучия: базовое покрытие текста + элементы звучания Базовое покрытие текста: каждому символу свое значение звучания Элемент звучания – набор символов, попадающий под какое-либо правило звучания Мама мыла раму. Папа купил телевизор. Дул ветер. ЦЦЦЦ Мал золотник, да дорог.
10 Алгоритмы, часть 2 Формализация почти всех правил звучания Динамическое изменение правил в ходе анализа Возможно расширение языка 2. Язык RRL: язык правил звучания символьных фильтров управляющих команд специальных сигнатур Язык состоит из: Возможности языка: Г С Гласные Согласные … Любые другие фильтры б «Любая буква» Символьные фильтры ! Знаки Управляющие команды TBRes LinkExcit EndP Def 1,2,3… SkipReset i = n Специальные сигнатуры бnбn БnБn s (Resounding Rules Language)
11 Алгоритмы, часть 2 Однонаправленные и двунаправленные Дифференцируемые и не дифференцируемые Определяемые и неопределяемые Имеют значение звучания – действительное число 2. Язык RRL: фильтрационная схема – основа правила звучания фактически – конфигурация конечного автомата определяет разбор текста Фильтрационная схема: Правила: б 1 б 1 Excit++ Link Def(Б1, б 1) 0 б Skip i = 2 1 б EoT EndP 2 Б1Б1 Excit++ Link i = 1 б Skip Б1Б1 EndP TBRes EoT EndP i = 1 Пример фильтрационной схемы («> 2 одинаковых букв в начале слов») Правило двустороннее, не дифференцируемое CriticalExcit = 3 Influence = 0
12 Алгоритмы, часть 2 3. Конечный автомат для обработки правил звучания Конфигурация конечного автомата – это правила звучания Правила управляют конечным автоматом с помощью управляющих команд Результат анализа текста – элементы звучания Правило 1 Правило 2 Правило 3... Конечный автомат Текст Г В Б А Д Элемент звучания 1 Элемент звучания 2 Элемент звучания 3...
13 Особенности реализации Структурный конечный автомат основан на паттерне «Стратегия» Использованы паттерны проектирования MVC, Итератор, «Умные указатели» Шаблонные классы STL – Standard Template Library, стандартная шаблонная библиотека АТД OpenGL – для вывода карты благозвучия
14 «Демонстрация»
15 Результаты Повышена скорость сбора статистических данных текста Создан новый метод распознавания авторства Создан единственный в своем роде инструмент анализа Базис для создания комплексного лингвистического анализатора текстов
16 Спасибо за внимание!
17 …управляющих команд: TBRes Link Excit EndP «TimeBackReset» («Возврат во времени и Перезапуск») «Точка привязки» «Изменение возбуждения» «Процедура завершения процесса» Def 1,2,3… «Определить специальные символы с номером (1,2,3) данным символом» «Запись временной точки» Ret 1,2,3… «Возврат во времени» (множественный) Skip «Пропуск» Rem Reset «Перезапуск» i = n «Сменить текущее состояние на n»
18 Фильтрационная схема (правило) «> 2 одинаковых букв в началах слов» б 1 б 1 Excit++ Link Def(Б1, б 1) 0 б Skip i = 2 1 б EoT EndP 2 Б1Б1 Excit++ Link i = 1 б Skip Б1Б1 EndP TBRes EoT EndP Двустороннее, не дифференцируемое CriticalExcit = 3Influence = 0 i = 1
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.