Разработка программы лингвистического анализа для распознавания авторства текста. Выполнил: студент ИВТ-04 Гранин А. Руководитель проекта: к.т.н. Макаров.

Презентация:



Advertisements
Похожие презентации
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Advertisements

Библиотека стандартных шаблонов (STL) ( Standard Template Library) набор согласованных обобщённых алгоритмов, контейнеров, средств доступа к их содержимому.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Докладчик: Бульёнов А. В., аспирант Научный руководитель: Шалыто А. А., д. т. н., профессор, зав. кафедрой КТ Методы автоматного программирования в разработке.
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Постановка и алгоритмизация экономических задач
Лекция 6. Нейронные сети Хопфилда и Хэмминга Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых.
1 Тема 1.7. Алгоритмизация и программирование Информатика.
Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.
От сложного – к простому. От непонятного – к понятному.
Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
СОБОЛЕВ Сергей Сергеевич ЗОЛЬНИКОВ Владимир Константинович КРЮКОВ Валерий Петрович СОБОЛЕВ Сергей Сергеевич ЗОЛЬНИКОВ Владимир Константинович КРЮКОВ Валерий.
МГУ имени Ломоносова, механико-математический факультет, кафедра вычислительной математики Исследование проблемы переполнения буферов в программах Пучков.
Кодирование информации. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Формализованные методы в управлении предприятием Докладчик: С.И. Шаныгин Федеральное государственное бюджетное образовательное учреждение высшего профессионального.
Транксрипт:

Разработка программы лингвистического анализа для распознавания авторства текста. Выполнил: студент ИВТ-04 Гранин А. Руководитель проекта: к.т.н. Макаров Д. А.

Основные проблемы лингвистического анализа Проверка правописания Синтаксический анализ Распознавание авторства и выявление плагиата Фонетический анализ Удобочитаемость и благозвучие Анализ поэтических и художественных текстов «Машинное творчество»

Распознавание авторства текста Вероятностный характер Множество методик распознавания авторства Сравнимость текстов Проблемы: Разработка нового метода распознавания с помощью ассоциативной памяти Автоматизация сбора метрик (характеристик) текстов Создать базу, допускающую добавление других методик распознавания авторства Задачи:

Карта благозвучия Карта благозвучия – визуальное представление благозвучия текста. Сложность и многообразие фонетических правил звучания Отсутствие прямого соответствия между буквой и звуком Проблемы: Универсальный подход к формализации правил звучания Графическое представление правил звучания Универсальный подход к применению правил звучания Составление карты благозвучия текста на основе выявленных элементов звучания Задачи:

1. Конечный автомат – для разбиения текста на структурное дерево (абзацы, предложения, слова) Алгоритмы, часть 1 ВЕСЬ ТЕКСТ Абзац 1Абзац 2Абзац N … Предложение 1 … Предложение 2 Предложение M Слово 1 … Слово 2Слово K Знаки конца предложения:? !. cr lf ?! !! !!! ?!. … Знаки конца абзаца:cr lf cr+lf lf+cr Уровень 1 Уровень 0 Уровень 2 Уровень 3 Конфигурация конечного автомата – это схема разбиения текста Возможность использования нескольких схем разбиения Единообразная работа с уровнями дерева (весь текст, абзацы, предложения, слова)

2. Выборка образцов для сравнения Алгоритмы, часть 1 Выборка производится по трем уровням: абзацы, предложения, слова Обеспечивается минимально необходимая сравнимость текстов Возможность изменить схему выборки образцов 2 Уровень абзацев текста 1 Уровень абзацев текста 2 Уровень абзацев текста n Min количество абзацев по длинам … … … Шаблон выборки образцов по min количеству, уровень абзацев 21112

3. Сбор статистических характеристик образцов Алгоритмы, часть 1 Шаблон Абзацы текста Компоновка текста Частотное распределение символов Сохранение характеристик в лингвопрофиле Уровень: абзацы, текст 1 … АоУК ВЕп, к ИмиС юМ, - мкт: «вий иов» А - 10! - 4 ю - 11 а - 44? - 6 я - 10 Б - 9, - 22ё - 1 б - 15… - 4 с - 7 В - 3?! - 1 т - 33 в - 17! ь - 5 Лингвопрофиль образца 1

Алгоритмы, часть 1 4. Нейросистема Хэмминга – компьютерная реализация ассоциативной памяти Эталонные сигналы («память» нейросистемы) Входной сигнал Пороговая активационная функция Распознавание образа через нелинейную функцию нейросистемы m m k k … … x1x1 x2x2 xjxj xnxn y1y1 y2y2 ykyk ymym

Алгоритмы, часть 2 1. Карта благозвучия: базовое покрытие текста + элементы звучания Базовое покрытие текста: каждому символу свое значение звучания Элемент звучания – набор символов, попадающий под какое-либо правило звучания Мама мыла раму. Папа купил телевизор. Дул ветер. ЦЦЦЦ Мал золотник, да дорог.

Алгоритмы, часть 2 Формализация почти всех правил звучания Динамическое изменение правил в ходе анализа Возможно расширение языка 2. Язык RRL: язык правил звучания символьных фильтров управляющих команд специальных сигнатур Язык состоит из: Возможности языка: Г С Гласные Согласные … Любые другие фильтры б «Любая буква» Символьные фильтры ! Знаки Управляющие команды TBRes LinkExcit EndP Def 1,2,3… SkipReset i = n Специальные сигнатуры бnбn БnБn s (Resounding Rules Language)

Алгоритмы, часть 2 Однонаправленные и двунаправленные Дифференцируемые и не дифференцируемые Определяемые и неопределяемые Имеют значение звучания – действительное число 2. Язык RRL: фильтрационная схема – основа правила звучания фактически – конфигурация конечного автомата определяет разбор текста Фильтрационная схема: Правила: б 1 б 1 Excit++ Link Def(Б1, б 1) 0 б Skip i = 2 1 б EoT EndP 2 Б1Б1 Excit++ Link i = 1 б Skip Б1Б1 EndP TBRes EoT EndP i = 1 Пример фильтрационной схемы («> 2 одинаковых букв в начале слов») Правило двустороннее, не дифференцируемое CriticalExcit = 3 Influence = 0

Алгоритмы, часть 2 3. Конечный автомат для обработки правил звучания Конфигурация конечного автомата – это правила звучания Правила управляют конечным автоматом с помощью управляющих команд Результат анализа текста – элементы звучания Правило 1 Правило 2 Правило 3... Конечный автомат Текст Г В Б А Д Элемент звучания 1 Элемент звучания 2 Элемент звучания 3...

Особенности реализации Структурный конечный автомат основан на паттерне «Стратегия» Использованы паттерны проектирования MVC, Итератор, «Умные указатели» Шаблонные классы STL – Standard Template Library, стандартная шаблонная библиотека АТД OpenGL – для вывода карты благозвучия

«Демонстрация»

Результаты Повышена скорость сбора статистических данных текста Создан новый метод распознавания авторства Создан единственный в своем роде инструмент анализа Базис для создания комплексного лингвистического анализатора текстов

Спасибо за внимание!

…управляющих команд: TBRes Link Excit EndP «TimeBackReset» («Возврат во времени и Перезапуск») «Точка привязки» «Изменение возбуждения» «Процедура завершения процесса» Def 1,2,3… «Определить специальные символы с номером (1,2,3) данным символом» «Запись временной точки» Ret 1,2,3… «Возврат во времени» (множественный) Skip «Пропуск» Rem Reset «Перезапуск» i = n «Сменить текущее состояние на n»

Фильтрационная схема (правило) «> 2 одинаковых букв в началах слов» б 1 б 1 Excit++ Link Def(Б1, б 1) 0 б Skip i = 2 1 б EoT EndP 2 Б1Б1 Excit++ Link i = 1 б Skip Б1Б1 EndP TBRes EoT EndP Двустороннее, не дифференцируемое CriticalExcit = 3Influence = 0 i = 1