* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте.

Презентация:



Advertisements
Похожие презентации
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Advertisements

ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Квадратичная функция. Цель урока: Знать: Определение квадратичной функции Алгоритм построения графика квадратичной функции вида y = a x² и y = a x² + с.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Специфика геометрических алгоритмов и структур данных Специфика геометрических алгоритмов и структур данных Основные геометрические структуры данных и.
Примеры обработки информации (Алгоритмы) Примеры обработки информации (Алгоритмы)
Подготовка и решение задач на компьютере Подготовка и решение задач на компьютере делится на следующие этапы: 1) постановка задачи и разработка технического.
Алгоритмы иерархического поиска пути в играх Андрей Плахов
Приемы и методы работы со сжатыми данными Борисов В.А. КАСК – филиал ФГБОУ ВПО РАНХ и ГС Красноармейск 2011 г.
Презентация по теме MathCAD Выполнил: Боровков Алексей гр. М-211.
1 Частное двух функций.. 2 Содержание определение h(x) = f(x) / g(x) Алгоритм построения h(x) = f(x) / g(x) построение у = 1 / g(x) Примеры у = х 2 /х.
Интерфейс электронных таблиц. Данные в ячейках таблицы. Основные режимы работы.
Владивостокский государственный университет экономики и сервиса Институт иностранных языков Кафедра русского языка ТЕОРЕТИЧЕСКАЯ ГРАММАТИКА Тема 1. Морфология.
Диофантовы модели сети MPLS для восстановления соединений Кулаков Кирилл Александрович Петрозаводский государственный университет Москва
ОПОЗНАВАНИЕ СЛОЖНЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ НА ОСОВЕ ПРЕДСТАВЛЕНИЯ ИХ КОМПОЗИЦИЯМИ ЗНАКОПЕРЕМЕННЫХ ПСЕВДОСЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В.Ф. Соломатин.
Электронные таблицы (табличные процессоры) урок для 10 класса Выполнил учитель информатики МБОУСОШ 20 г. Минеральные Воды Гиндлер Елена Викторовна 2011.
Восстановление соединений сети mpls с использованием линейных диофантовых моделей Кулаков Кирилл Александрович Петрозаводский государственный университет.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Транксрипт:

* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте

* Санкт-Петербург 2007 * Принципы Отсутствие предварительной разметки текста Автоматическая обработка Статистические критерии выделения структур Иерархическое построение Наличие классов свободного варьирования Представление исходного текста в виде графа Итерационное выявление новых структур на основе уже существующих

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные

* Санкт-Петербург 2007 * Деление исходного текста на «морфемы» формальное и искусственное деление выбор самой длинной морфемы использован список морфем из первого тома Русской Грамматики деление на ММЕ (минимальные морфологические единицы) или слова

* Санкт-Петербург 2007 * Примеры деления слова на ММЕ который оказался прекрасный

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные

* Санкт-Петербург 2007 * Построение графа составляющих Предложение Граф составляющих ММЕ Узел графа: сама морфема список предыдущих морфем список последующих морфем информация об индексах морфемы служебная информация (координаты и др.)

* Санкт-Петербург 2007 * Примеры графа составляющих

* Санкт-Петербург 2007 * Примеры графа составляющих

* Санкт-Петербург 2007 * Примеры графа составляющих

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные

* Санкт-Петербург 2007 * Шаблоны-кандидаты Шаблон-кандидат – последовательность узлов графа составляющих, встречающаяся в достаточном большом числе предложений Обнаружение шаблона-кандидата

* Санкт-Петербург 2007 * Нахождение значимых шаблонов Значимый шаблон – шаблон-кандидат, удовлетворяющий определенным статистическим критериям Необходимо построить вероятностные функции для выявления границ значимого шаблона

* Санкт-Петербург 2007 * Построение вероятностных функций

* Санкт-Петербург 2007 * Использование вероятностных функций Формирование матрицы на основе функций Pr и Pl вдоль пути S графа составляющих:

* Санкт-Петербург 2007 * Построение вероятностных функций Представление вероятностных функций

* Санкт-Петербург 2007 * Построение вероятностных функций Построение дополнительных функций для определения скорости падения функций P r и P l : Пороговое значение: η = 0.33

* Санкт-Петербург 2007 * Итоговая оценка шаблона-кандидата Критерий оценки шаблона-кандидата:

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные

* Санкт-Петербург 2007 * Выявление классов эквивалентности Класс эквивалентности - набор вершин, которые являются взаимозаменяемыми в данном контексте (класс свободного варьирования) определить окно длины L определить в рамках данного окна слот получить шаблон, имеющий префикс, суффикс и класс эквивалентности в позиции слота Алгоритм:

* Санкт-Петербург 2007 * Пример класса эквивалентности … Cindy thinks that George thinks that to read is tough. that the bird is eager to read bothers the dog. Pam thinks that Jim thinks that to read is tough. Pam believes that Cindy thinks that to please is tough. that the cat is easy to read disturbs George. Cindy believes that George thinks that to read is easy. Pam believes that Joe thinks that to please is tough. Cindy believes that Joe believes that to please is easy. Cindy believes that George thinks that to read is easy... Отрывок текста корпуса CHILDES:

* Санкт-Петербург 2007 * Пример класса эквивалентности thatthinks George Pam Cindy Joe Класс эквивалентности суффикс префикс

* Санкт-Петербург 2007 * Пример класса эквивалентности иКатерина жила получила Класс эквивалентности суффикс префикс

* Санкт-Петербург 2007 * Пример класса эквивалентности пое интер к л м Класс эквивалентности суффикс префикс р

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные

* Санкт-Петербург 2007 * Образование новых узлов в графе Образование нового узла P

* Санкт-Петербург 2007 * Тестовые данные Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур

* Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Простой узел

* Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Более сложный узел

* Санкт-Петербург 2007 * Пример структуры узла Простой узел

* Санкт-Петербург 2007 * Пример структуры узла Простой узел

* Санкт-Петербург 2007 * Пример структуры узла Более сложный узел

* Санкт-Петербург 2007 * Тестирование программы на различных текстах Один из текстов Национального корпуса русского языка из раздела публицистики (1400 слов – 843 уникальных) Найдено: 163 класса эквивалентности 45 значимых шаблонов Фрагмент текста, представляющего собой слова родителей, обращенные к детям (корпус текстов CHILDES) (2020 слов – 27 уникальных) Найдено: 13 классов эквивалентности 4 значимых шаблонов