Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова.

Презентация:



Advertisements
Похожие презентации
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
Advertisements

Секция 2. Онтологии и метаинформация в системах поиска Председатель: Е.Б. Кудашев Институт космических исследований РАН Механико-математический факультет.
Системы управления базами данных СУБД является универсальным программным средством предназначенным для создания и ведения(обслуживания) баз данных на внешних.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
Система программ «1 С: ПРЕДПРИЯТИЕ» Структура Элементы Средства.
Базы данных в электронных таблицах. Что называется базой данных? Какие примеры баз данных вы знаете? Какие существуют формы представления баз данных?
Диаграммы компонентов применяют при проектировании физической структуры разрабатываемо программного обеспечения. Эти диаграммы показывают, как выглядит.
Базы данных Назначение и основные функции Гусельникова Е.В. МБОУ Лицей 130 имени академика М.А.Лаврентьева Новосибирск, 2011.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Системы управления базами данных (СУБД). Необходимо различать Базы данных, которые являются упорядоченным набором данных. Создание баз данных, а также.
Восстановление текстов программ по преобразованному синтаксическому дереву Выполнил: Юрий Литвинов, 545гр. Научный руководитель: Дмитрий Копаев.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Моделирование. Работу выполнила Ирина Бахтина Ученица 9 и класса.
Сетевая база данных по физико-химическим свойствам металлов и неорганических материалов Гельчинский Б.Р., Леськив С.С., Шуняев К.Ю., Станкус С.В., Титов.
Билет Табличные базы данных (БД): основные понятия (поле, запись, первичный ключ записи); типы данных. Системы управления базами данных и принципы.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Предмет изучения кибернетики как теории управления.
Виды моделей данных. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Разработка структуры программного обеспечения при объектом подхода.
Транксрипт:

Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова

Основная цель При построении терминологических словарей важную роль играют многословные термины. Они составляют 80% всех терминов предметной области. Разработка алгоритмов извлечения из текста синтаксически связанных словосочетаний.

Постановка задачи Разработать формальное представление словосочетаний текста в виде последовательности слов, а также дерева зависимостей между словами. Разработать представление правил, предназначенных для автоматического извлечения словосочетаний из текста. Разработать словарь словосочетаний, поддерживающий эффективное извлечение словосочетаний из текста и обеспечивающий удобный доступ к его элементам. Разработать алгоритмы автоматического извлечения словосочетаний из текста по заданным правилам. Разработать пользовательский интерфейс, позволяющий лингвисту управлять процессом извлечения словосочетаний.

Структура словосочетания Словосочетание – Phrase состоит из 4 элементов: Phrase = Parts – Упорядоченная последовательность слов в словосочетании, где каждому ее элементу соответствует слово словосочетания в нормальной форме. Пример 1: для словосочетания Государственный фонд занятости населения РФ

Структура словосочетания P hrase = Relations – Набор пар: позиции главного и подчиненного слова, и набор морфологический признаков, по которым согласовываются подчиненное слово с главным Пример 2: для словосочетания Институт Ядерной Физики: Каждый из элементов Relations будет выглядеть так: (0)институт(1)ядерный(2)физика

Структура словосочетания Pattern = root - позиция корневого слова в словосочетании, то есть, является корневым, главным опорным словом. title - наименование словосочетания.

Таблица согласований Зачастую согласования между некоторыми частями различных правил или словосочетаний совпадают. Например очень часто встречаются такие согласования как (род, число падеж) или (падеж – родительный, число единственное). Поэтому целесообразно ввести единую таблицу согласований для всей системы. с яркий (0) свет (1) Таблица согласований 1. род, число, падеж 2. Число – ед, падеж – рд 3. Число – мн, падеж – тв 4. …………… 5. …………… …… 1->0 Согл. 1 Корень (1)Яркий свет Словосочетание: ЯРКИЙ СВЕТ

Согласование Морфологическое согласование - набор параметров для согласования главного слова с подчиненным словом (падеж, род, число и пр.). Т.е. параметры, по которым необходимо осуществить согласование опорного слова данной части с зависимым словом при склонении словосочетания. Пример 4: Новосибирский Государственный Университет. Новосибирскому Государственному Университету Морфологическое управление - набор морфологических признаков и их значений, определяющих форму слову, например: «падеж=родительный», «род=мужской», «число=единственное». Пример 5: Институт гидродинамики. Институту гидродинамики

Особенности построения связей между элементами словосочетания 1. Первая связь (пара) строится от корневого слова. Пример 6: 2. В одной паре подчиненное и главное слово не может совпадать. Пример 7: 3. Для подчиненного слова существует только одно главное. Пример 8:

Структура правил Правило – Pattern состоит из 4 элементов, по аналогии с тем как строится Phrase, за исключением поля Parts: Pattern = Parts – Упорядоченная последовательность наборов морфологических классов. Пример 1: для правила [Сущ] + [Прил] + [Сущ] (Центральный Банк России) : Прил (Кач.)Сущ(мж.р неод.)Сущ(ж.р неод.) ед-ч, падеж - род род, число, падеж

Алгоритм извлечения словосочетаний из текста 0 шаг: (1 обход текста) Составляется словарь терминов. 1 шаг: (2 обход текста) Для каждого слова текста ищем все правила, с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии вольфрама и молибдена; по академической программе для претворения в практику физико- химического анализа и результатов Институт – Сущ Правило: Сущ+Прил+Сущ Позиция: 12 Сущ+Прил+Сущ Позиция: 12 Гипотеза 2 Гипотеза 3

2 шаг: (3 обход текста) Для каждой гипотезы в соответствии с текущей позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует – удаляем гипотезу из списка. 3 шаг: Для каждой гипотезы проверяем согласование заданное в правилах. Если согласование не выполнено – удаляем гипотезу из списка. 4 шаг: На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии Сущ+Прил+Сущ Позиция: 12 Сущ+Прил+Сущ Позиция: 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ+Прил+Сущ = ?

Извлечение словосочетаний ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ ТЕРМИНОВ

Словарь словосочетаний Таблица правил

Редактор словосочетаний

Редактор правил

Согласование морфологических признаков.

Результаты обработки текстов Было обработано 3 текста из разных предметных областей. Таблица правил содержала 5 основных правил

Результаты обработки текстов Название текстаСлов в тексте Гипотезы, прошедшие согласование С+СрдС+СтвС+ПП+СС+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу % Отрывок из учебного пособия по гетерогенному катализу % Михаил Шолохов "Судьба человека" %

Перспективы развития Вложенность правил (рекурсия). Необязательные и альтернативные элементы. Синтез форм словосочетаний на основе нормальной формы.