МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Часть 6 3 класс. Арифметические действия (50 часов) Определение остатков, которые могут получаться при делении на данное число. Наименьший и наибольший.
ИНСТРУКТАЖ ПО ЗАПОЛНЕНИЮ БЛАНКОВ ЕГЭ Для подготовки к ЕГЭ советуем Вам потренироваться в заполнении бланков ЕГЭ. Ведь правильно решенное задание нужно.
Науки. Перечислите естественные и гуманитарные науки. естественныегуманитарные.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Инструментальные средства создания Web-сайтов
Разработка средств автоматического синтаксического анализа как модуля системы понимания текста Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю.
Государственная итоговая аттестация 9 класс. На экзамене разрешается иметь при себе дополнительные материалы, указанные в инструкциях экзаменационных.
Синтаксис
Создание базы данных терминологических словарей Якшин М. М. БЕН РАН.
ТИПОЛОГИЯ ТЕСТОВЫХ ЗАДАНИЙ. Всё множество применяемых в практике тестирования форм заданий можно свести к четырем, каноническим, формам, выделяемым В.С.
Презентация урока в 9 классе по теме «Заполнение БД. Дополнение её с помощью форм» Учитель математики, информатики Иванова Елена Васильевна.
Урок 2: Гипертекст "Это открытая книга... В ней есть словарные статьи, перекрестные ссылки и комментарии как в священных книгах или кроссвордах, и все.
Урок 3. Формы представления данных (таблицы, формы, запросы, отчеты)
Автоматическая обработка естественного языка I. Обработка письменного текста.
Статистические показатели Основная категория статистики – статистический показатель. Статистический показатель представляет собой результат обобщения информации.
Транксрипт:

МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург

Зачем? полуавтоматическое пополнение онтологии –автоматическое выделение троек «понятие» - «отношение» - «понятие» –проверка оператором

Источники Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров М.: Большая Российская энциклопедия, 2001 Раздел проекта «Википедия» на русском языке

Отношения Обобщение (значение по умолчанию) Тождество Частный случай (обратное к тождеству) Часть Целое Инструмент или назначение другое

Примеры СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки. СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО

Ещё примеры СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств. СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ

Как? Базовая гипотеза: –«родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»

Первый результат 1ИЗА («из» - рд. п., мн. ч., имя)475 2ЧАСТЬ415 3СОВОКУПНОСТЬ406 4НАЗВАНИЕ389 5СИСТЕМА347 6РАЗДЕЛ336 7ВИД305 8УСТРОЙСТВО298

Проблемы Омонимия –«о чукотском море» леммы для словоформы «море» –МОРЕ (ср.р.) –МОР (мр.р.) –МОРА (жр.р.) Мало информации: –все связи одного типа (род-вид) –связи только с одним словом в определении

Усложнённый вариант

Лексикографическая обработка сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется)

Примеры АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков

Синтаксический анализ Используются компоненты АОТ Упрощённые правила: только группы с вершиной – существительным Строится дерево зависимостей

Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP];

Грамматика: примеры ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ

Структура составляющих

Дерево зависимостей

ДоПосле Лемм / слово1,271,06 Морфологических вариантов / слово 2,261,64 Частичное снятие омонимии

Извлечение отношений Правила (код на Perl) –обход дерева зависимостей –операции: записать текущее слово с текущим названием отношения изменить текущее название отношения выбрать следующее слово

Род, вид, сорт… 1.изменить текущее название отношения на «обобщение» 2.выбрать следующее существительное 3.записать ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Пример правила

Было / стало 1иза475 2часть415 3совокупность406 4название389 5система347 6раздел336 7вид305 8устройство298 1устройство332 2минерал322 3единица293 4прибор292 5вещество277 6процесс243 7инструмент235 8элемент228

Статистика словарных статей записей в БД опорных слов

Качество Экспертная оценка 200 словарных статей: –179 (90%) – правильно –21 – неправильно: 16 - недоработки ПО (синтаксис) 5 – неверна гипотеза о том, что опорное слово есть в первом предложении определения –предел точности: / 200 = 97.5%

Примеры АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.

Википедия Отличия: –обработка wiki-разметки –оформление статей … разнообразно «первое предложение определения» надо искать –статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …) –статьи-даты («23 марта 82-й день года …») –«формализованная» информация (шаблоны) Размер: –430 тыс. статей (дамп от 6 октября 2009)

Вики-разметка вики-разметка: –'''Прего́ля''' (древнепрусск. ''Прэйгара'', {{lang- de|Pregel}} Прегель, {{lang-lt|Prieglius}}, {{lang- pl|Pregoła}}) [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи 123 км, вместе с Анграппой (один из важнейших притоков) 292 км. Площадь бассейна Преголи 15,5 тыс. км². результат: –Прего́ля (древнепрусск. Прэйгара, нем. Pregel Прегель, лит. Prieglius, польск. Pregoła) река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи 123 км, вместе с Анграппой (один из важнейших притоков) 292 км. Площадь бассейна Преголи 15,5 тыс. км².нем. лит.польск.река Балтийское мореКалининградский (Вислинский) залив

«Плохие» первые предложения Nyan Koi! ( !) манга, созданная Сато Фудзиварой. Сато Фудзиварой ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО- ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г.Государственного университета – Высшей школы экономики (ГУ-ВШЭ) «Описание мира в науке и религии отличается в своей основе. …»

Шаблоны {{НП-Россия |статус = Город |русское название = Великий Новгород |регион = Новгородская область |глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIIIIX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а) |площадь = 90,08 |население = {{Падение}} |год переписи = 2009 |плотность = 2405,6 |этнохороним = новгоро́дцы, новгоро́дец, новгоро́дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = |категория в Commons = Velikiy Novgorod |сайт = |информация для туристов = }}

Инструменты Wikipedia XML dump (все статьи одним файлом) Wikiprep.pl (версия проекта Zemanta) –вики-разметка -> ~HTML / plain text –разворачивает шаблоны –URL:

Вопросы?