Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 14 лет назад пользователемlmp
1 МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург
2 Зачем? полуавтоматическое пополнение онтологии –автоматическое выделение троек «понятие» - «отношение» - «понятие» –проверка оператором
3 Источники Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров М.: Большая Российская энциклопедия, 2001 Раздел проекта «Википедия» на русском языке
4 Отношения Обобщение (значение по умолчанию) Тождество Частный случай (обратное к тождеству) Часть Целое Инструмент или назначение другое
5 Примеры СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки. СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО
6 Ещё примеры СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств. СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ
7 Как? Базовая гипотеза: –«родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»
8 Первый результат 1ИЗА («из» - рд. п., мн. ч., имя)475 2ЧАСТЬ415 3СОВОКУПНОСТЬ406 4НАЗВАНИЕ389 5СИСТЕМА347 6РАЗДЕЛ336 7ВИД305 8УСТРОЙСТВО298
9 Проблемы Омонимия –«о чукотском море» леммы для словоформы «море» –МОРЕ (ср.р.) –МОР (мр.р.) –МОРА (жр.р.) Мало информации: –все связи одного типа (род-вид) –связи только с одним словом в определении
10 Усложнённый вариант
11 Лексикографическая обработка сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется)
12 Примеры АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков
13 Синтаксический анализ Используются компоненты АОТ Упрощённые правила: только группы с вершиной – существительным Строится дерево зависимостей
[PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NO" title="Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NO" class="link_thumb"> 14 Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP]; [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NO"> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP];"> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NO" title="Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NO">
15 Грамматика: примеры ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ
16 Структура составляющих
17 Дерево зависимостей
18 ДоПосле Лемм / слово1,271,06 Морфологических вариантов / слово 2,261,64 Частичное снятие омонимии
19 Извлечение отношений Правила (код на Perl) –обход дерева зависимостей –операции: записать текущее слово с текущим названием отношения изменить текущее название отношения выбрать следующее слово
20 Род, вид, сорт… 1.изменить текущее название отношения на «обобщение» 2.выбрать следующее существительное 3.записать ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Пример правила
21 Было / стало 1иза475 2часть415 3совокупность406 4название389 5система347 6раздел336 7вид305 8устройство298 1устройство332 2минерал322 3единица293 4прибор292 5вещество277 6процесс243 7инструмент235 8элемент228
22 Статистика словарных статей записей в БД опорных слов
23 Качество Экспертная оценка 200 словарных статей: –179 (90%) – правильно –21 – неправильно: 16 - недоработки ПО (синтаксис) 5 – неверна гипотеза о том, что опорное слово есть в первом предложении определения –предел точности: / 200 = 97.5%
24 Примеры АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.
25 Википедия Отличия: –обработка wiki-разметки –оформление статей … разнообразно «первое предложение определения» надо искать –статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …) –статьи-даты («23 марта 82-й день года …») –«формализованная» информация (шаблоны) Размер: –430 тыс. статей (дамп от 6 октября 2009)
26 Вики-разметка вики-разметка: –'''Прего́ля''' (древнепрусск. ''Прэйгара'', {{lang- de|Pregel}} Прегель, {{lang-lt|Prieglius}}, {{lang- pl|Pregoła}}) [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи 123 км, вместе с Анграппой (один из важнейших притоков) 292 км. Площадь бассейна Преголи 15,5 тыс. км². результат: –Прего́ля (древнепрусск. Прэйгара, нем. Pregel Прегель, лит. Prieglius, польск. Pregoła) река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи 123 км, вместе с Анграппой (один из важнейших притоков) 292 км. Площадь бассейна Преголи 15,5 тыс. км².нем. лит.польск.река Балтийское мореКалининградский (Вислинский) залив
27 «Плохие» первые предложения Nyan Koi! ( !) манга, созданная Сато Фудзиварой. Сато Фудзиварой ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО- ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г.Государственного университета – Высшей школы экономики (ГУ-ВШЭ) «Описание мира в науке и религии отличается в своей основе. …»
28 Шаблоны {{НП-Россия |статус = Город |русское название = Великий Новгород |регион = Новгородская область |глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIIIIX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а) |площадь = 90,08 |население = {{Падение}} |год переписи = 2009 |плотность = 2405,6 |этнохороним = новгоро́дцы, новгоро́дец, новгоро́дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = |категория в Commons = Velikiy Novgorod |сайт = |информация для туристов = }}
29 Инструменты Wikipedia XML dump (все статьи одним файлом) Wikiprep.pl (версия проекта Zemanta) –вики-разметка -> ~HTML / plain text –разворачивает шаблоны –URL:
30 Вопросы?
Еще похожие презентации в нашем архиве:
© 2023 MyShared Inc.
All rights reserved.