АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET А.М. Сухоногов Петербургский Университет путей сообщения, кафедра ИВС С.А. Яблонский Петербургский Университет путей сообщения, кафедра ИВС ЗАО Руссикон
Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов. Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением. таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия). определение семантических классов – TopOntology
Princeton WordNet 2.0.
Почему WordNet ? 1.Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов) > Постоянное развитие PWN – версия Параллельный перевод на >17 языков. (EuroWordNet, Balkanet, Корейский и др.) 4.Встроенные морфологические анализаторы, привязанные к национальным языкам. 5. PWN как межъязыковой индекс. 6. Разработка онтологий на базе WordNet. SUMO mappings to WordNet Разрабатывается RDF/OWL форматы WN для Semantic Web.
Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский Турецкий Румынский Сербский Индийский Китайский Японский GWA – Global WordNet Association (2001 г.)
Межъязыковой индекс ILI – Inter-lingual-index
WordNet русского языка 1. Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ Проект УИС Россия Проект Russian WordNet 3. Проект Russian WordNet
Проект Russian WordNet лемм и их парадигмы, более 3,5 млн. словоформ синсетов (значений)
Основные этапы «Russian WordNet»
Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для некоторого слова W L1 может не существовать соответствующего слова W L2, т.е. перевод может отсутствовать, - число значений lemmat (W L1 ) может быть не равно числу значений lemmat (W L2 ) и/или значения могут не совпадать, - некоторое слово W L1 может переводиться не одним словом W L2, а некоторым словосочетанием, не являющимся в общем случае фразеологизмом или устойчивым словосочетанием в языке L2.
Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском языке (сколько?) Свободно распространяемый (с ограничениями) Java API для доступа к поисковому индексу
Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: , - уникальных документов: , - объем проиндексированной информации: ГБ.В поиске Яндекса сегодня: - уникальных серверов: , - уникальных документов: , - объем проиндексированной информации: ГБ. Свободно распространяемый XML API для доступа к поисковому индексуСвободно распространяемый XML API для доступа к поисковому индексу
Определение «семантического расстояния» между словами Пусть x – слово, w – страница (документ), проиндексированный поисковой машиной Google. - вероятность появления слова x в коллекции из М документов - вероятность совместного появления слова x и y в одном и том же документе M= (~8 млрд.) [Google]
Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов. Эти вероятности характеризуют зависимость, существующую между словами x и y, позволяют определять ассоциативные связи между словами.
Определение «семантического расстояния» между словами Normalized Google distance (NGD): - Функция не определена для f(x)=f(y)=0 - NGD=, при f(x,y)=0, f(x)>0, f(y)>0 - NGD>0 в других случаях. Значения NGD(x,y) лежат в диапазоне от 0 до, Значения NGD(x,y) лежат в диапазоне от 0 до, D(x,x)=0 для любого х. D(x,x)=0 для любого х. - Функция симметрична, NGD(x,y)=NGD(y,x) * Paul Vitanyi, Rudi Cilibrasi Normalised Google Distance
Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях) Более 180 тыс. слов, 290 тыс. примеров употребления Доступ к ресурсам Яндекса, грант # Построения межъязыкового индекса для русской и английской версий WordNet
Автоматизированное построение ILI- индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: лемм Princeton WordNet (PWN) лемм Russian WordNet (RWN) ~2,5 млн. сочетаний (пар) лемм PWN ~2,5 млн. сочетаний (пар) лемм RWN Ручной перевод и определение соответствия синсетов PWN и RWN для наиболее общих, философских значений. Синсеты – корневые элементы деревьев гипонимии (род/вид) и меронимии (часть/целое). Например: {entity}, {psychological feature}, {abstraction}, {state}, {event}, {human activity, act, human action}, {grouping, group}, {possession}, {phenomenon}
Автоматизированное построение ILI- индекса. Основные этапы. Подготовительный этап
Автоматизированное построение ILI- индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем – меронимии) PWN «в ширину» начиная от корня к листьям. Для каждого синсета PWN - подбор эквивалентного или наиболее близкого синсета/значения в RWN, формирование записи ILI-индекса.
Автоматизированное построение ILI- индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более чем из 1 слова, (для 2х слов существуют переводы в англо-русском словаре). Переводы слов PWN присутствуют в словнике RWN. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы.
Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1
Демонстрация алгоритма построения ILI с использованием Google API F(x) Количество ресурсов в Google приспособлениеустройствоагрегатоборудованиекостюмупряжкакарета экипаж карета пассажирский вагон тележка вагонетка гондола
Демонстрация алгоритма построения ILI с использованием Google API NGD(x,y) * 100 приспособлениеустройствоагрегатоборудованиекостюмупряжкакарета экипаж 48,3434,0748,0043,6636,3169,8646,02 карета 49,8256,5037,6371,5946,1342,170,00 пассажирский вагон 75,3392,9577,26103,7291,12-62,79 тележка 46,7545,8537,8049,1052,4957,9244,44 вагонетка 62,9079,4762,1192,1179,1153,7262,79 гондола 76,7380,8668,7792,7076,6250,7552,71
Демонстрация алгоритма построения ILI с использованием Google API NGD(x,y) * 100приспособление, устройство агрегат, оборудование костюмупряжка, карета экипаж, карета 34,0737,6336,310,00 пассажирский вагон 75,3377,2691,1262,79 тележка, вагонетка 45,8537,8052,4944,44 гондола 76,7362,1176,6250,75 [carriage, equipage, rig] => [экипаж, карета, упряжка]
Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы. work love и др. Англо-русский словарь содержит более 20 вариантов перевода work !!! [work] => [???]
Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward making or doing something; "she checked several points needing further work" гиперонимом (родительский узел в дереве род/вид) является синсет: [activity] - any specific activity; "they avoided all recreational activity« Для синсета [activity] на предыдущем шаге уже определен соответствующий синсет RWN – [дело, деятельность, занятие] Для всех переводов [work] вычисляется NGD=NGD(x,y) со словами синсета-гиперонима RWN (дело, деятельность, занятие) Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2
Для [work] в англо-русском словаре определены переводы: work – {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20 вариантов) F(x) делодеятельностьзанятие служба работа произведение изделие исследование труд рабочий
Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 NGD(x,y)*100 делодеятельност ь занятие служба работа произведение изделие исследование труд рабочий [work] => {служба, работа}, {труд} Из всех вариантов перевода [work] - {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20) выбирается:
Статистика Russian WordNet СуществительныхПрилагательныхГлаголовНаречийВсего Лемм: Синсетов:
Спасибо за внимание