АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET А.М. Сухоногов Петербургский Университет путей сообщения, кафедра ИВС ASukhonogov@rambler.ruASukhonogov@rambler.ru;

Презентация:



Advertisements
Похожие презентации
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
Advertisements

Октябрь 2007 Медийная реклама НОВЫЕ ВОЗМОЖНОСТИ ДЛЯ БИЗНЕСА.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
ИССЛЕДОВАНИЕ ДЕРЕВА РЕШЕНИЙ В РЕАЛИЗАЦИИ МЕТОДА ВЕТВЕЙ И ГРАНИЦ ДЛЯ РЕШЕНИЯ ЗАДАЧИ КОММИВОЯЖЕРА Ермошин А.С., Плиско В.А. (МГУПИ)
ФГОБУ ВПО "СибГУТИ" Кафедра вычислительных систем Алгоритмы поиска данных Преподаватель: Доцент Кафедры ВС, к.т.н. Поляков Артем Юрьевич © Кафедра вычислительных.
Онлайн-словари и переводчики (английский язык). Англо-русские (русско-английские) электронные словари.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Разработка программного средства 3Genetic для генерации автоматов управления системами со сложным поведением Государственный контракт «Технология.
1 Аудитория проектов компании Агава Октябрь 2010 г.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
ХНУРЭ, кафедра ПО ЭВМ, Тел , Лекции Н.В. Белоус Факультет компьютерных наук Кафедра ПО ЭВМ, ХНУРЭ Компьютерная.
Исследование CBR (Case Based Reasoning) метода при автоматизированном проектировании информационных систем.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Электронный словарь ABBYY Lingvo. ABBYY Lingvo – электронный словарь, который предоставляет самую полную и достоверную словарную базу на 6 языках: русском,
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
Исследование CBR (Case Based Reasoning) метода при автоматизированном проектировании информационных систем.
Малёнова Евгения Дмитриевна к.ф.н., доцент кафедры английской филологии ОмГУ им. Ф.М. Достоевского.
Азарова Ирина Владимировна Синопальникова Анна Алексеевна Кафедра математической лингвистики СПбГУ Смрж Павел Технологический университет Брно (Чехия)
За три дня Музей космонавтики посетили 180 школьников. В первый день было проведено 5 экскурсий по 15 человек, во второй 3 такие же экскурсии. Сколько.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Транксрипт:

АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET А.М. Сухоногов Петербургский Университет путей сообщения, кафедра ИВС С.А. Яблонский Петербургский Университет путей сообщения, кафедра ИВС ЗАО Руссикон

Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов. Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением. таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия). определение семантических классов – TopOntology

Princeton WordNet 2.0.

Почему WordNet ? 1.Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов) > Постоянное развитие PWN – версия Параллельный перевод на >17 языков. (EuroWordNet, Balkanet, Корейский и др.) 4.Встроенные морфологические анализаторы, привязанные к национальным языкам. 5. PWN как межъязыковой индекс. 6. Разработка онтологий на базе WordNet. SUMO mappings to WordNet Разрабатывается RDF/OWL форматы WN для Semantic Web.

Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский Турецкий Румынский Сербский Индийский Китайский Японский GWA – Global WordNet Association (2001 г.)

Межъязыковой индекс ILI – Inter-lingual-index

WordNet русского языка 1. Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ Проект УИС Россия Проект Russian WordNet 3. Проект Russian WordNet

Проект Russian WordNet лемм и их парадигмы, более 3,5 млн. словоформ синсетов (значений)

Основные этапы «Russian WordNet»

Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку: - для некоторого слова W L1 может не существовать соответствующего слова W L2, т.е. перевод может отсутствовать, - число значений lemmat (W L1 ) может быть не равно числу значений lemmat (W L2 ) и/или значения могут не совпадать, - некоторое слово W L1 может переводиться не одним словом W L2, а некоторым словосочетанием, не являющимся в общем случае фразеологизмом или устойчивым словосочетанием в языке L2.

Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском языке (сколько?) Свободно распространяемый (с ограничениями) Java API для доступа к поисковому индексу

Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: , - уникальных документов: , - объем проиндексированной информации: ГБ.В поиске Яндекса сегодня: - уникальных серверов: , - уникальных документов: , - объем проиндексированной информации: ГБ. Свободно распространяемый XML API для доступа к поисковому индексуСвободно распространяемый XML API для доступа к поисковому индексу

Определение «семантического расстояния» между словами Пусть x – слово, w – страница (документ), проиндексированный поисковой машиной Google. - вероятность появления слова x в коллекции из М документов - вероятность совместного появления слова x и y в одном и том же документе M= (~8 млрд.) [Google]

Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов. Эти вероятности характеризуют зависимость, существующую между словами x и y, позволяют определять ассоциативные связи между словами.

Определение «семантического расстояния» между словами Normalized Google distance (NGD): - Функция не определена для f(x)=f(y)=0 - NGD=, при f(x,y)=0, f(x)>0, f(y)>0 - NGD>0 в других случаях. Значения NGD(x,y) лежат в диапазоне от 0 до, Значения NGD(x,y) лежат в диапазоне от 0 до, D(x,x)=0 для любого х. D(x,x)=0 для любого х. - Функция симметрична, NGD(x,y)=NGD(y,x) * Paul Vitanyi, Rudi Cilibrasi Normalised Google Distance

Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях) Более 180 тыс. слов, 290 тыс. примеров употребления Доступ к ресурсам Яндекса, грант # Построения межъязыкового индекса для русской и английской версий WordNet

Автоматизированное построение ILI- индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: лемм Princeton WordNet (PWN) лемм Russian WordNet (RWN) ~2,5 млн. сочетаний (пар) лемм PWN ~2,5 млн. сочетаний (пар) лемм RWN Ручной перевод и определение соответствия синсетов PWN и RWN для наиболее общих, философских значений. Синсеты – корневые элементы деревьев гипонимии (род/вид) и меронимии (часть/целое). Например: {entity}, {psychological feature}, {abstraction}, {state}, {event}, {human activity, act, human action}, {grouping, group}, {possession}, {phenomenon}

Автоматизированное построение ILI- индекса. Основные этапы. Подготовительный этап

Автоматизированное построение ILI- индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем – меронимии) PWN «в ширину» начиная от корня к листьям. Для каждого синсета PWN - подбор эквивалентного или наиболее близкого синсета/значения в RWN, формирование записи ILI-индекса.

Автоматизированное построение ILI- индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более чем из 1 слова, (для 2х слов существуют переводы в англо-русском словаре). Переводы слов PWN присутствуют в словнике RWN. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы.

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1

Демонстрация алгоритма построения ILI с использованием Google API F(x) Количество ресурсов в Google приспособлениеустройствоагрегатоборудованиекостюмупряжкакарета экипаж карета пассажирский вагон тележка вагонетка гондола

Демонстрация алгоритма построения ILI с использованием Google API NGD(x,y) * 100 приспособлениеустройствоагрегатоборудованиекостюмупряжкакарета экипаж 48,3434,0748,0043,6636,3169,8646,02 карета 49,8256,5037,6371,5946,1342,170,00 пассажирский вагон 75,3392,9577,26103,7291,12-62,79 тележка 46,7545,8537,8049,1052,4957,9244,44 вагонетка 62,9079,4762,1192,1179,1153,7262,79 гондола 76,7380,8668,7792,7076,6250,7552,71

Демонстрация алгоритма построения ILI с использованием Google API NGD(x,y) * 100приспособление, устройство агрегат, оборудование костюмупряжка, карета экипаж, карета 34,0737,6336,310,00 пассажирский вагон 75,3377,2691,1262,79 тележка, вагонетка 45,8537,8052,4944,44 гондола 76,7362,1176,6250,75 [carriage, equipage, rig] => [экипаж, карета, упряжка]

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы. work love и др. Англо-русский словарь содержит более 20 вариантов перевода work !!! [work] => [???]

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward making or doing something; "she checked several points needing further work" гиперонимом (родительский узел в дереве род/вид) является синсет: [activity] - any specific activity; "they avoided all recreational activity« Для синсета [activity] на предыдущем шаге уже определен соответствующий синсет RWN – [дело, деятельность, занятие] Для всех переводов [work] вычисляется NGD=NGD(x,y) со словами синсета-гиперонима RWN (дело, деятельность, занятие) Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2

Для [work] в англо-русском словаре определены переводы: work – {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20 вариантов) F(x) делодеятельностьзанятие служба работа произведение изделие исследование труд рабочий

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 NGD(x,y)*100 делодеятельност ь занятие служба работа произведение изделие исследование труд рабочий [work] => {служба, работа}, {труд} Из всех вариантов перевода [work] - {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20) выбирается:

Статистика Russian WordNet СуществительныхПрилагательныхГлаголовНаречийВсего Лемм: Синсетов:

Спасибо за внимание