ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.

Презентация:



Advertisements
Похожие презентации
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Advertisements

Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
© ElVisti Лекция 4 Информационно-поисковые языки, интерфейсы пользователей ИПС Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
Определение новизны информации в новостном кластере.
» Дмитрий Владимирович Ландэ, к.т.н., заместитель директора Информационного центра «ЭЛВИСТИ» Использование технологии интеграции Интернет-контента для.
Ассоциация «ИРБИС Украина» Ассоциация «ИРБИС Украина» (Ассоциация пользователей системы ИРБИС в Украине) Технология работы системы ИРБИС с полнотекстовой.
Информационно- поисковая система «Архив документов»
Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.
Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Транксрипт:

ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН Украины 2 Информационный центр «ЭЛВИСТИ» Казань-2012 T E L ' «Корпусы национальных языков: модели и технологии»

Несколько слов о технологии контент-мониторинга

Основные характеристики

Процедура выявления дубликатов: - подключение морфологических словарей; - создание частотных словарей - обучение системы; - подключение словарей переводов; - выявление опорных слов в документах; - сравнение опорных слов. СТАТИСТИЧЕСКИ-ЛЕКСИКОГРАФИЧЕСКИЙ АЛГОРИТМ ВЫЯВЛЕННЯ РАЗНОЯЗЫЧНЫХ ДУБЛИКАТОВ

ИЗВЛЕЧЕНИЕ И ПЕРЕВОД ОПОРНЫХ СЛОВ Частотный словарь украинских словоформ Частотный словарь русских словоформ Словарь переводов рус. - укр. Словарь переводов укр. - рус. Документы Входной поток Выходной поток

Для русского и украинского языков были использованы свободно доступные электронные словари: ispell с набором более 1 млн. словоформ и «Словники України», c набором более 4 млн. словоформ, а также словарь Зализняка, который насчитывает порядка 100 тыс. слов. Эксперты дополнили морфологические словари неологизмами, названиями известных фирм, брендов и известными фамилиями, которых не было в исходных словарях. МОРФОЛОГИЧЕСКИЕ СЛОВАРИ

Для обучения частотных морфологических словарей взяты электронные публикации новостей, полученные из Интернет с помощью системы контент-мониторинга InfoStream. «Обучение» словарей проводится в несколько этапов. Первый этап - разделение документов на словоформы и сохранение полученных словоформ и номеров соответствующих документов. На втором этапе подсчитывается количество вхождений каждой словоформы, и количество документов в которых она встретилась. Определяется вероятная нормальная форма каждого слова. Для выявления омонимии сохраняются все нормальные формы соответствующие словоформе, т. е. если одной словоформе соответствует сразу несколько нормальных форм, сохраняются подсчитанные частоты со всеми найденными нормальными формами. На третьем этапе происходит заключительный подсчет количества нормальных форм и сохранение результатов в частотный словарь. ЧАСТОТНЫЕ СЛОВАРИ

«ОБУЧЕНИЕ» ЧАСТОТНОГО СЛОВАРЯ

При реализации алгоритма происходит считывание текстового документа из входного потока, после чего выполняется выделение словоформ и поиск нормальной формы для каждой из них. В случае контекстной неоднозначности, выбирается наиболее частотная (с наибольшим индексом) по словарю нормальная форма словоформы. После вычисления соответствующих весовых коэффициентов с помощью формулы Okapi BM25 происходит ранжирование нормализованных слов и выбирается двенадцать наиболее «весомых». Использовался лишь относительно небольшой, но, по- видимому, самый существенный для данной задачи срез - множество имен существительных, дополненное некоторыми фамилиями, аббревиатурами, названиями компаний. Полученные двенадцать опорных слов переводятся на другой язык с помощью словарей переводов. Все опорные слова и слова-переводы приписываются к документу. ОПРЕДЕЛЕНИЕ ОПОРНЫХ СЛОВ

Okapi BM25 В предложенной процедуре индексирования для выделения наиболее значимых термов использовался статистический метод, базирующийся на применении общеизвестного подхода TF IDF, а точнее его модификации Okapi BM25, в которой каждому терму из документа приписывается вес по формуле: где f(t,D) - частота встречаемости терма t в документе D, |D| - длина документа D, L - средняя длина документа в коллекции текстов, общее количество которых - N, n(t) - количество документов в коллекции, содержащих данный терм, k, b - параметры, выбираемые экспертами.

В системе InfoStream используется механизм поиска дубликатов, который позволяет с помощью опорных слов находить подобные документы, представленные на одном языке. В этом механизме 6 опорных слов исследуемого документа, сравниваются с 12-ю опорными словами каждого из документов корпуса. ВЫЯВЛЕНИЕ ДУБЛИКАТОВ Процедура сравнения была дополнена рядом эвристических критериев, например: общее количество слов в переведенном варианте не должно отличаться от оригинала более чем на 10%; количество чисел в документах не должно отличатся больше чем на два.

ХАРАКТЕРИСТИКИ КОРПУСА Общее количество слов в корпусе составляет более 192,7 млн., из которых 96 млн. из украинских документов, 96.7 млн. – из русских документов. Средняя длина документа в корпусе составляет 195 слов для украинского и 196 слов для русского. Количество источников документов на украинском языке содержащихся в корпусе – 997. Количество источников документов на русском языке – 1768.

ФОРМИРОВАНИЕ ОСНОВНЫХ СЮЖЕТОВ

ПОИСКОВЫЙ ИНТЕРФЕЙС – ОБЗОР ОСНОВНЫХ СЮЖЕТОВ

Фрагмент параллельного корпуса

Онлайн-интерфейс – сайт

Режим поиска – сайт

Описание ресурса – сайт

Спасибо за внимание! Казань-2012 T E L ' «Корпусы национальных языков: модели и технологии»