О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург Разработка Инструментария для Семантической Разметки.

Презентация:



Advertisements
Похожие презентации
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Advertisements

ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
Электронная лексикография. Выберите или предложите правильные ответы на следующие вопросы (всего 30) и внесите их в бланк ответов. В некоторых вопросах.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
Татьяна Эвас Европейская Стратегия Занятости – новое решение неблагоприятной позиции этнических меньшинств на рынке труда Эстонии? Март, 2005 Таллинн,
Тема: Выполнила:. Актуальность работы: Анализ общественно-политических фразеологизмов, функционирующих в современном политическом дискурсе и характеризующихся.
Учебные компьютерные словари Бовтенко Марина Анатольевна Новосибирский государственный технический университет
Информационно-поисковая система. Классификация информационно- поисковых систем.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Лекция 2. Онлайновые словари. Понятие лексикографического гипертекста.
Транксрипт:

О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург Разработка Инструментария для Семантической Разметки Текста

Содержание Важность лексическойй-семантических ресурсов и семантической аннотации в автоматическом анализе текста Lancaster UCREL semantic analysis system – система семантической разметки текста USAS Русский семантический тагер (РСТ) Оценка лексическоййго покрытия РСТ Применения РСТ

Роль лексическойй-семантических ресурсов В корпусной лингвистике. В автоматической обработке естественного языка. В автоматическом анализе текста: семантическая аннотация / анализ по семантическим полям – в качестве дополнительной процедуры снятия лексическоййй омонимии и многозначности для разграничения различных значений слова.

Система семантической разметки текста USAS USAS = UCREL semantic analysis system UCREL = [Lancaster] University Centre for Computer Corpus Research on Language Разрабатывалась в течение последних 20- ти лет в университете г. Ланкастер, Вели- кобритания. Доступна для научных исследований в качестве составной части системы Wmatrix

McArthur T., Longman Lexicon of Contemporary English. London, Семантический тагер USAS: Система семантической разметки текста В основе -- система классификации лексики в соответствии с Лонгманским лексиконом современного английского языка Тома Мак Артура. Лонгманский лексикон Мак Артура: 15 тыс. слов, относящихся к основной лексике сгруппированы по 14 семантическим полям / темам, которые подразделены на 127 групп и 2441 подгруппу.

Система семантической разметки текста USAS (Wilson and Rayson, 1993) Первоначально разрабатывалась для анализа расшифровок интервью на английском языке (Wilson and Rayson, 1993). Охватывает 21 семантическую категорию, обозначенную заглавными буквами латинского алфавита, и 232 пронумерованные (до трех уровней) подкатегории. Полная семантическая разметка USAS на

Основные семантические категории USAS

Пример категории с подкатегориями TTime T1Time T1.1 Time: General T1.1.1 Time: General: Past T1.1.2 Time: General: Present; simultaneous T1.1.3 Time: General: Future T1.2 Time: Momentary T1.3 Time: Period T2Time: Beginning and ending T3Time: Old, new and young; age T4Time: Early/late

Лексикон USAS Английский лексикон содержит около 55 тыс. словоформ and почти 19 тыс. многословных выражений (МСВ), многие из которых являют- ся шаблонами, способными распознавать варианты лексем в составе МСВ. Клаcсифицируется набором широко определенных категорий семантических полей, организованных в структуру, подобную тезаурусу. Используя номенклатуру семантических полей, отображает слова и шаблоны МСВ на их потенциальные семантические категории. (Piao et al., 2004) Лексическое покрытие Английского семантического тагера (АСТ) на BNC – 98.49% (Piao et al., 2004).

Дальнейшая разработка и усовершенствование USAS Увеличение лексических ресурсов. (Löfberg et al, 2005) (Sharoff et al, 2006) Включение новых языков: для задач проектов Benedict (Löfberg et al, 2005) и ASSIST (Sharoff et al, 2006) АСТ был перенесен на финский и русский языки. (Rayson et al, 2004). Снятие омонимии -- в соответствии с употреблением слов и МСВ в контексте (Rayson et al, 2004).

Русский семантический тагер (РСТ) Разрабатывается в ходе работы над проектом ASSIST – Automated semantic assistance for translators. Совместными усилиями исследователей из двух британских университетов: Ланкастерского и Лидского. Работа поддержана грантами фонда UK- EPSRC – EP/C004574/1 для Ланкастерского Университета и EP/C для Лидского Университета.

РСТ В основе -- семантические категории USAS, которые совместимы с семантической категоризацией объектов и явлений в русском языке, например: poor JJ I1.1- A5.1- N5- E4.1- X9.1- бедныйA I1.1- A6.3- N5- O4.2- E4.1- I1.1-= Деньги: недостаток A5.1-= Оценка: плохо N5-= Количество: мало E4.1-= Несчастный X9.1-= Способность, интеллект: плохие A6.3-= Сравнение: мало разнообразия O4.2-= Суждение о внешности: плохо

Особые метки +/- для обозначения положительных / отрицательных аспектов значений m, f и n = мужской, женский и неопределенный пол

Многозначные лексические единицы Отображаются во множественных семантических категориях. Также указывается грамматическая категория части речи с целью уменьшения неоднозначности. Семантические метки расставляются в порядке употребительности, т.е. метка, соответствующая наиболее употребитель- ному значению, проставляется первой в списке значений: для английского языка – на основе Collins COBUILD on CD-ROM 2001 Lingea Lexicon, ver. 3.1, и Encarta World English Dictionary 1999 Microsoft Corporation. для русского языка – ABBYY Lingvo 10 English- Russian Electronic Dictionary 2004 и ГРАМОТА.РУ

Гибридные семантические категории Когда лексемы одновременно принадлежат к двум или более семантическим категориям, образуя гибридную категорию, что обозначается с помощью косой черты: rebelVV0 G1.2/A6.1- S8- A6.1- waiterNN1 I3.1/F1/S2.2m адмиралSG3/S7.1+/S2mf L2mf больничныйAB3/H1 Q1.2/B2-

Модификации в архитектуре РСТ (в отличие от архитектуры АСТ) (Segalovich, 2003) (Garside and Smith, 1997) mystem (Segalovich, 2003) в РСТ = POS tagger CLAWS (Garside and Smith, 1997) в АСТ; кодировка Cp1251 UTF8; в словнике однословных лексических единиц РСТ – только леммы, в отличие от словоформ в лексиконе АСТ; выделение имен собственных в особый под лексикон однословных лексических единиц РСТ из-за того, что mystem не различает имена собственные и нарицательные.

Рабочий процесс РСТ: необработанный русский текст морфологизатор mystem русский семантический компонент (однословные лексические единицы / имена собственные + МСВ) семантическая аннотация

Разработка словника РСТ Путем эксплуатации словарей и корпусов -- в первую очередь, легкодоступных материалов: списки имен собственных. Разработка началась с включения 3000 наиболее частотных лемм из Национального корпуса русского языка: а также Пополнение тематическими списками с помощью онлайновых ресурсов: Дальнейшее расширение посредством загрузки в РСТ текстов из различных источников и последующей семантической классификации ненайденных слов.

Состав словника РСТ На данный момент в словнике РСТ: леммы, из которых – имена нарицательные и 4432 – имена собственные 713 МСВ – многие являются шаблонами (с возможными словами-вставками), способны- ми распознавать варианты лексем в составе МСВ: без_* видим*_* {на/то} причин*_*X2.5- A2.2- в_* {сам*} разгар*_*X5.2+ N5.1+ Цель – 30 тыс. лемм и около 9 тыс. МСВ к концу марта 2007.

Лексическое покрытие словника РСТ Оценка произведена на специально созданном для проекта ASSIST Русском новостном корпусе (газеты Труд, Известия и Страна.Ru, опубликованные в гг.) в 70 млн. слов. Корпус проблематизирован (mystem). Пунктуация включена. Омонимия частично снята через выбор наиболее частотной леммы для данной словоформы, представленной в размеченной вручную части Национального корпуса русского языка в 1,6 млн. слов. Результат – 79%. Цель – 90%. Частотные слова, не представленные в словнике РСТ, принадлежат к области современных политических и общественных событий словник РСТ будет расширен за счет таких слов.

Пользовательский интерфейсРСТ Пользовательский интерфейс РСТ Веб-интерфейс включает 3 веб-страницы. Первая страница -- имя и пароль доступа. Основная страница -- введение текста в текстовую область для последующей семантической разметки. Результат выводится в таблицу, содержащую код части речи и семантический тег / теги для каждого слова в исходном тексте. Члены МСВ обозначаются в специальной колонке. Третья страница -- получение лексических вхождений для заданного семантического тега, с возможностью выбора между лексиконами однословных лексических единиц и МСВ.

Применения РСТ Компьютерный семантический анализ русского текста. Компьютерный контент-анализ – статистический анализ семантических признаков текстов посредством группировки слов и словосочетаний по категориям семантических полей и определения частотности слов и семантических тегов в текстах. Разработка автоматизированных средств для переводчиков: семантическая аннотация русского текста с целью нахождения в сравнимых корпусах непрямых переводных эквивалентов фраз, составляющих трудность при переводе. Поиск осуществляется через установление соответствий между похожими описаниями ситуаций, описанных в терминах семантических тегов.