Ефименко И.В. Irina.Efimenko@avicomp.ru ОБРАБОТКА ЕСТЕСТВЕННОЯЗЫКОВЫХ ТЕКСТОВ: ОНТОЛОГИЧНОСТЬ В ЛИНГВИСТИКЕ И ДИСКУРСИВНОСТЬ В ИЗВЛЕЧЕНИИ ЗНАНИЙ.

Презентация:



Advertisements
Похожие презентации
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Advertisements

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
26 мая 2008 г. Механизмы обеспечения связности в системах динамической генерации текстов 1 Дипломная работа Механизмы обеспечения связности в системах.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Конструирование информационных систем на основе интероперабельных сред информационных ресурсов.
ОНТОЛОГИЧЕСКИЙ ПОДХОД и аспекты обработки естественно- языковых объектов (ЕЯО) Содержание 1.Введение. 2.Известные определения онтологии ПдО. 3.Схема формальной.
Введение в теорию компиляции Основные принципы построения трансляторов.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Модели представления знаний. 1. Логические; 2. Продукционные; 3. Представление знаний на основе фреймов; 4. Представление знаний на основе семанти- ческих.
Естественные науки и онтологии. Онтологии Служат для описания предметных областей. Используют: объектно-ориентированный подход; логические средства.
Системный подход в моделировании. «Система (от греч. – целое, составленное из частей; соединение) – множество элементов, находящихся в отношениях друг.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Учитель информатики высшей категории МОУ СОШ 28 Мартынова Нина Михайловна На тему : Объекты и модель окружающего мира Учебный модуль Системно - информационная.
Типичные ошибки в моделях структурного подхода Дополнение к лекциям по функциональному моделированию IDEF0, информационному моделированию IDEF1X.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Транксрипт:

Ефименко И.В. ОБРАБОТКА ЕСТЕСТВЕННОЯЗЫКОВЫХ ТЕКСТОВ: ОНТОЛОГИЧНОСТЬ В ЛИНГВИСТИКЕ И ДИСКУРСИВНОСТЬ В ИЗВЛЕЧЕНИИ ЗНАНИЙ

КИИ-2006, Обнинск План презентации Введение Свойства дискурса Понятие контактности и Shallow-подход Разграничение релевантных и нерелевантных данных, разрешение конфликтов Онтологии: интерпретация лингвистических данных Заключение

КИИ-2006, Обнинск Введение Онтология как фильтр Shallow-подход и дискурс, имитация синтаксического анализа Лексические vs.предметные онтологии, обращение к экстралингвистическим данным Дискурсивный подход vs. анализ отдельных фрагментов

КИИ-2006, Обнинск Введение Принципы работы многоязыковых систем семейства OntosMiner: Анализ под управлением онтологий Модифицированный Shallow-подход. Принцип «контактности» (закономерности развертывания дискурса) Использование онтологических знаний на этапе формирования модели при интерпретации лингвистических явлений (в частности, разрешении неоднозначности, проявляющейся на различных уровнях автоматической обработки). Дискурс и онтология: разрешение кореференции и анафоры Понятие «аннотации» как служебного и/или семантического ярлыка. «Технологические приемы».

КИИ-2006, Обнинск Дискурс: Линейность Непрерывность, связность, смысловое единство дискурса «Связность» онтологии, интерпретация изолированных объектов

КИИ-2006, Обнинск Понятие контактности и Shallow-подход: «Типология ошибок» Нарушение целостности шаблона, «ошибка первого рода» Пример 1: Синицына (в девичестве Орлова) Анна-Мария Гузермес, выпускница Одесского сельскохозяйственного техникума и участник конференции «Сделаем «Красную Книгу» белой», является менеджером картеля «Лига Охраны Перелетных Птиц». Аннотации объектов: Синицына (в девичестве Орлова) Анна-Мария Гузермес (тип: Лицо); Одесского сельскохозяйственного техникума (тип: Организация); возможно, конференции «Сделаем «Красную Книгу» белой» (тип: Организация), менеджером (тип: Должность) и картеля «Лига Охраны Перелетных Птиц» (тип: Организация).

КИИ-2006, Обнинск Понятие контактности и Shallow-подход: «Типология ошибок» Пример 1: Синицына (в девичестве Орлова) Анна-Мария Гузермес, выпускница Одесского сельскохозяйственного техникума и участник конференции «Сделаем «Красную Книгу» белой», является менеджером картеля «Лига Охраны Перелетных Птиц». Входные аннотации на последующих этапах обработки (идентификация связей): Лицо, Организация, Должность и служебная аннотация, маркирующая онтологический предикат (в данном случае, глагол «являться» в определенной форме). Схема шаблона: {Лицо (в соответствующей грамматической форме)}, {являться в 3 л. ед.ч.}, {Должность (в соответствующей грамматической форме)}, {Организация (в соответствующей грамматической форме)}.

КИИ-2006, Обнинск Понятие контактности и Shallow-подход: «Типология ошибок» Ошибочная интерпретация шаблона, «ошибка второго рода» Пример 2: Лю Чю Хе Сянь Вань является автором модуля, который много лет успешно работает в системе «Биг Пис» (из предыдущего контекста при этом следует, что «Биг Пис» - название компании). Шаблон: {Лицо (в соответствующей грамматической форме)}, {работать в 3 л. ед.ч.}, {Организация (в соответствующей грамматической форм, с предлогом)} Интерпретация: «Лю Чю Хе Сянь Вань много лет успешно работает в системе «Биг Пис» Наличие ограничений на семантику актантов не является решением

КИИ-2006, Обнинск Разграничение релевантных и нерелевантных данных: фокус внимания Синицына...,..., является менеджером... выпускница Одесского... техникума...

КИИ-2006, Обнинск Методы разрешения конфликтов: Пример списка с атрибутами (фрагмент реального текста) Установлены члены международного синдиката «Золотой мак»: Мгерабишвили Зураб Вахтангович, 1943 г.р., ур. и житель г. Поти, Грузия, лидер синдиката, женат на Мгерабишвили А. К. Могулиев Абдулхайр Магомедович, 17 марта 1984 года рождения, уроженец Согдийской области Таджикистана, житель кишлака Одурван. Чон Ду Хван, гражданин Кореи, 1939 г.р., курьер, брат гражданина Кореи Ли Ю Тинь, верховного жреца «Группы раскаявшихся флибустьеров Капитана Флинта» Братья Кукушкины – Сергей Анатольевич, 1978 г.р., и Петр Анатольевич, 1980 г.р., уроженцы Белгородской области, проживают: Республика Северная Осетия-Алания, г.Ардон, ул. Желездодорожная, д.5 кв. 1. Оба числятся грузчиками в ООО «Ближний свет» (Республика Северная Осетия-Алания, г.Ардон, ул. Желездодорожная, д.5) Ли Си Цин, гр. КНР, постоянно проживает в Ташкенте, Узбекистан, хозяин городского рынка «Бешкеш» Абдуллаев Кодир Исмоилович, г.р., ур. г. Андижан, Узбекистан, проживает в Узбекистане: г.Корасув, ул.Навруз д. 28, кв. 2, безработный, его женою является известная Ибрагимова Насибахон Шухратовна, 9 марта 1980 г.р., уроженка и жительница г.Корасув, ул.Навруз д. 28, кв. 2, медсестра городской больницы 4

КИИ-2006, Обнинск Методы разрешения конфликтов: Пример списка с атрибутами Необходимо установить связь типа «являться сотрудником, работать» между Организацией и каждым из лиц, являющимися вершинами элементов списка. Недопустимо появление связи типа «являться сотрудником, работать» между Организацией и другими лицами, фигурирующими в тексте, но при этом не являющимися вершинами элементов списка. Дополнительные маркеры вершин списка могут отсутствовать.

КИИ-2006, Обнинск Методы разрешения конфликтов : Использование имен и атрибутов аннотаций Приписывание атрибутов Организация (Лицо.attr == 1, (Лицо)* )+ Переименование аннотаций Организация (Лицо1)+ «Захват» нерелевантных фрагментов Организация (Элемент списка)+ Включение во входные данные «лишних» аннотаций Input: Сomma…

КИИ-2006, Обнинск Методы разрешения конфликтов : Интерпретация списочных структур Гвинджи Фануэл Таванда (Gvindgy Fanuel Tavanda); Горезваримва Портия (Goredfrimva Portiya); Мпоко Луринда; Нтандо Анние Дзиямо Тадуру, 1981 г.р. Такавира-Куун Клаудиус; Сбанда Тобекиле ( Sibanda Tobekili), г.р.

КИИ-2006, Обнинск Онтологии: интерпретация лингвистических данных 1. Восстановление имплицитной информации А) Восстановление эллипсисов. «До IBM, г-н X работал Microsoft» (две связи одного типа - "работать, быть сотрудником" - с одним общим актантом) Б) Восстановление ситуаций за рамками текста. «В этом году г-н Х стал главным редактором газеты Известия» «В этом году г-н Х стал программистом Oracle»

КИИ-2006, Обнинск Онтологии: интерпретация лингвистических данных 2. Интерпретация типа временной сущности Задача взаимного расположения на оси времени извлекаемых событий Динамическое изменение интерпретации элементов шкалы в рамках дискурса «Иванов был уволен из МВД в 1985 году» -> «Иванов работал в МВД до 1985 года»

КИИ-2006, Обнинск Заключение Целесообразность автоматической обработки естественноязыковых текстов под управлением предметных онтологий в констексте восприятия входного текста как целостного дискурса Необходимость использования экстралингвистической информации при интерпретации лингвистических данных Совмещение двух концепций, являющихся в настоящее время наиболее актуальными в смежных, с точки зрения ЕЯ- систем, дисциплинах: онтологически-ориентированных методов в области ИИ и информационных технологий и дискурсивного анализа в лингвистике Новый класс подходов к автоматической обработке естественного языка

КИИ-2006, Обнинск Спасибо за внимание!