Ефименко И.В. Irina.Efimenko@avicomp.ru ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ.

Презентация:



Advertisements
Похожие презентации
Илья Клинцов Руководитель проекта Департамент развития бизнеса Semantic Web & электронные СМИ.
Advertisements

Конструирование информационных систем на основе интероперабельных сред информационных ресурсов.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
СУБД Microsoft Access 2003 Элементы языка SQL. Язык SQL SQL (Structured Query Language) – структурированный язык запросов Язык SQL применяется во многих.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.
От сложного – к простому. От непонятного – к понятному.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
THE PASSIVE VOICE. The Passive Voice Пассивный залог используется: 1) если лицо (предмет), совершающее действие, неизвестно или когда считают ненужным.
1 Диаграммы реализации (implementation diagrams).
2 Пассивный залог (passive voice) показывает, что лицо или предмет, выраженное подлежащим, испытывает действие на себе. The clouds were blown away by.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Теория экономических информационных систем Семантические модели данных.
Транксрипт:

Ефименко И.В. ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ

КИИ-2006, Обнинск План презентации Введение Системы семейства OntosMiner Shallow-подход Общие принципы и схема алгоритма кросс- языкового реферирования Генерация текста: пример Заключение

КИИ-2006, Обнинск Введение Анализ под управлением предметных онтологий Синтез под управлением предметных онтологий Кросс-языковое реферирование Автоматическое реферирование Машинный перевод Проблема создания универсального семантического языка – «переходной» репрезентации между языком-целью и языком-источником Когнитивные карты (С-Маps)

КИИ-2006, Обнинск Введение Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике. Онтология в основе системы - «гарант» релевантности: С точки зрения предметной области (сфера экстралингвистики) С точки зрения текста (сфера лингвистики) в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основу анализа

КИИ-2006, Обнинск Введение Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними

КИИ-2006, Обнинск МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Руководитель Росатома Сергей Кириенко мая в ходе поездки в США проведет ряд рабочих встреч… Модель типы объектов и типы отношений ТекстСтруктурированные данные Введение: ПЕРСОНА ОРГАНИЗАЦИЯ РАБОТАТЬ В ОРГАНИЗАЦИИ

КИИ-2006, Обнинск Введение МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. ТекстыОтдельные графыБаза знаний

КИИ-2006, Обнинск Системы OntosMiner: примеры онтологий

КИИ-2006, Обнинск

Системы OntosMiner: примеры онтологий

КИИ-2006, Обнинск Цели и задачи настоящей работы

КИИ-2006, Обнинск Системы OntosMiner: Фрагмент текста в среде GATE

КИИ-2006, Обнинск Системы OntosMiner: Фрагмент когнитивной карты

КИИ-2006, Обнинск Системы OntosMiner : Когнитивная карта множества сводок

КИИ-2006, Обнинск Shallow-подход: Общие принципы Использование системы шаблонов, ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. Применение аналогичных принципов при генерации текстов автоматическое реферирование на основе лингвистических шаблонов под управлением предметных онтологий. Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.

КИИ-2006, Обнинск Shallow-подход: От NLP к NLP «Полиция расстреляла демонстрацию чернокожих» «Во время демонстрации застрелено двое чернокожих» «Гибель участников демонстрации» «Трагический случай» Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив- актив, эллиптические конструкции, синтаксические нули...) «И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...

КИИ-2006, Обнинск Кросс-языковое реферирование: С хема алгоритма 4. Извлечение данных о шаблоне (для узлов и дуг) 1.Исх. текст 2.СЕ (на основе шаблонов) 3.CMap7.Использование метрик 8.Выбор дискурс. схемы 9.Применение системы весов 5.Формальное представление отдельных фрагментов конечного текста 11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.) 10.Расположение отдельных фрагментов в необходимом порядке 12. Конечный текст Система шаблонов Онтология 6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений

КИИ-2006, Обнинск Кросс-языковое реферирование: «Центры кристаллизации» Система метрик (оценка релевантности объектов и связей) RANLP-2005, [V.Khoroshevsky]

КИИ-2006, Обнинск Кросс-языковое реферирование: Анализ корпуса языка-источника Отсутствие необходимости работать с фиксированной языковой парой Cхема шаблона (с комментариями и атрибутами)Примеры соответствующих фрагментов текста ( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }): экземпляр объекта типа «Организация» )? (({Period} | {StartPoint})?) : экземпляр объекта типа «Время» ({Person}): экземпляр объекта типа «Лицо» ( {beVG} | {becomeVG} | ({servVG} {As}) ): PAST, ACTIVE, INDICATIVE, SG, 3 rd PERS, : одна из возможных для данного шаблона глагольных конструкций (({Organization }): экземпляр объекта типа «Организация»)? ({JobTitle})): экземпляр объекта типа «Должность» ( {prepOrg}: одна из возможных конструкций с предлогом ({Organization }):}): экземпляр объекта типа «Организация»)? ({Period}|{StartPoint})? : экземпляр объекта типа «Время» Previously, Mr. Curts was Perot Systems North American Chief Financial Officer, and also served as Treasurer/Head of Business Development. He was with Goldman Sachs & Co., New York and London from in the Corporate Finance Department. Along with Vision, Mr. Jain also co- founded and served as head of operations for Brigade Corporation, a customer support company with 1,300 customer support employees across centers in the U.S., Europe and India.

КИИ-2006, Обнинск Кросс-языковое реферирование: Сопоставление шаблонов языка-источника и языка-цели Cхемы шаблонов (с комментариями и атрибутами) Примеры соответствующих фрагментов текста (({Period} | {StartPoint})?) ({Person}) ( {beVG} | ({servVG} {As}) ): ACTIVE, INDICATIVE ({JobTitle})) ( {prepOrg} ({Organization })}) )? С декабря 2001 года г-н Клишас является председателем правления компании «Интеррос». (Since 2001, Mr. Klishas is the chairman of the Interros board of directors.) В течение последующих нескольких лет служил в структуре МВД в качестве эксперта-криминалиста. (During the next several years he has been serving in the Ministry of Interior sub-division as a forensic expert) (({Date} | {StartPoint})?) ({Person}) ({becomeVG}): ACTIVE, INDICATIVE ({JobTitle}) (({Organization } )? В середине финансового года Хайнц Шиммельбуш становится исполнительным директором. (In financial year, Hainz Schimmelbush becomes CEO) ETC…

КИИ-2006, Обнинск Кросс-языковое реферирование: Значения атрибутов в шаблоне, специфицирующем фрагмент исходного текста, и варианты конструкций в языке-цели Разрешение конфликтов атрибутов Набор «нейтральных» конструкций Английский (язык-источник)Атрибуты Mr. Smith was employed by the Cukurova Group. Employ Relation {base = employ, tense = past, voice = passive, etc…} АтрибутыРусский (язык-цель) Employ Relation {base = employ, tense = past, voice = passive, etc…} Г-н Смит был принят на работу в Cukurova Group. Employ Relation {base = employ, tense = past, voice = active, etc…} (конструкция в изъявительном наклонении, определенная в рамках подготовительного этапа как нейтральная) Г-н Смит работал в Cukurova Group. Employ Relation {base = employ, tense = -, voice = -, etc…} (предикат редуцирован до номинативной конструкции) В числе сотрудников Cukurova Group можно назвать г-на Смита.

КИИ-2006, Обнинск Генерация текста: исходный текст и C-Map Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa. It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt.

КИИ-2006, Обнинск Генерация текста: Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной карте N Экземпляры объектов Атрибуты 1Person1{name = Sergey Brin, number = singular, gender = male (в данном случае вычислено на основе сведений о первом имени, информация словарного характера)} 2Person2{name = Larry Page, number = singular, gender = male (вычислено на основе сведений о первом имени, информация словарного характера)} 3Organization1{name = University of Maryland, number = singular, keyword = University} 4Organization2{name = Instituto de Empresa, number = singular, keyword = Instituto} 5Organization3{name = Google Inc., number = singular, keyword = Incorporation} 6Location1{name = College Park, number = singular}

КИИ-2006, Обнинск Генерация текста: Исходное представление, (1) Экземпляр объекта Лицо {Person1, syntactic role = subject (определяет не только синт. роль как таковую, но и ряд других характеристик, например, значение падежа)} Глагол-ядро экземпляра онтологического предиката получать научную степень {base = receive, tense = past simple, gender = any, number = any, voice = active} Экземпляр объекта Научная степень (атрибут отношения получать научную степень) { base = bachelor of science, number = singular, honors = yes, speciality = [mathematics, computer science], subspeciality = -, organization = Organization1, /Вложенный экземпляр онтологического предиката Располагаться: Organization object {Organization1} Located In Relation prepositional construction {name = at} Location object {Location1} /}

КИИ-2006, Обнинск Генерация текста: Исходное представление, (2) Экземпляр объекта Лицо {Person1, syntactic role = subject} Глагол-ядро экземпляра онтологического предиката получать научную степень {base = receive, tense = past simple, gender = any, number = any, voice = active} Экземпляр объекта Научная степень (атрибут отношения получать научную степень) {base = MBA, honors = yes, number = singular, speciality = -, subspeciality = -, organization = Organization2}

КИИ-2006, Обнинск Генерация текста: Исходное представление, (3) Список объектов типа Лицо {[Person1, Person2], syntactic role = subject} Глагол-ядро экземпляра онтологического предиката быть основателем {base = found, tense = past simple, gender = any, number = any, voice = active} Экземпляр объекта Организация {Organization3, syntactic role = object} – необходима спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций

КИИ-2006, Обнинск Генерация текста: Предварительные трансформации Трансформация 1. Объединение связей: общий узел-источник («первый актант»), идентичность шаблонов (с точностью до набора и значений атрибутов). В случае, если результирующая конструкция недостаточно элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной» структурой. Экземпляр объекта Лицо {Person1, syntactic role = subject} Глагол-ядро экземпляра онтологического предиката получать научную степень {base = receive, tense = past simple, gender = any, number = any, voice = active} Список объектов типа Научная степень {[{base1 = bachelor of science, number = singular, honors1 = yes, speciality1 = [mathematics, computer science], subspeciality1 = -, organization1 = Organization1 / Вложенный экземпляр онтологического предиката Располагаться: Organization object {name = Organization1} Located In Relation prepositional construction {name = at} Location object {name = Location1}/}, { base2 = MBA, number2 = singular, honors2 = yes, speciality2 = -, subspeciality2 = -, organization2 = Organization2}]}

КИИ-2006, Обнинск Генерация текста: Предварительные трансформации Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа: Экземпляр объекта Лицо {pronoun, number = singular, gender = male, syntactic role = subject} Глагол-ядро экземпляра онтологического предиката быть основателем {base = found, tense = past simple, gender = any, number = any, voice = active} Экземпляр объекта Организация {Organization3, syntactic role = object} Элемент-связка {name = together with} Экземпляр объекта Лицо {Person2, syntactic role = indirect object}

КИИ-2006, Обнинск Генерация текста: И тоговые трансформации, (1) Экземпляр объекта Лицо {Person1, name = Сергей Брин (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации), синтаксическая роль = subject, падеж = nom (следствие синт.роли)} результирующий фрагмент текста: Сергей Брин Глагол-ядро экземпляра онтологического предиката получать научную степень {base = получить, tense = past, aspect = perfective (информация, заданная на подготовительном этапе при формировании шаблонов- аналогов, см. раздел 3), род = male (на основе рода субъекта), число = singular(на основе числа субъекта), залог = active} результирующий фрагмент текста: получил

КИИ-2006, Обнинск Генерация текста: Итоговые трансформации, (2) Список объектов типа Научная степень 1ый элемент списка {name = степень (base {case = gen, number = singular }) (в области (speciality {case =gen}))? (специализация: (subspeciality {case = nom)}))? (honors {case = instr}) (organization {case = prep, number = singular}) (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = singular, case =acc (задано управлением глагола), base = бакалавр, honors = yes, speciality = [математика, кибернетика], subspeciality = -, organization = {Organization1, name =Университет Мэриленда (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода)}, / Вложенный экземпляр онтологического предиката Располагаться: Organization object {name = null} Located In Relation prepositional construction {name = расположенный в, case = prep (задано падежом организации в объекте Научная степеньt), number = singular} Location object {Location1, name = Колледж Парк (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода), case = prep (задано моделью управления предлога)}/ } результирующий фрагмент текста: степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке Элемент-связка {name = а также} результирующий фрагмент текста: а также 2ой элемент списка {...} результирующий фрагмент текста: степень MBA с отличием в Институте Эмпреса

КИИ-2006, Обнинск Генерация текста: Текст реферата Вариант 1. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. Вариант 2. Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. Смещение фокуса Генерация последующих фрагментов

КИИ-2006, Обнинск Генерация Реферата об Объекте в виде текста по коллекции документов Генерация текста: Текущее состояние

КИИ-2006, Обнинск Заключение Постановка задачи синтеза под управлением предметных онтологий. Использование принципов онтологического подхода при решении задачи моно- и кросс- языкового реферирования. Основная задача: расширение спектра порождаемых естественноязыковых конструкций

КИИ-2006, Обнинск Спасибо за внимание! Thank (аналог ключевой лексемы связи) You (генерация эксплицитного представления актанта) for (информация по модели управления) Your (генерация эксплицитного представления актанта) Attention (аналог ключевой лексемы объекта)