Извлечение информации Лидия Михайловна Пивоварова Системы понимания текста.

Презентация:



Advertisements
Похожие презентации
СИСТЕМА ИЗВЛЕЧЕНИЯ ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ТЕКСТОВ ОБЩЕСТВЕННО- ПОЛИТИЧЕСКОЙ ТЕМАТИКИ Пивоварова Л. М. (СПбГУ) Научный руководитель: Рубашкин В.
Advertisements

МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург.
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Ситуационная задача. Кейс-задача.. ШАНС НА УСПЕХ умение сотрудничать, способность к общению, жизни в обществе и участию в нем; способность решать проблемы,
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
Тема 3 Знания. Организация базы знаний. Преподаватель –Юлия Александровна Грачёва.
Доклад на тему «Создание онтологической базы знаний рекрутинговой системы» Подготовил : Нифталиев В.Э. Руководитель: Привалов М.В.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
Понятие - это отражение существенных признаков предметов (объектов) окружающего мира и взаимосвязи между ними. знание понятие представление восприятие.
Методология информационного моделирования IDEF1X.
От сложного – к простому. От непонятного – к понятному.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Методология IDEF1X (IDEF1 Extended) – язык для семантического моделирования данных, основанных на концепции « сущность - связь ». Является расширением.
Создание объектов баз данных. Создание таблицы в режиме Мастера таблиц Процесс создания объекта БД при помощи мастера делиться на несколько шагов, на.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Транксрипт:

Извлечение информации Лидия Михайловна Пивоварова Системы понимания текста

Введение Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД) Information Retrieval Text Understanding Information Extraction

Мотивация Пополнение баз данных (и баз знаний) Пополнение баз данных (и баз знаний) Получение входных данных для работы других систем Получение входных данных для работы других систем Привлечение внимания эксперта к значимым аспектам информации Привлечение внимания эксперта к значимым аспектам информации

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Извлечение отношений Извлечение отношений Наш опыт Наш опыт

– выработка общих подходов к методологии и способам оценки систем извлечения информации из текста. Год ИсточникиПредметная область MUC военные сводки военно-морские операции MUC военные сводки военно-морские операции MUC новости Террористическая активность MUC новости Террористическая активность MUC новостисовместные предприятия, производство MUC новостисмена лидеров на рынке MUC новостикрушения самолетов, запуски ракет MUC (Message Understanding Conference),

Named Entity recognition - выделение именованных сущностей Named Entity recognition - выделение именованных сущностей Coreference resolution - разрешение кореференции Coreference resolution - разрешение кореференции Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR Template Relation construction – выявление связей между отдельными сущностями Template Relation construction – выявление связей между отдельными сущностями Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR Дорожки MUC

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Named Entity recognition: доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед ракета, вторник… ракета, вторник… Сoreference resolution: доктор Биг Хед Хед это ракета Template Element construction: Ключ ОбъектЦвет Светоотражательные свойства 0267Ракета КраснаяБлестящая

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Template Relation construction: Scenario Template production: Ключ ОбъектЦвет Светоотражательные свойства Изобретен 0267Ракета КраснаяБлестящая 7824 Ключ ФИОСтепеньРаботает Должность 7824Биг Хед Доктор Ключ Тип события Объект Дата 18Запуск 0267Вторник

Recall = N correct /N all-correct Precision = N correct /(N correct + N incorrect ) F-mera = (β 2 +1 )*r*p/(β 2 * r+p) Named Entity recognition F

Дальнейшее развитие ACE (Automatic Content Extraction) 1999 – 2008 ACE (Automatic Content Extraction) 1999 – 2008 По сравнению с MUC: По сравнению с MUC: более детальная таксономия сущностей более детальная таксономия сущностей для всех систем обязательна интерпретация метонимических связей для всех систем обязательна интерпретация метонимических связей требуется семантический анализ обрабатываемого текста требуется семантический анализ обрабатываемого текста Text Analysis Conference (TAC) – настоящее время Text Analysis Conference (TAC) – настоящее время

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Извлечение отношений Извлечение отношений Наш опыт Наш опыт

Основные подходы Задача всегда предельно конкретна: Задача всегда предельно конкретна: определенный тип текста определенный тип текста искомая информация представлена в виде набора полей для заполнения искомая информация представлена в виде набора полей для заполнения Текст, включающий такую информацию, предельно шаблонный Текст, включающий такую информацию, предельно шаблонный Поиск осуществляется при помощи набора образцов Поиск осуществляется при помощи набора образцов

Образцы Состав образцов: Состав образцов: Лексика, семантика Лексика, семантика Частичный синтаксис Частичный синтаксис Близость, взаимное расположение частей Близость, взаимное расположение частей Формат: Формат: Зависит от формата представления текста в системе Зависит от формата представления текста в системе Часто используются специальные языки (грамматики) Часто используются специальные языки (грамматики) Построение образцов: Построение образцов: Вручную Вручную Машинное обучение (bootstrapping) Машинное обучение (bootstrapping) Обобщение образцов с привлечением словарных и/или онтологических ресурсов Обобщение образцов с привлечением словарных и/или онтологических ресурсов

Машинное обучение Pro: Pro: не требует большого количества ручного труда по написанию правил не требует большого количества ручного труда по написанию правил система более гибкая, ее легко перенастроить система более гибкая, ее легко перенастроить Contra: Contra: требуется большой обучающий корпус, правильно и полностью размеченный требуется большой обучающий корпус, правильно и полностью размеченный сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно» сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»

Правила Pro: Pro: Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов Contra Contra Большая ручная работа, требующая специальной квалификации Большая ручная работа, требующая специальной квалификации Трудно перенастраивать Трудно перенастраивать Возможны (и даже предпочтительны) гибридные подходы Возможны (и даже предпочтительны) гибридные подходы

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Анафора и кореференция Анафора и кореференция Наш опыт Наш опыт

Извлечение именованных сущностей Named Entity: Named Entity: Стандартные примеры: персоналии, географические названия, организации… Стандартные примеры: персоналии, географические названия, организации… Для биологических текстов: названия генов, белков, ферментов… Для биологических текстов: названия генов, белков, ферментов… Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование… Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование… Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями

Основные подходы Основанный на знаниях: Основанный на знаниях: список имен собственных список имен собственных регулярные выражения, описывающие именованные сущности регулярные выражения, описывающие именованные сущности образцы, описывающие контекст образцы, описывающие контекст Машинное обучение Машинное обучение обучающий корпус обучающий корпус определение характерных свойств определение характерных свойств поиск по этим свойствам поиск по этим свойствам

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Извлечение отношений Извлечение отношений Наш опыт Наш опыт

Извлечение отношений между понятиями Отношения: Отношения: Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ … Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ … Специфические для предметной области – СТРАНА- СТОЛИЦА, БЕЛОК-ФЕРМЕНТ … Специфические для предметной области – СТРАНА- СТОЛИЦА, БЕЛОК-ФЕРМЕНТ … В тексте определяются: В тексте определяются: Свойствами именованных сущностей Свойствами именованных сущностей Лексическими свойствами контекста Лексическими свойствами контекста Синтаксическими свойствами контекста Синтаксическими свойствами контекста Извлечение: Извлечение: Правила (образцы) vs. машинное обучение Правила (образцы) vs. машинное обучение Поиск: начиная с именованных сущностей vs. Начиная с отношений Поиск: начиная с именованных сущностей vs. Начиная с отношений

Анафора и кореференция Извлечение информации в масштабах текста Извлечение информации в масштабах текста Кореференция: возможно использование экстралингвистической информации Кореференция: возможно использование экстралингвистической информации Анафора: невозможно использование экстралингвистической информации Анафора: невозможно использование экстралингвистической информации Вокруг местоимения отыскиваются существительные- кандидаты Вокруг местоимения отыскиваются существительные- кандидаты Проверяется согласование Проверяется согласование Статистики и эвристики Статистики и эвристики Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Извлечение отношений Извлечение отношений Наш опыт: Наш опыт: Система фактографического поиска в газетных текстах Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей

Система фактографического поиска в газетных текстах Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю. Методы извлечения фактографической информации из текстов. Опыт разработки. // Megaling2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во Ди АйПи, Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю. Методы извлечения фактографической информации из текстов. Опыт разработки. // Megaling2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во Ди АйПи, Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика Вып Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика Вып

Система Factors Система, основанная на знаниях – используется онтология IntTez -

Постановка задачи Задача: извлечение из текстов СМИ информации общественно-политической тематики. Факторы - различные характеристики общественно-политической ситуации(около 100). Значения факторов: Количественные - число пенсионеров; средний уровень заработной платы Количественные - число пенсионеров; средний уровень заработной платы Оценочные - социальная напряженность; военные угрозы Оценочные - социальная напряженность; военные угрозы

Система Factors: - интеллектуальная среда для поддержки работы эксперта-аналитика с текстами. Режимы работы: Автоматический Автоматический Диалоговый Диалоговый ТЕКСТЫ FACTORS Фактор Значение

Функциональность: 1. Последовательное наращивание распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой. 2. Легкость и простота редактирования и пополнения; визуальное представление информации. 3. Функциональная расширяемость и переносимость на другие проблемные и предметные области.

Образцы 1. Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей) 2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное») 3. Смешанные

Образцы Фактор + значение Фактор + значение В основном для оценочных факторов социальная напряженность стихийный митинг Только фактор Только фактор Для количественных факторов: Для количественных факторов: уровень инфляции уровень инфляции инфляция составила 4%

Поиск образцов в тексте население... право на труд... ограничение 1) Поиск опорного элемента население... право на труд... ограничение 2) Поиск в окрестности других элементов население... право на труд... ограничение Для концептов образца – учет синонимов ограничение = ограниченный, ограничить, ущемление Параметры поиска предполагают отладку и настройку

Только фактор: поиск значения Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?» Уровень зарплаты заработная плата Транспортные издержки траты Число пенсионеров пенсионеры Онтология: собственный признак единица измерения заработная плата денежная единица пенсионеры без единиц

Общий алгоритм поиска 1) Поиск образца 2) Определение собственного признака и единиц измерения 3) Поиск числа с единицей измерения 4) Проверка соответствия единиц измерения 5) Если число не найдено – поиск слов большой, маленький, растет, падает и их синонимов 6) Определение достоверности

Содержание Message Understanding Conference Message Understanding Conference Извлечение информации: основные подходы Извлечение информации: основные подходы Named Entity Recognition Named Entity Recognition Извлечение отношений Извлечение отношений Наш опыт: Наш опыт: Система фактографического поиска в газетных текстах Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей

V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia Information. In Computational Linguistics and Intelligent Text Processing 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, Proceedings. Lecture Notes in Computer Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – 579 V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia Information. In Computational Linguistics and Intelligent Text Processing 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, Proceedings. Lecture Notes in Computer Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – 579 Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Логико- лингвистический анализ текстов определений в энциклопедических и толковых словарях // Сучасні технології компютерної лексикографії (на матеріалах міжнародної конференції «MegaLing2009») : Зб. наук. пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; редкол.: Ю. Д. Апресян [та ін.]. К. : Довіра, 2009 Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Логико- лингвистический анализ текстов определений в энциклопедических и толковых словарях // Сучасні технології компютерної лексикографії (на матеріалах міжнародної конференції «MegaLing2009») : Зб. наук. пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; редкол.: Ю. Д. Апресян [та ін.]. К. : Довіра, 2009 Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Опыт автоматизированного пополнения онтологий с использованием машиночитаемых словарей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Опыт автоматизированного пополнения онтологий с использованием машиночитаемых словарей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, Система автоматического пополнения онтологии на основе

Пополнение онтологий Пополнение онтологий – бутылочное горлышко инженерии знаний Пополнение онтологий – бутылочное горлышко инженерии знаний Ontology Learning – автоматическое пополнение онтологии на основе естественно-языковых текстов Ontology Learning – автоматическое пополнение онтологии на основе естественно-языковых текстов

Источник Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров М.: Большая Российская энциклопедия, 2001 Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров М.: Большая Российская энциклопедия, 2001 исключены персоналии, географические названия и другие имена собственные исключены персоналии, географические названия и другие имена собственные словарных статей, различных терминов словарных статей, различных терминов

Гипотеза В большинстве случаев родовой по отношению к определяемому термин представлен первым по порядку существительным (именной группой) в именительном падеже. АГРАФ - нарядная заколка для волос, с помощью которой крепили в прическах перья, цветы, искусственные локоны и т. д.

Примеры ПЕРИСТИЛЬ - прямоугольный двор, сад, площадь, окруженные с 4 сторон крытой колоннадой. ЯТАГАН - рубяще-колющее оружие (среднее между саблей и кинжалом) у народов Ближнего и Среднего Востока (известно с 16 в.).

Общий алгоритм анализа

сокращения (разворачиваются в полные слова, если это возможно) сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) пометы (удаляются) текст в скобках (удаляется) текст в скобках (удаляется) Лексикографическая обработка

АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков Лексикографическая обработка

Используются компоненты АОТ Используются компоненты АОТ Упрощённые правила (Tomita-формализм) Упрощённые правила (Tomita-формализм) Строится дерево зависимостей Строится дерево зависимостей Синтаксический анализ

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0. grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP]; Упрощенные правила

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ

До После Лемм / слово 1,271,06 Морфологических вариантов / слово 2,261,64 Синтаксический анализ: снятие неоднозначности

о чукотском море о чукотском море море море МОРЕ (ср.р.) МОРЕ (ср.р.) МОР (мр.р.) МОР (мр.р.) МОРА (жр.р.) МОРА (жр.р.) МОРА отбрасывается после синтаксического анализа МОРА отбрасывается после синтаксического анализа Неоднозначность: пример

АВАНПОРТ - внешняя часть порта, предназначенная для стоянки судов, ожидающих подхода к причалам, погрузки и разгрузки. АВАНПОРТ - внешняя часть порта, предназначенная для стоянки судов, ожидающих подхода к причалам, погрузки и разгрузки. ШНЕК - название винтового конвейера. ШНЕК - название винтового конвейера. ПАРАБОЛОГРАФ - прибор для вычерчивания плоских кривых 2-го порядка (парабол). ПАРАБОЛОГРАФ - прибор для вычерчивания плоских кривых 2-го порядка (парабол). Отношение между термином и определением

ТождествоSame Обобщение (значение по умолчанию)Gen Частный случай (обратное к GEN)Spec ЧастьPart ЦелоеWhole НазначениеFunc другоеOther Типы выделяемых отношений

Правила приписывается конкретному опорному слову приписывается конкретному опорному слову описывает на какой тип отношений указывает данное слово описывает на какой тип отношений указывает данное слово следует ли сохранять данное слово в качестве опорного или необходимо отбросить его и перейти к следующему, указанному правилом. следует ли сохранять данное слово в качестве опорного или необходимо отбросить его и перейти к следующему, указанному правилом.

Примеры правил: тождество Обозначение 1. Тип отношения меняется на Same 2. Записывается следующее (по дереву) существительное СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки.

Явление 1. Записывается «явление» 2. Тип отношения меняется на Same 3. Записывается следующее (по дереву) существительное СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств. Примеры правил: тождество

Явление 1. Записывается «явление»… атмосферное явление, физическое явление атмосферное явление, физическое явление ИЗОМЕРИЯ - явление, заключающееся в существовании изомеров - соединений, одинаковых по составу и молекулярной массе, но различающихся по строению или расположению атомов в пространстве. ИЗОМЕРИЯ - явление, заключающееся в существовании изомеров - соединений, одинаковых по составу и молекулярной массе, но различающихся по строению или расположению атомов в пространстве. Зачем нужен первый пункт

1. Записать – - следующее существительное 2. - следующее существительное 3. Сложные правила Общий вид правил

Род, вид, сорт… - следующее существительное. - следующее существительное. ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Примеры правил: обобщение

Жанр Записать - - следующее существительное. Записать - - следующее существительное. МИСТЕРИЯ - жанр средневекового западноевропейского религиозного театра. Примеры правил: обобщение

Совокупность - следующее существительное. - следующее существительное. АРХИВ - совокупность документов, образовавшихся в результате деятельности учреждений, предприятий и отдельных лиц. Примеры правил: часть

Cкопление Записать - - следующее существительное. Записать - - следующее существительное. ГАНГЛИЙ - анатомически обособленное скопление нервных клеток, волокон и сопровождающей их ткани. НО: ПНЕВМОТОРАКС - скопление воздуха или газов в полости плевры. Примеры правил: часть

Часть - следующее существительное. - следующее существительное. АЛГЕБРА - часть математики, развивающаяся в связи с задачей о решении алгебраических уравнений. Примеры правил: целое

Участок Записать - - следующее существительное. Записать - - следующее существительное. АНТИКОДОН - участок транспортной РНК, состоящий из трех нуклеотидов. НО: ИМЕНИЕ - земельный участок с усадьбой. Примеры правил: целое

Метод, способ - следующее существительное. - следующее существительное. ЗАИЛЕНИЕ - метод мелиорации песчаных земель. СГРАФФИТО - способ декоративной отделки стен, при котором рисунок процарапывается в верхнем слое штукатурки и обнажается нижний слой, отличающийся по цвету. Примеры правил: инструмент/назначение

Орудие Записать - - следующее существительное. Записать - - следующее существительное. ПЕРЕМЕТ - орудие лова рыбы (главным образом хищной). НО: артиллерийское орудие орудие труда Примеры правил: инструмент/назначение

Инструмент, прибор, аппарат… 1. Записать 2. Перейти к следующему предлогу 3. Если это для: Func – следующее существительное. ФЕН - электрический аппарат для сушки волос. «Сложные» правила

Записать - - следующее существительное. Записать - - следующее существительное. АБОРТ - прерывание беременности в сроки до 28 недель (то есть до момента, когда возможно рождение жизнеспособного плода). ХОМИНГ - способность животного возвращаться со значительного расстояния на свой участок обитания, к гнезду, логову и т. д. Другие типы отношений

характеристикараспространение признакпереход свойствоизвлечение числопревращение показательвведение степеньвыделение количествовозникновение характернарушение массапрерывание состояниеразвитие способностьобразование местоувеличение источникуменьшение Другие типы отношений

18 правил 18 правил 91 опорное слово, для которого существуют правило 91 опорное слово, для которого существуют правило 8484 статей, для которых используются 8484 статей, для которых используются 4679 различных опорных слов 4679 различных опорных слов 1978 опорных терминов 1978 опорных терминов Правила: резюме

Экспертная оценка, 200 словарных статей Экспертная оценка, 200 словарных статей 90% случаев (179 статей) решения совпали с результатами, полученными автоматически 90% случаев (179 статей) решения совпали с результатами, полученными автоматически 21 случай ошибок: 21 случай ошибок: 16 случаев – неточности алгоритма 16 случаев – неточности алгоритма 5 случаев – опорное слово отсутствует в тексте определений 5 случаев – опорное слово отсутствует в тексте определений Оценка

АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.

Результаты логико-лингвистического анализа представляются в виде таблицы ПИДЖИНязыкGENТекст определения ЗАИЛЕНИЕмелиорацияFUNCТекст определения ФЕНаппаратGENТекст определения ФЕНсушкаFUNCТекст определения ПАРСЕКединицаGENТекст определения единица измерения Пополнение онтологии

Указание базового концепта онтологической таксономии Указание базового концепта онтологической таксономии Формирование энциклопедической выборки Формирование энциклопедической выборки Добавление терминов выборки Добавление терминов выборки Постредактирование Постредактирование Процедура пополнения

Базовый концепт: СУДНО Энциклопедическая выборка: балкер баржа барк барка баркас баркентина брандвахта брандер бриг бригантина бригантина газовоз газотурбоход галера галион глиссер джонка дизель-электроход землесосный снаряд землечерпальный снаряд иол катамаран катамаран кеч килектор клинкер клипер ковчег корабль военный коч кунгас ледокол лихтер лодка нис пароход парусное судно плашкоут понтон приз прорезь рыбоконсервная плавучая база рыбопромысловая база сейнер скампавея струг суда обеспечения судно на воздушной подушке судно на подводных крыльях судно научно- исследовательское тендер теплоход траулер тримаран турбоход шлюп шхуна электроход яхта С учетом отношения НИЖЕ: ШЛЮПКА : баркас вельбот гичка туз БАРЖА: шаланда Пополнение онтологии: пример

Источники Gaizauskas, R., Wilks, Y., Information Extraction: Beyond Document Retrieval - pdf Gaizauskas, R., Wilks, Y., Information Extraction: Beyond Document Retrieval - pdf Cunningham, H. Information Extraction, Automatic - Cunningham, H. Information Extraction, Automatic Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172 Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007 Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007 Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты –