ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.

Презентация:



Advertisements
Похожие презентации
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
Advertisements

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
От сложного – к простому. От непонятного – к понятному.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
АлтГТУ им И. И. Ползунова. АлтГТУ им. И. И. Ползунова Проблемы эксплуатации Текст.
Распределенная система мониторинга и диспетчеризации процессов гетерогенной среды студент Костюков В.В., профессор к.ф-м.н Крючкова Е.Н., АлтГТУ / ПОВТ.
АлтГТУ им. И. И. Ползунова / ПОВТ, Владимир Костюков Требования 2 отказоустойчивость масштабируемость эффективностьприменимость расширяемость.
АлтГТУ им. И. И. Ползунова / ПОВТ, Владимир Костюков Проблемы Текст 2.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Теория экономических информационных систем Семантические модели данных.
Базы Данных (БД). База данных - информационная модель, позволяющая в упорядоченном виде хранить данные о группе объектов, обладающих одинаковым набором.
Лекция 5 Способы конструирования программ. Основы доказательства правильности.
МЕТОДЫ ОРГАНИЗАЦИИ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ПОДОБНЫМИ СТРУКТУРАМИ КАК ЕДИНЫЙ ИФОРМАЦИОННЫЙ РЕСУРС ХРАНИЛИЩА МНОГОМЕРНЫХ ДАННЫХ. Волков Антон Андреевич.
Транксрипт:

ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов

Извлечение информации Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической обработки Результат: структурированные данные (объекты+отношения)

Примеры предметных областей Спортивные события:,,,, … База данных о рынке жилья:,,, … Выпуск новых товаров:,, …

Приложения технологии извлечения информации семантическая кластеризация и классификация автоматическое аннотирование визуализация данных семантическое сравнение и поиск создание баз данных …

Основные компоненты системы Инфраструктурные службы (конфигурирование, параллельная обработка, взаимодействие модулей) Лингвистический процессор Интерпретатор правил извлечения информации Модули работы со знаниями предметной области

Знания в системе

Извлечение информации В «слабом» смысле Обнаружение и пометка текстовых элементов и отношений (разметка текста) В «сильном» смысле Переход от текстовых структур к модели предметной области

Извлечение информации в «слабом» смысле Лингвистическая обработка Токенизация Разбиение на предложения Морфология Частичный синтаксический анализ Словарное распознавание Распознавание именованных сущностей Частичный семантический анализ (в том числе, с использованием контекстных правил)

Построение первичных текстовых объектов

Примеры текстовых объектов

Построение текстовых фактов Текстовый факт ситуация заданной структуры, имеющая временную координату

Построение текстовых фактов Примеры построенных фактов Михаил Ковальчук генеральный директор ЗАО "Трансэк" [ ] Михаил Ковальчук член-корреспондент РАН, директор Российского научного центра "Курчатовский институт" [ ] Игорь Ковальчук исполнительный директор транспортной компании ЗАО «Трансэк» [ ] Игорь Ковальчук генеральный директор транспортной компании "Трансэк" [ ]

Установление кореферентности (примеры) Модуль собирает в один объект разбросанную по разным текстам информацию об организации «Трансэк»: Устанавливается, что существуют два разных лица с именем Михаил Ковальчук: Ни один отдельно взятый текст не содержал полного набора сведений об этой компании !

Вывод новых фактов «Смена лиц, занимающих должность» Пример вывода новых фактов об отставках и назначениях на основе данных, содержащихся в разных текстах «Смена должностей лица»

Построение гипотез об отношениях между объектами из базы фактов По первому тексту система получает достоверный факт: Постулируется существование гипотетических объектов Сын 1 и Сын 2, обладающих определенными свойствами, хоть и с разной степенью достоверности Поиск гипотетических объектов с такими свойствами в базе текстовых фактов обнаруживает два объекта: …

Построение гипотез… (окончание) Система ранее вывела факт: Предположим, в знаниях системы о мире есть фрагмент, который позволяет строить гипотезы например, такого рода: Строится гипотеза: Для подтверждения или опровержения этой гипотезы у системы пока нет данных. Но они могут появиться по мере поступления новых текстов.

Результаты извлечения информации Полученные результаты могут использоваться непосредственно система выводит новые факты, распределенные по набору текстов, обеспечивает способ их визуализации в качестве исходных данных для систем Data Mining данные теперь структурированы в качестве исходных данных для подсистемы индексирования это даст новые возможности локального поиска

Пример факта Президиум Российской академии наук решил назначить члена-корреспондента РАН, директора Курчатовского института Михаила Ковальчука исполняющим обязанности вице-президента РАН.

Установление кореферентности номинаций экземпляров Разрешение местоименной анафоры Установление тождества между номинациями экземпляров из одного текста Иллюстрация

То, что 28-летний Борис Ковальчук будет назначен на эту должность, вопрос практически решенный, и его кандидатура проходит процедуру формального согласования в спецслужбах. Его отец, Юрий Ковальчук, почетный консул Таиланда в Санкт-Петербурге, в 1996 году наряду с Владимиром Путиным и нынешним министром образования Андреем Фурсенко выступил соучредителем дачного кооператива "Озеро", а в 2000 году создал и возглавил центр стратегических разработок "Северо-запад".

Примеры

ИСИДА-Т: Параллельная обработка данных Параллелизм на уровне документов для высокой производительности и снижения накладных расходов Разбиение документов для балансировки нагрузки Выделение сервисных узлов для выполнения отдельных функций по необходимости

Параллельные вычисления Параллельность в системе определяется спецификой конкретной задачи поиска и анализа информации. Выделяются следующие типы параллелизма: по данным (требуется обрабатывать независимые документы: индексация, извлечение информации…) по задачам (задачи загрузки документов, их индексации, каталогизации и поиска, работы с ресурсами знаний могут осуществляться независимо друг от друга) по пользователям (требуется обеспечить распределенную обработку запросов различных пользователей) алгоритмический параллелизм (некоторые алгоритмы, например вычисления прямого и обратного индекса, могут быть разбиты на параллельные блоки и исполняться на разных узлах)