Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.

Презентация:



Advertisements
Похожие презентации
ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.
Advertisements

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Галактика ПКМО - Программный комплекс мониторинга обстановки.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
Система программ «1 С: ПРЕДПРИЯТИЕ» Структура Элементы Средства.
Москва Семантическая обработка данных в программно-аппаратном комплексе (ПАК), предназначенном для управления предприятиями и отраслями.
АлтГТУ им И. И. Ползунова Проектирование и реализация каркаса распределенной системы мониторинга и диспетчеризации процессов гетерогенной среды Данил Старовойтов,
WEB- ТЕХНОЛОГИИ Лекция 4. Задача преобразования XML- данных 1 Задача преобразования Для передачи данных между разными приложениями необходимо преобразовать.
1. Задача Исходные данные: Программа производит чтение трех целых чисел, которые интерпретируются как длины сторон треугольника. Далее программа печатает.
Теория экономических информационных систем Семантические модели данных.
База данных – это: а) специальным образом организованная и хранящаяся на внешнем носителе совокупность взаимосвязанных данных о некоторых объектах; б)
ЗАПРОС КАК ИНСТРУМЕНТ ОБРАБОТКИ ИНФОРМАЦИИ План урока : Повторение пройденного материала Изучение новой темы Практическая работа Подведение итогов Домашнее.
Что такое система. Понятие системы Система – это сложный объект, состоящий из взаимосвязанных частей (элементов) и существующий как единое целое. Всякая.
АлтГТУ им И. И. Ползунова Проектирование и реализация каркаса распределенной системы мониторинга и диспетчеризации процессов гетерогенной среды Данил Старовойтов,
Общая характеристика текстового процессора 1. Макет текстового документа 2 Текстовый документ – это документ, созданный в прикладной среде и состоящий.
Базы данных – это совокупность сведений (о реальных объектах, процессах, событиях или явлениях), относящихся к определенной теме или задаче, организованная.
Транксрипт:

Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической обработки Результат: структурированные данные

Извлечение информации: примеры Спортивные события:,,,, … База данных о рынке жилья:,,, …

ИСИДА-Т: Основные компоненты Инфраструктурные службы (конфигурирование, параллельная обработка, взаимодействие модулей) Лингвистический процессор Модули работы со знаниями предметной области Интерпретатор правил извлечения информации

ИСИДА-Т: Знания в подсистеме

ИСИДА-Т: Параллельная обработка данных Параллелизм на уровне документов для высокой производительности и снижения накладных расходов Разбиение документов для балансировки нагрузки Выделение сервисных узлов для выполнения отдельных функций по необходимости

Построение первичных текстовых объектов

Примеры текстовых объектов

Построение текстовых фактов Текстовый факт ситуация заданной структуры, имеющая временную координату

Построение текстовых фактов Примеры построенных фактов Михаил Ковальчук генеральный директор ЗАО "Трансэк" [ ] Михаил Ковальчук член-корреспондент РАН, директор Российского научного центра "Курчатовский институт" [ ] Игорь Ковальчук исполнительный директор транспортной компании ЗАО «Трансэк» [ ] Игорь Ковальчук генеральный директор транспортной компании "Трансэк" [ ]

Установление кореферентности (примеры) Модуль собирает в один объект разбросанную по разным текстам информацию об организации «Трансэк»: Устанавливается, что существуют два разных лица с именем Михаил Ковальчук: Ни один отдельно взятый текст не содержал полного набора сведений об этой компании !

Вывод новых фактов «Смена лиц, занимающих должность» Пример вывода новых фактов об отставках и назначениях на основе данных, содержащихся в разных текстах «Смена должностей лица»

Построение гипотез об отношениях между объектами из базы фактов По первому тексту система получает достоверный факт: Постулируется существование гипотетических объектов Сын 1 и Сын 2, обладающих определенными свойствами, хоть и с разной степенью достоверности Поиск гипотетических объектов с такими свойствами в базе текстовых фактов обнаруживает два объекта: …

Построение гипотез… (окончание) Система ранее вывела факт: Предположим, в знаниях системы о мире есть фрагмент, который позволяет строить гипотезы например, такого рода: Строится гипотеза: Для подтверждения или опровержения этой гипотезы у системы пока нет данных. Но они могут появиться по мере поступления новых текстов.

Результаты извлечения информации Полученные результаты могут использоваться непосредственно система выводит новые факты, распределенные по набору текстов, обеспечивает способ их визуализации в качестве исходных данных для систем Data Mining данные теперь структурированы в качестве исходных данных для подсистемы индексирования это даст новые возможности локального поиска