ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.

Презентация:



Advertisements
Похожие презентации
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Advertisements

Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.
Исследовательский центр искусственного интеллекта Переславль-Залесский, Россия Институт программных систем РАН.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Расширение цифрового осциллографа системы управления за счет включения анализатора сигналов Цель: Создание методики построения подсистемы анализа сигналов.
Основные понятия баз данных. Лекция. Классификация банков данных.
Тематический раздел «Технологическая поддержка» содержит всю необходимую информацию для проведения регламентных работ по обновлению и настройке программ.
Эффективная технология графического представления астрометрических данных Вероника Михеева Институт Прикладной Астрономии РАН Санкт-Петербург 8 июня 2004.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
Модели представления знаний. 1. Логические; 2. Продукционные; 3. Представление знаний на основе фреймов; 4. Представление знаний на основе семанти- ческих.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Возможности Больших Данных для корпоративных архивов Павловский Е.Н., к.ф.-м.н. Новосибирский государственный университет (НГУ) ООО «Исследовательские.
Разработка средств автоматического синтаксического анализа как модуля системы понимания текста Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю.
Тема : Фреймовая модель представления знаний
Транксрипт:

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский

Цели и задачи Основная цель: разработка технологических программных средств извлечения информации из текста Задачи: язык описания правил извлечения информации методы предварительной обработки текстов среда применения правил извлечения информации использование преимуществ параллельной архитектуры

Извлечение информации Цель: извлечь значимую информацию определенного типа из (больших массивов) неструктурированного текста для дальнейшей аналитической обработки Результат: заполненные структуры данных предопределенного формата (экзофреймы)

Примеры предметных областей Спортивные события:,,,, … База данных о рынке жилья:,,, … База данных новых товаров:,, …

Приложения технологии извлечения информации семантическая кластеризация и классификация автоматическое аннотирование визуализация данных семантическое сравнение и поиск создание баз данных …

Извлечение информации: проблемы Необходима точная постановка задачи Специфика предметной области лексикон стиль изложения различный характер данных Неоднозначности на большинстве этапов обработки текста Трудоемкость разработки и настройки систем

Уровни анализа текста графематический анализ морфологический анализ синтаксический анализ прикладной семантический анализ определение семантических классов разрешение кореферентности объединение результатов построение модели предметной области

Архитектура системы извлечения информации

Организация библиотеки Документы Аннотации Итераторы Фильтры Прикладные задачи Анализаторы Представления Фреймы результатов Подсистема ввода-вывода

Подходы к представлению информации о тексте Объектные модели ОО-языков высокое быстродействие вероятность сбоев сложность обмена данными и интеграции средств Универсальные способы гибкость

Базовая модель аннотаций (TIPSTER) Аннотация сопоставляется фрагменту текста; принадлежит классу аннотаций; содержит атрибуты в виде «имя-значение».

Представление информации о тексте в ПС INEX ПРИМЕР АННОТАЦИИ

Аннотации: пример

Преимущества Унифицированный способ представления информации Построение систем со слабой связностью Наличие математической модели Удобство сопоставления образцу

Пример анализа текста ФРАГМЕНТ ЛЕНТЫ НОВОСТЕЙ Японская фирма Victor Company of Japan представила новый DVD-проигрыватель JVC XV-A707 с возможностью воспроизведения дисков DVD-Audio. Подробнее… Компания MAS Elektronik представила новый стационарный DVD-рекордер Xoro HSD R545 со встроенным ТВ-тюнером и возможностью записи дисков стандарта DVD+R/RW. Подробнее…

Пример анализа текста Производитель Тип Модель Носители Производитель Тип Модель Носители ЦЕЛЕВЫЕ ФРЕЙМЫ Victor Company of Japan DVD-проигрыватель JVC XV-A707 DVD-Audio MAS Elektronik DVD-рекордер Xoro HSD R545 DVD+R/RW

Пример анализа текста ИЗВЛЕЧЕННАЯ ИНФОРМАЦИЯ В СТРУКТУРИРОВАННОМ ВИДЕ

Правила извлечения информации набор правил, описывающих способ извлечения информации и заполнения слотов целевого фрейма набор ограничений, накладываемых на текстовые единицы при применении правил

Правила извлечения информации Работают на графе аннотаций Представляют собой расширение идеи регулярных выражений Оперируют аннотациями Интерпретируются в соответствии с режимом сопоставления