Онтологический инжиниринг в системах извлечения знаний из текста Александр Ермаков, ООО «ЭР СИ О» ermakov@rco.ruermakov@rco.ru, www.rco.ruwww.rco.ru опыт.

Презентация:



Advertisements
Похожие презентации
Лингвистическая модель для компьютерного анализа тональности публикаций СМИ Ермаков А.Е., Киселев С.Л. ООО Гарант-Парк-Интернет и партнеры (
Advertisements

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Олег Румянцев Департамент стратегических коммуникационных проектов Коммуникационная поддержка проекта Web-выборы 2012.
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
Типичные возражения покупателя Возражения по качеству изделий Возражения по свойствам изделий или материалов Возражения по применению изделий Возражения.
Система мониторинга новостей InfoStream ©. Информационное пространство из одних рук Ландэ Дмитрий Владимирович, доктор технических наук, заместитель директора.
Ученик – учитель – родитель: проблемы и перспективы взаимодействия в образовательном пространстве сети Интернет.
Печать и Интернет: как достигнуть максимального эффекта за счет синергии Директор по маркетингу и продажам «Пронто-Ростов» Виталий Педан Конференция: г.Ростов-на-Дону.
Люди в блогах: что ищут, как пользуются, зачем пишут Анна Караулова, медиадиректор 2010.
Современные инструменты интернет- рекламы. СЕНТЯБРЬ ,8 миллиона уникальных пользователей интернета в возрасте старше 15 лет каждый из интернет-пользователей.
Дифференцированное измерение эмоциональности текстов с помощью алгоритма PMI-IR Андрей Четвериков.
ВВОДНЫЕ КОНСТРУКЦИИ В ХУДОЖЕСТВЕННОМ ТЕКСТЕ (НА ПРИМЕРЕ ПРОЗЫ А.С. ПУШКИНА ) Автор: Миронова Ольга, ученица 9 «А» класса ГБОУ СОШ 3 г. Новокуйбышевска.
Реклама в социальных сетях ARTOX media Реклама в интернете Денис Ловецкий, руководитель отдела SMM Реклама в социальных сетях.
Апробация инструментария для оценки метапредметных результатов в начальной школе (комплексная работа) Ковалева Г.С.
Тиражные решения и готовые интернет- магазины на платформе «1С-Битрикс» Александр Демидов руководитель направления арендных решений компании «1С-Битрикс»
11 декабря 2008 г. Информационно-аналитическая поддержка ФЦП «Электронная Россия ( годы) Шифр темы
Информационные технологии. Материальная и информационная технологии Материальные ресурсы Материальный продукт Данные Информационный продукт первичная.
Информация + культура =? "Знание может быть только у того, у кого есть вопросы" Генри Форд.
Синергия прессы и он-лайн ресурсов как способ максимального охвата целевой аудитории. Синергия прессы и он-лайн ресурсов как способ максимального охвата.
Блог в обучении английскому языку в условиях аспектной организации преподавания Автор презентации к.п.н. Бухаркина М.Ю.
Транксрипт:

Онтологический инжиниринг в системах извлечения знаний из текста Александр Ермаков, ООО «ЭР СИ О» опыт машинного анализа сообщений блога Живой Журнал (

Знания в текстах: откуда, что и зачем извлекать? Извлечение из Интернета первичных элементов знания: а) утверждения (лекарство Антипилин – полная ерунда; вероятная причина свиста под капотом автомобиля в сырую погоду – слабое натяжение ремня генератора); б) факта (после принятия Антипилина может подниматься давление; летом 2006 фирма Пежо отозвала автомобилей из-за возможного возгорания в системе электроусилителя руля). Порождение сложного знания из элементов знания: а) логический вывод, например: продукт X некачественный (утверждение), X - продукт компании Y в 1997 (факт), Z - технический директор компании Y c 1996 по 1998 годы (факт), следовательно, Z - плохой руководитель (знание); б) обобщение, например, порождение выводов: препарат Антипилин имеет меньше побочных эффектов, чем Глипирон (на основании статистики отзывов больных) или Типичная причина поломок автомобиля Форд Фокус – засорение бензонасоса (на основании статистики сообщений автомобилистов).

Социальные сети в Интернет: главный источник знаний Блог Живой Журнал ( – сеть электронных дневников пользователей, которые делают записи (посты) в своих дневниках и комментарии на записи других пользователей в своих и чужих дневниках. По состоянию на лето 2007 года русскоязычная часть блога содержит: - более 75 тысяч тематических сообществ; - более 1 миллиона 200 тысяч пользователей; - в день добавляется около 100 тысяч постов и 400 тысяч комментариев. Сообщество auto_ru (Все об автомобилях) – крупнейшее из автомобильных. В целом за 2007 год: тысяч сообщений, порожденных 19 тысячами постов; авторов постов и 6 тысяч авторов комментариев; - объем русскоязычного текста около 60 Мбайт.

Объекты оценки: марки автомобилей Знания по объекту Волга: оценки потребительских свойств автомобиля Подкрепление знаний: цитаты из сообщений с отсылками в текст Знания об автомобилях из Интернет-сообщества (скриншот 1)

Типы извлеченных знаний: оценки свойств автомобилей и полезные факты Полезные факты по объекту Волга: участие в авариях (к оценке безопасности: а что останется от автомобиля?) Подкрепление знаний: цитаты из сообщений с отсылками в текст Знания об автомобилях из Интернет-сообщества (скриншот 2)

Задача: для каждой модели автомобиля "выловить" положительные и отрицательные отзывы и классифицировать их: за что хвалят/ругают?. Экспериментальная онтология для оценки автомобилей с точки зрения характеристик (положительная/отрицательная) их потребительских свойств. Содержит более 1200 терминов (24 группы): наименований узлов (движок, коробка передач, ходовая часть); - 71 наименование свойств классифицированны на 8 оцениваемых групп (ходовые качества, комфорт, безопасность, надежность, …); наименования оценок характеристик узлов и свойств, включающие прилагательные, существительные, глаголы и наречия (крутой, поломка, глючить, отстойно); - 37 эмоциональных характеристик (любить, жалоба, плеваться). Синтаксические связи в предложении между 24 группами терминов из онтологии описываются около 100 семантических шаблонов. Извлечение знаний из Интернета: оценка потребительских свойств товаров на основании анализа отзывов

Шаблон для извлечения оценки автомобиля, которая выражается прилагательным в конструкциях вида: Качество у двигателя Опеля стало низким; Интерьер салона в Мазде считается хорошим. Извлечение знаний: семантическая интерпретация текста (1)

Шаблон для извлечения оценки автомобиля, которая выражается существительным в конструкциях вида: Размер багажника на Subaru вызывает восторг; Вид салона Нексии приводит в бешенство. Извлечение знаний: семантическая интерпретация текста (2)

Извлечение знаний из Интернета: результаты Из сообщений ЖЖ (60 Мбайт текста) извлечено: - всего более 5000 оценок автомобилей, их узлов и характеристик; - более 1000 (795 хороших и 328 плохих) оценок привязано к маркам автомобилей; - более 4000 оценок узлов и характеристик не удалось привязать к конкретным маркам (связь с референтом анафорическая); Достигнута точность: 84% Оценка полноты: около 20% Спасибо за внимание! Александр Ермаков, ООО «ЭР СИ О»