1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко 16.04.2007.

Презентация:



Advertisements
Похожие презентации
Как работают Яндекс.Новости Татьяна Исаева. 2 Задачи Яндекс.Новостей Миссия Яндекса – отвечать на заданные и незаданные вопросы пользователей Яндекс.Новости:
Advertisements

Как работают Яндекс.Новости Лев Гершензон, Татьяна Исаева.
Яндекс.Новости как партнерский сервис Лев Гершензон, Татьяна Исаева.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
1 Тенденции развития поисковых систем Александр Садовский.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
Структура главной страницы сайта Функции главной страницы: парадный вход навигатор резюме.
Оценка качества в задаче агрегирования новостных сообщений Михаил Маслов Версия _01.
Оптимизация информационного поля компании в сети Интернет Ашарапова Елена Валентиновна, заместитель генерального директора ООО "Агентство виртуальных технологий.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
ПРОДВИЖЕНИЕ С ПОЛЬЗОЙ… для поисковых систем О стратегии продвижения в условиях, когда поисковые системы могут учитывать тысячи факторов для.
Автоматическое распознавание тематики сверхкоротких текстов Андрей Белов, Михаил Волович «Ашманов и Партнеры», «Поисковые технологии»
Тема Структура представления информации в мировых информационных сетях.
Примеры Аннотация: База данных содержит информацию о событиях и мероприятиях, которые прошли и будут проходить в университете; первая новость датируется.
Информационно- поисковая система «Архив документов»
Search Engine Marketing SEM, SEO. Содержание SEM SEO.
Транксрипт:

1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко

2 План –Что такое Яндекс.Новости? Автоматическая кластеризация сообщений в сюжеты Ранжирование новостных сюжетов Автоматическое аннотирование сюжета: выбор заголовка, текста, картинки –Выделение объектов из текста –Аннотирование кластера документов (сюжета) Выбор наиболее релевантных объектов и фактов Выбор предложений для аннотации

3 Яндекс.Новости Автоматическая кластеризация новостных сообщений в сюжеты – новости об одном событии. - Определение ключевых слов документа - Поиск для каждого документа по его ключевым словам близких документов - Многопроходная кластеризация документов по специально построенным из документа и по пользовательским запросам Ранжирование сюжетов - количество сообщений - новизна - пользовательский интерес «новостные» запросы «кликабельность» сюжетов

4 Яндекс.Новости. Страница рубрики

5 Яндекс.Новости. Страница сюжета Заголовок - Соответствие лексическому ядру - «Красота»: длина, синтаксическая полнота - Новизна Картинка Аннотация Сюжет в лицах, Карта к сюжету Список сообщений, составляющих сюжет - Отсортирован по времени - Релевантные, не дублирующиеся сообщения

6 Яндекс.Новости. Страница сюжета

7 Извлечение фактов из текстов сюжета Извлекаемые объекты и факты - ФИО - названия организаций - географические объекты - даты и числа - цитаты Справочная информация адрес – ссылка на карту фио – ссылка на пресс-портрет новостной источник – ссылка на сайт/статью

8 Извлечение фактов из текста 12 марта этого года задержан заместитель главного бухгалтера финансово-экономического управления УВД Хабаровского края Владимир Дуничев, похитивший более 10 миллионов рублей.

9 Отбор предложений для аннотации отождествление объектов одного типа из разных документов сюжета приписывание объектам весов по упоминаемости и по типу выбор всех предложений из всех документов, содержащих ключевые слова сюжета взвешивание предложений по входящим в них ключевым словам и входящим в них фактам

10 Отбор предложений для аннотации просев полученных предложений : - по шинглам – удаление лексических дублей 4 апреля гособвинение потребовало приговорить Ульмана и Перелевского к 23 годам тюрьмы, а Воеводина и Калаганского - к 18 годам. Гособвинение требует приговорить Эдуарда Ульмана и Алексея Перелевского к 23 годам лишения свободы каждого, Александра Калаганского - к 18 годам. - по объектам – удаление содержательных дублей На процессе в Северо-Кавказском военном суде объявлен перерыв до 13 апреля из-за неявки троих обвиняемых Эдуарда Ульмана, Александра Калаганского и Владимира Воеводина. Подсудимые по делу о расстреле чеченских жителей Эдуард Ульман, Александр Калаганский и Владимир Воеводин не явились в четверг на заседание Северо-Кавказского военного суда. - выбор из дублирующихся самого раннего выбор N самых весомых предложений

11 Пути развития Учет сценария события для определения необходимых составляющих аннотации –Футбольный матч –Пожар –Принятие нового закона Улучшение связности текста аннотации

12 Спасибо!