1 МЕДИАЛОГИЯ ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк pvolyak@mlg.ru NLPseminar, Санкт-Петербург 8 октября 2011 года.

Презентация:



Advertisements
Похожие презентации
Бренд мониторинг и социальная аналитика
Advertisements

1 МЕДИАЛОГИЯ 3400 российских СМИ ТВ, радио, газеты, журналы, информагентства, интернет, блоги объектов анализа расчет благоприятствования информационного.
1 МЕДИАЛОГИЯ СМИ 27 млн. блогов и форумов ТВ, радио, газеты, журналы, информагентства, интернет, блоги Региональные СМИ - от Калининграда до Находки.
Г. Москва, 11 ноября 2009г. Новые и старые медиа, консерватизм и новации Кто ближе к цели? Выступление Управляющего партнера Агентства «Социальные Сети»
О компании российская компания на рынке с 2003 года более 100 сотрудников круглосуточная обработка СМИ: сообщений в день 2www.MLG.ru.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
О компании российская компания на рынке с 2003 года более 100 сотрудников круглосуточная обработка СМИ: сообщений в день 2www.MLG.ru.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Москва 2010 Презентация для брендов. Презентация компании «Мнеметрика» для брендов, Москва 2010 Самые удачливые из моих знакомых - те, которые больше.
Формулируем вопросы Находим ответы Национальный Рейтинг Коммуникационных Агентств: механика работы, специфика сбора и обработки информации.
1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
Пример использования системы
Встречаем негатив. 2 Social Media Listening: цели Мониторинг форумов, блогов, социальных сетей, Twitter-а: сбор всех упоминаний бренда и конкурентов в.
ВТОРОЙ ДЕСЯТОК. Десять любых предметов можно назвать – ОДИН ДЕСЯТОК.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Тексты в поисковой оптимизации. Оптимизация сайта ключевой элемент построения продаж в интернете 2 Тексты в поисковой оптимизации Тексты серьезно влияют.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Москва 2010 Презентация для агентств. Презентация компании «Мнеметрика» для рекламных агентств, Москва 2010 «Рекламисты, игнорирующие исследования, так.
Транксрипт:

1 МЕДИАЛОГИЯ ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк NLPseminar, Санкт-Петербург 8 октября 2011 года

2 МЕДИАЛОГИЯ О КОМПАНИИ И ТЕХНОЛОГИЯХ

3 МЕДИАЛОГИЯ О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений для мониторинга и анализа СМИ на рынке с 2003 года

4 МЕДИАЛОГИЯ Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ + =

5 МЕДИАЛОГИЯ База СМИ

6 МЕДИАЛОГИЯ База СМИ

7 МЕДИАЛОГИЯ Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени Классификация и кластеризация потоков информации Выделение именованных понятий Мониторинг и анализ Визуализация результатов мониторинга и анализа

8 МЕДИАЛОГИЯ Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование объектов на позиции (в том числе с неизвестным) Подсветка

9 МЕДИАЛОГИЯ На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей Далее - кластеризация

10 МЕДИАЛОГИЯ Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг блогосферы и соцмедиа

11 МЕДИАЛОГИЯ КЛАСТЕРИЗАЦИЯ

12 МЕДИАЛОГИЯ Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем документы По векторам слов и объектов строим расстояния между документами Если расстояние меньше заданного радиуса, документы попадают в один кластер Также по расстоянию можно выделить плагиаты и дубликаты

13 МЕДИАЛОГИЯ Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка схожести с независимыми документами для последующего объединения в новый кластер Дискретная перекластеризация: периодически из имеющихся кластеров выбираются те, которые были обновлены с момента последнего процесса перекластеризации, затем выбранные кластеры проверяются на возможность объединения или разбиения Проверка на связанность: количество документов, с которыми связан вновь добавляемый в кластер документ, деленное на общее количество документов в кластере является связанностью документа, которая должна быть больше/равна по величине связанности кластера - усредненной связанности документов в кластере

14 МЕДИАЛОГИЯ Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов, непосредственно связанных с главной статьей

15 МЕДИАЛОГИЯ Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на подкластера в случае масштабных событий Недостаточная точность работы алгоритма выбора заголовка «Мусорные» документы в кластерах

16 МЕДИАЛОГИЯ Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса с синонимами Подключение модуля коррекции опечаток

17 МЕДИАЛОГИЯ Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия Система координат

18 МЕДИАЛОГИЯ Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей московских такси вводится обязательная лицензия (плохо) Зимой столичные бомбилы попадут на новые штрафы объекты – в заголовке должны фигурировать главные участники сюжета + фактическая информация наиболее полно Например: (хорошо) ВТБ заявил о продаже «Газпрому» 70% акций «Связьбанка» за $100 млн (плохо) Крупнейший госбанк продает свою дочку (хорошо) Председатель фракции «Справедливая россия» в Госдуме Николай Левичев сложил полномочия (плохо) Левичев заявил об уходе уровень обобщенности – заголовок должен описывать сюжет в общем, а не его фазу или деталь Например: (хорошо) При взрыве в «Домодедово» пострадало несколько десятков человек (плохо) Два харьковчанина числятся пропавшими после теракта в Москве знаки препинания – заголовок не должен состоять из нескольких предложений, крайне нежелательны символы «тире», «двоеточие», восклицательный и вопросительный знаки Например: (хорошо) Президент России обсудил спортивное образование в школах (плохо) Медведев: Самое лучшее – детям!

19 МЕДИАЛОГИЯ Выбор заголовка (критерии) Длина - в районе символов Наличие ключевых слов и объектов а) из других заголовков кластера б) из первых абзацев статей в кластере Источник – с максимальным весом Вес статьи внутри кластера (близость к ядру) Считать статистику только по уникальным заголовкам В конце заголовка не должно быть знаков препинания В заголовке должен быть глагол (боремся с такими заголовками, как «Авария в центре Москвы», «Беспорядки в Лондоне» и т.п.) Заголовок не должен состоять только из заглавных букв В заголовке не должно быть менее 3 слов

20 МЕДИАЛОГИЯ Спасибо за внимание! Воляк Петр Компания «Медиалогия» Руководитель направления лингвистических решений +7 (916) , Москва, ул. Складочная, д.3, стр.1 телефон/факс: +7 (495)