Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемTatiana.lando
1 1 МЕДИАЛОГИЯ ПРОБЛЕМЫ КЛАСТЕРИЗАЦИИ НОВОСТНОГО ПОТОКА Петр Воляк NLPseminar, Санкт-Петербург 8 октября 2011 года
2 2 МЕДИАЛОГИЯ О КОМПАНИИ И ТЕХНОЛОГИЯХ
3 3 МЕДИАЛОГИЯ О компании «Медиалогия» специализируется на технологиях лингвистического анализа текстовой информации российский лидер в области разработки онлайн-решений для мониторинга и анализа СМИ на рынке с 2003 года
4 4 МЕДИАЛОГИЯ Что такое система «Медиалогия» БАЗА СМИ ТЕХНОЛОГИИ ОБРАБОТКИ И ИЗВЛЕЧЕНИЯ ДАННЫХ СИСТЕМА ОНЛАЙН АНАЛИЗА СМИ + =
5 5 МЕДИАЛОГИЯ База СМИ
6 6 МЕДИАЛОГИЯ База СМИ
7 7 МЕДИАЛОГИЯ Основные технологии Агрегация онлайн- и оффлайн-СМИ, а также соцмедиа (блоги, форумы, соц.сети) в режиме реального времени Классификация и кластеризация потоков информации Выделение именованных понятий Мониторинг и анализ Визуализация результатов мониторинга и анализа
8 8 МЕДИАЛОГИЯ Named Entity Recognition Выделение позиций Соотнесение с базой объектов (персоны, организации, бренды, геопонятия) Работа правил Ранжирование объектов на позиции (в том числе с неизвестным) Подсветка
9 9 МЕДИАЛОГИЯ На том же этапе Выделение прямой и косвенной речи Жанровая классификация Рубрикация Выделение фактов и связей Далее - кластеризация
10 10 МЕДИАЛОГИЯ Продукты Мониторинг упоминаний объектов в СМИ Генерация периодических отчетов Различные продукты с новостной картиной дня Мониторинг блогосферы и соцмедиа
11 11 МЕДИАЛОГИЯ КЛАСТЕРИЗАЦИЯ
12 12 МЕДИАЛОГИЯ Гравитационная кластеризация Нормализуем лексику в документе, выкидываем стоп-слова В каждом документе выделяем топ по TF-IDF Подсвечиваем документы По векторам слов и объектов строим расстояния между документами Если расстояние меньше заданного радиуса, документы попадают в один кластер Также по расстоянию можно выделить плагиаты и дубликаты
13 13 МЕДИАЛОГИЯ Обработка новостей Непрерывная кластеризация: анализ вновь поступивших документов и включение их в уже имеющиеся кластера, проверка схожести с независимыми документами для последующего объединения в новый кластер Дискретная перекластеризация: периодически из имеющихся кластеров выбираются те, которые были обновлены с момента последнего процесса перекластеризации, затем выбранные кластеры проверяются на возможность объединения или разбиения Проверка на связанность: количество документов, с которыми связан вновь добавляемый в кластер документ, деленное на общее количество документов в кластере является связанностью документа, которая должна быть больше/равна по величине связанности кластера - усредненной связанности документов в кластере
14 14 МЕДИАЛОГИЯ Главная статья кластера Влиятельность источника Свежесть Максимальная связанность с другими документами кластера Заголовок выбирается из документов, непосредственно связанных с главной статьей
15 15 МЕДИАЛОГИЯ Основные проблемы Большие кластера, собирающиеся вокруг похожих событий (стихийные бедствия, происшествия, биржевые котировки) Плохое деление на подкластера в случае масштабных событий Недостаточная точность работы алгоритма выбора заголовка «Мусорные» документы в кластерах
16 16 МЕДИАЛОГИЯ Способы решения Отдельный вектор с биграммами Учет биграмм в лексических векторах Точное определение географии Подключение тезауруса с синонимами Подключение модуля коррекции опечаток
17 17 МЕДИАЛОГИЯ Учет географии Сбор данных о географии: Объекты Прилагательные Онтологические связи Определение локации с помощью геобазы: Иерархия Система координат
18 18 МЕДИАЛОГИЯ Выбор заголовка (задача) лексика – отсутствие оценочной, жаргонной, ненормативной лексики Например: (хорошо) 1 января для водителей московских такси вводится обязательная лицензия (плохо) Зимой столичные бомбилы попадут на новые штрафы объекты – в заголовке должны фигурировать главные участники сюжета + фактическая информация наиболее полно Например: (хорошо) ВТБ заявил о продаже «Газпрому» 70% акций «Связьбанка» за $100 млн (плохо) Крупнейший госбанк продает свою дочку (хорошо) Председатель фракции «Справедливая россия» в Госдуме Николай Левичев сложил полномочия (плохо) Левичев заявил об уходе уровень обобщенности – заголовок должен описывать сюжет в общем, а не его фазу или деталь Например: (хорошо) При взрыве в «Домодедово» пострадало несколько десятков человек (плохо) Два харьковчанина числятся пропавшими после теракта в Москве знаки препинания – заголовок не должен состоять из нескольких предложений, крайне нежелательны символы «тире», «двоеточие», восклицательный и вопросительный знаки Например: (хорошо) Президент России обсудил спортивное образование в школах (плохо) Медведев: Самое лучшее – детям!
19 19 МЕДИАЛОГИЯ Выбор заголовка (критерии) Длина - в районе символов Наличие ключевых слов и объектов а) из других заголовков кластера б) из первых абзацев статей в кластере Источник – с максимальным весом Вес статьи внутри кластера (близость к ядру) Считать статистику только по уникальным заголовкам В конце заголовка не должно быть знаков препинания В заголовке должен быть глагол (боремся с такими заголовками, как «Авария в центре Москвы», «Беспорядки в Лондоне» и т.п.) Заголовок не должен состоять только из заглавных букв В заголовке не должно быть менее 3 слов
20 20 МЕДИАЛОГИЯ Спасибо за внимание! Воляк Петр Компания «Медиалогия» Руководитель направления лингвистических решений +7 (916) , Москва, ул. Складочная, д.3, стр.1 телефон/факс: +7 (495)
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.