Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный.

Презентация:



Advertisements
Похожие презентации
Система мониторинга новостей InfoStream ©. Информационное пространство из одних рук Ландэ Дмитрий Владимирович, доктор технических наук, заместитель директора.
Advertisements

© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ»,
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
СИСТЕМА МОНИТОРИНГА НОВОСТЕЙ Позиционирование информационного сервиса Д.В. Ландэ, к. т. н., заместитель директора Информационного центра "ЭЛВИСТИ"
MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
ЖИВУЧЕСТЬ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ Д.В. ЛАНДЭ, д.т.н. Зав. отделом ИПРИ НАН Украины, профессор ИССЗИ НТУУ «КПИ»
ИНФОРМАЦИОННЫЕ ПОТОКИ В ВЕБ - ПРОСТРАНСТВЕ И СОЦИАЛЬНО - ПРАВОВОЕ МОДЕЛИРОВАНИЕ Дмитрий Владимирович ЛАНДЭ, доктор технических наук, член-корреспондент.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Использование системы Avalanche LITE для ведения новостного раздела сайта Trubka.ru © InterRusSoft 2003 Технология интеллектуального поиска Avalanche.
+7 (495) Эргономичный интерфейс Эффективный поиск Удобная работа с результатами поиска Профессиональные возможности Персональные.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
+7 (495) Эргономичный интерфейс Эффективный поиск Удобная работа с результатами поиска Профессиональные возможности Персональные.
Выравнивание статистических рядов. Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений.
Визуализация статистики вхождения слов Ландэ Дмитрий Владимирович, д.т.н., зам. директора ИЦ «ЭЛВИСТИ» Киев-2009.
ЗАО «Институт ситуационного анализа» (ЗАО «ИСА») Универсальный программный комплекс для информационно-аналитического сопровождения для информационно-аналитического.
Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика.
Транксрипт:

Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный Центр «ЭЛВИСТИ»

ПРЕДМЕТНАЯ ОБЛАСТЬ Система контент-мониторинга InfoStream на основании анализа около 3000 источников информации в сети Интернет позволила построить зависимость суточных объемов тематических публикаций за 3 года по выбранной тематике (1096 суток, общее количество – свыше 320 тысяч). Системы интеграции и мониторинга новостей из открытых веб-сайтов сети Интернет сегодня все чаще становятся основными компонентами информационных служб различного уровня. Можно отметить разнообразный диапазон параметров информационных источников как по объемам публикуемой информации, так и по содержанию – от сообщений информационных агентств – до «живых журналов». Мощные возможности Интернет порождают проблему оптимизации состава и количества источников, используемых корпоративной информационной системой с целью обеспечения приемлемого качества, удовлетворяющего потребностям пользователей. В этой связи актуальными оказываются вопросы ранжирования и выбора источников новостной информации – веб-сайтов, к которым требуется обеспечить доступ через один интерфейс как в поисковом режиме, так и в режимах аналитического обобщения.

ТРАДИЦИОННЫЕ ПОДХОДЫ Принципам ранжирования как отдельных веб-документов, так и документальных массивов посвящено большое количество научных работ и практических разработок. Ссылочное ранжирование веб-сайтов сегодня является отдельным направлением интернет-бизеса – SEO (search engine optimization). Вместе с тем, вопросам ранжирования и отбора информационных ресурсов с учетом их новостного контента, объемов и стабильности тематики публикаций уделяется значительно меньшее внимание. Основным критерием при отборе источников для таких систем мониторинга новостей является их содержание. Было показано, распределение источников по контенту, соответствующему тематическим потребностям корпоративного пользователя удовлетворяет закону Бредфорда, соответственно, при отборе источников обязательно должно учитываться их ранжирование по степени соответствия тематике. Однако, реализация такого отбора приводит к известным сложностям. На практике такое ранжирование осуществляется экспертами путем оценивая количества документов, релевантных некоторому отлаженному пакету тематических запросов, адресуемых к фрагменту базы данных, составленной из документов анализируемого источника. А это неизбежно приводит к элементу субъективизма со всеми вытекающими последствиями.

Распределение источников по количеству генерируемых документов Ранжированный список источников по количеству публикаций (ось 0Y) Количество публикаций в системе мониторинга в зависимости от источников, ранжированных по количеству документов

Количество публикаций в системе при подключении наиболее интенсивных источниковписок источников (500, 1000, 1500)

Наиболее цитируемые источники Зависимость количества ссылающихся веб-сайтов от ранга новостного источника в логарифмической шкале

Выбор наиболее оригинальных источников Дублирование сообщений на веб-сайтах зависит от различных причин, поэтому проведенные измерения для ранжированного по количеству публикаций списка источников показывают разный уровень, при этом информация не носит наглядного характера. Вместе с тем, сглаживание с помощью метода скользящей средней (с окном наблюдения, равным 20), позволил получить график (рис. 4), наглядно свидетельствующий об устойчивой тенденции: чем более продуктивен источник информации, тем больше он содержит заимствований из других источников. Усредненное удельное количество дублирующихся документов (ось 0Y) по ранжированному по количеству публикаций списку источников (ось 0X)

Тематическая стабильность Тематическая стабильность и стабильность публикации информации источниками зачастую играют решающую роль при проведении аналитических исследований. Например, такие важные свойства информационных источников, как тематическую корреляцию и полноту, имеет смысл учитывать только для источников, публикующих документы относительно стабильной тематической направленности. Авторами был предложен параметр тематической стабильности временного ряда интенсивности публикаций на веб-сайтах (источниках), который выглядит следующим образом:

Тематическая стабильность Cамыми тематически стабильными документами (значения правой верхней части диаграммы), оказались периодические профессиональные издания, такие как «Континент Сибирь», «Зеркало недели», «Русский Вестник», «Политический журнал», «Власть денег» и т.п., с определенной периодичностью печатающие постоянное количество сообщений по тематикам, распределенным в приблизительно в одинаковых пропорциях. Подтвердилась гипотеза о том, что именно профессионализм информационного источника коррелирует с тематической стабильностью. Практически все ведущие информационные агентства, выпускающие политематическую информацию, тем не менее, вошли в состав наиболее тематически стабильных. Ранжированный список источников (ось 0X) по параметру тематической стабильности (ось 0Y)

Некоторые выводы Результаты данных исследований источников информации могут использоваться при ранжировании выдачи информационно- поисковых систем, подсчете медиа-рейтингов, позволяют рекомендовать пользователям наиболее тематически стабильные и оригинальные источники информации, например, для включения их в список «персональных» в интерфейсах систем контент- мониторинга информационных ресурсов. Следует отметить, что несмотря на то, что в данной работе приведено четыре критерия ранжирования источников информации, окончательный «универсальный» критерий не приводится. Теоретически его можно было бы записать, например, как линейную комбинацию приведенных критериев с некоторыми экспертно определяемыми коэффициентами. Однако практика, диктуемая информационными потребностями корпоративных пользователей, показывает, что при выборе источников информации останавливаются на одном из приведенных критериев, дополняя его некоторыми неформальными соображениями.

Спасибо за внимание! Д.В. Ландэ, Информационный Центр «ЭЛВИСТИ», Киев, Украина