Средства Визуального анализа Информационного Наполнения Порталов, входящих в облако Linked Open Data З.В. Апанович 1, П.С. Винокуров 1, Т.А. Кислицина.

Презентация:



Advertisements
Похожие презентации
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Белорусский государственный университет Факультет прикладной математики и информатики Кафедра математической.
Advertisements

1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
Система управления электронными библиотеками. Состояние Ограниченная доступность электронных представлений в центральных ЭБ Медленная оцифровка изданий.
Теория графов. Теория графов – обширный самостоятельный раздел дискретной математики. Используется при проектировании компьютерных сетей, трубопроводов,
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Илья Клинцов Руководитель проекта Департамент развития бизнеса Semantic Web & электронные СМИ.
1 Информационно-аналитическая система SCIENCE INDEX*[автор] и [организация] Шабанова Светлана Марэнговна НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА eLIBRARY.RU.
Теория экономических информационных систем Семантические модели данных.
Технология извлечения знаний из использования Интернет.
Введение в теорию графов. ЗАДАЧА ПРОКЛАДКИ КОММУНИКАЦИЙ
Презентация по Информатике Тема: «Графы» Выполнил: Бычков Георгий.
Алгоритм - точная конечная последовательность действий, описывающая процесс преобразования объекта из начального состояния в конечное, записанная с помощью.
Руководство пользователя © Российский государственный педагогический университет им. А.И.Герцена 1.
Построение наукометрического индекса, устойчивого к спаму Докладчик : Александр Пироженко.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
Эволюция индексов научного цитирования: от библиографических баз данных к информационно-аналитическим системам Еременко Г.О. Научная электронная библиотека.
Разработка пользовательских интерфейсов Выполнил: Бредихин Юрий Вячеславович студент 3 курса, 31-И группы Старый Оскол, 2015.
Архивная фактографическая система Марчук А.Г. (Новосибирск) Марчук П.А. (Новосибирск)
1 SCIENCE INDEX*org – расширение возможностей Российского индекса научного цитирования для научно- исследовательских организаций Григорий Зацман НАУЧНАЯ.
Алгоритмы сканирования и обхода Лекция 3. Алгоритм сканирования графа Input: Орграф (граф) G и вершина s. Output: Множество R вершин, достижимых из s,
Транксрипт:

Средства Визуального анализа Информационного Наполнения Порталов, входящих в облако Linked Open Data З.В. Апанович 1, П.С. Винокуров 1, Т.А. Кислицина 2 1 Институт систем информатики СО РАН 2 НГУ , Новосибирск, проспект Лаврентьева, 6, Россия

Что было: До этого мы уже работали с визуализацией онтологий и информационного наполнения научных порталов (археология, компьютерная лингвистика). Имели несколько удачных результатов вылавливания ошибок проектирования онтологии и ошибок ручного ввода информационного наполнения и при помощи визуализации, в основе которой лежали методы совместного изображения специфических отношений. Для поиска ошибок: 1)Совместное изображение отношений наследования и ассоциативных отношений при визуализации онтологий 2)Совместное изображение отношений партономии и ассоциативных отношений для информационного наполнения. Для наукометрического анализа: 1)Генерация новых отношений (соавторства) и их совместное изображение с различными иерархическими отношениями (отношение партономии) при помощи иерархических жгутов ребер 2) Кластеризация сетей соавторства.

Что было:

Данная работа преследовала две цели: 1) При помощи визуализации познакомиться поближе с данными из облака Open Linked Data. 2) Опробовать старые и новые методы визуализации на общеизвестных данных в стандартных форматах (RDF/ OWL)достаточно большого объема - визуализация сетей соавторства - визуализация сетей цитирования

Citeseer, ACM, DBLP… Данные предоставляются в формате RDF и имеют весьма внушительные объемы. Например, RDF-данные, предоставленные порталом Citeseer содержат троек RDF, данные портала ACM насчитывают 12,402,336 троек RDF, портал DBLP предоставил троек RDF. Пользователь может либо скачивать файлы в формате RDF, либо генерировать данные при помощи запросов sparql.

AKT Reference ontology = Support ontology + portal ontology + Extensions ontology + RDF compatibility ontology gy/portal

Генерация сети соавторства CONSTRUCT{?y :co_author ?z} WHERE{ ?x akt:has-author ?y ; akt:has-author ?z ; a ?type. FILTER(?y != ?z &&(?type = akt :Publication-Reference ) } LIMIT N.

Следует сказать, что при таком способе генерации сетей соавторства их связность и плотность напрямую связаны с объемом. Например, для портала DBLP при установке лимита на количество ребер в сети соавторства, равном десяти тысячам, наибольшая связная компонента этой сети имеет всего 140 вершин и 191 ребро, 7 научных сообществ, показаны разными цветами

При возрастании лимита на объем сети до ребер, наибольшая связная компонента имеет уже 3001 вершину и 4983 ребра.

Модулярность является свойством сети и оценивает качество разбиения сети на сообщества. [ Newman M. E. J., Girvan M. Finding and evaluating community structure in networks// Physical Review E, ] Предположим, что вершины графа сотрудничества разбиты на сообщества, c i. e ij - доля всех ребер, соединяющих сообщество c i и сообщество c j a i = j e ij - доля всех ребер, связанных с вершинами сообщества c i. Модулярность выражается через a i и e ij следующим образом: C1C1 C2C2 e 12 = 1/10, e 11 = 6/10, e 22 = 3/10, a 1 = 7/10, a 2 = 4/10 Q = 41/100 Экспериментально обнаружено, что значения модулярности, превышающие 0.3, являются указателем на факт наличия сообществ в сети.

Новая реализация: 1)Начальное состояние- каждая вершина является отдельным кластером, объединяются два кластера, дающие наибольшее улучшение модулярности 2)Итеративное улучшение 3)Многоуровневость

(а) разбиение на сообщества прежним алгоритмом кластеризации (количество вершин 5625, количество ребер 10103, модулярность 0.922, 197 сообществ. (б) разбиение на сообщества той же самой сети многоуровневым алгоритмом (48 сообществ, Модулярность 0.948). (а) (б)

Методы визуализации сетей цитирования 1. Построение списков цитируемой литературы для каждой публикации требует гораздо больших технических усилий, поэтому в открытом доступе эта информация предоставляется только небольшим количеством порталов. Среди порталов облака LOD мы обнаружили эти данные для CiteSeer и ACM. 2. Для генерации информативных сетей цитирования нужны дополнительные усилия. В случае портала CiteSeer нами применялась многоуровневая схема генерации сетей цитирования, а в случае портала ACM дополнительно использовалась собственная онтология этого портала, позволяющая выбирать публикации, относящиеся к определенному разделу науки.

Визуализация сетей цитирования при помощи иерархических жгутов ребер Проблемы: 1)Отсутствие иерархии, на которую можно натянуть жгуты 2)Неестественное изображение для ориентированного графа 3)Визуальная перегруженность

– Изображение сети цитирования, извлеченной из RDF- данных портала Сiteseer и содержащей вершин. (а) общий план изображения, (б) публикации за один месяц 1998 года

Остаются проблемы 1) Визуальная перегруженность 2) Неестественное изображение хронологических данных Поэтому для визуализации сетей цитирования был реализован динамический алгоритм поуровневой визуализации

Данные портала Citeseer 23

Фильтрация ребер нарушает соответствие реальности Для построения жгутов не хватает иерархии Решение: построение жгутов на основе собственной геометрии ребер Остается проблема визуальной перегруженности:

Жгуты на основе геометрии ребер 25

Иерархические и геометрические жгуты 3000 публикаций 27

Дальнейшие планы Дальнейшее исследование метода построения жгутов на основе геометрии от различных параметров. Потестировать эти методы на российских источниках больших данных для определения наиболее полезных направлений развития.

СПАСИБО ЗА ВНИМАНИЕ!