Всероссийская конференция «Инфокоммуникационные технологии в научных исследованиях» ноября 2012 года, Таруса Особенности использования открытых данных в современных научных исследованиях и образовании Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ НИУ ВШЭ, Москва, 2012
Открытые данные во временной перспективе НИУ ВШЭ, Москва,
Открытые наборы научных данных НИУ ВШЭ, Москва, World Bank NASA CERN
НИУ ВШЭ, Москва, 2012 Пример использования открытых геоданных 4
НИУ ВШЭ, Москва, 2012 Открытые государственные данные за рубежом Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных 5 в США: Nav_Reports.aspx/ в Австралии: в США: Nav_Reports.aspx/ в Австралии: в Великобритании: в Канаде: в Швеции: в Великобритании: в Канаде: в Швеции:
НИУ ВШЭ, Москва, 2012 Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли 6 Источник: Источник:
НИУ ВШЭ, Москва, 2012 Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли 7 Источник: Данные доступны в Вебе (в любом формате), но подпадают под лицензию Открытых Данных (Open Data) Данные доступны в качестве машинообрабатываемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы). Данные соответствуют двум звездам, плюс представлены в непроприетарном формате (например, в формате CSV вместо Excel- формата). Данные соответствуют трем звездам, плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных. Данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования.
НИУ ВШЭ, Москва, 2012 Динамика развития Linked Open Data 8 Количество наборов LOD Темпы нарастания объемов фактов Источник: Время
Пример использования LOD: проект DBpedia НИУ ВШЭ, Москва, Источник: DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов проекта Wikipedia, в том числе ссылки на соответствующие базы данных. DBpedia проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia.
НИУ ВШЭ, Москва, 2012 Области использования Linked Open Data Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей 10 СМИ География Публикации Созданный пользователями контент Созданный пользователями контент Науки о жизни Междисциплинарные области Государственные данные Источник:
Связанность данныхДоступность данныхМашиночитаемость данных НИУ ВШЭ, Москва, 2012 Преимущества использования Linked Open Data 11
НИУ ВШЭ, Москва, 2012 Стек Linked Open Data 12 Источник:
Следующий шаг: проект LOD2 НИУ ВШЭ, Москва, Источник: Развитие проекта LOD2 в рамках 7 рамочной программы Европейского союза
OntoWiki – инструментарий для работы с моделью данных RDF. PoolParty – система управления тезаурусом и редактирования контента в рамках концепции Semantic Web (включая text mining и связанные данные). Sig.ma – инструментарий для разработки Web of Data. RDF, RDFa или Microformats (стандарт Web of Data). Sig.ma – браузер Semantic Web. Comprehensive Knowledge Archive Network (CKAN) – каталог для наборов открытых данных. D2R Server – инструментарий для опубликования реляционных баз данных в Semantic Web. Dbpedia Extraction – получает структурированную информацию из Wikipedia и делает ее машиночитаемой и связанной. DL-Learner – инструментарий для мониторинга машинного обучения в OWL. MonetDB – СУБД, поддерживающая реляционные базы данных, XML и RDF данные. SemMF – инструментарий для расчета схожести объектов, подвергающихся связыванию. Представляет связанные объекты в виде RDF-графа. Стек разработок проекта LOD2 НИУ ВШЭ, Москва, Источник:
Стек разработок проекта LOD2 НИУ ВШЭ, Москва, Источник: Silk Framework поддерживает публикацию RDF-данных из разнородных информационных источников. Использует декларативны язык Silk - Link Specification Language (Silk-LSL). Sindice – инструментарий для объединения огромных массивов связанных данных в единое информационное пространство связанных данных. Sparallax – интерфейс для реализации SPARQL-запросов, основанных на Freebase Parallax. Triplify обеспечивает перевод данных в RDF-формат. OpenLink Virtuoso – база знаний и платформа виртуализации, интегрирующая Data, Services и Business Processes в рамках предприятия. The Web Information Quality Assessment Framework (WIQA) – инструментарий для аналитической обработки и фильтрации данных, представляемых в рамках концепции Semantic Web. Spatial Semantic Browers – приложение для просмотра геоданных в формате RDF. LIMES – инструментарий для связывания данных в рамках концепции Semantic Web.
Основные направления инициатив, направленных на открытие науки НИУ ВШЭ, Москва,
Примеры использования наборов открытых данных в науке НИУ ВШЭ, Москва, Genome Commons ( Связанные наборы данных из различных источников: dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных. TARDIS ( Наборы данных по кристаллографии.
Примеры использования наборов открытых данных в науке НИУ ВШЭ, Москва, Australian Social Science Data Archive ( Council of European Social Science Data Archives (
Примеры использования наборов открытых данных в науке НИУ ВШЭ, Москва, National Radio Astronomy Observatory ( Social Science Data Archive (
Электронные научные хранилища и профильные поисковые сервисы за рубежом НИУ ВШЭ, Москва, ScienceDirect EBSCO WorldCat JSTOR CiteSeerX Scopus
Электронные научные хранилища и профильные поисковые сервисы за рубежом НИУ ВШЭ, Москва, Web of Science MS Academic Search arXiv Google Books Open Library Inspec
Электронные научные хранилища и профильные поисковые сервисы в России НИУ ВШЭ, Москва, eLibrary VINITI Database RAS eBdb BookFi.org Руконт
Разработка инструментов для совместной работы исследователей НИУ ВШЭ, Москва, Figshare ( исследователям следующие возможности: быстрая публикация результатов исследований; упрощенная процедура цитирования; совместное использование результатов заинтересованными исследователями. Лицензия: Creative commons Digital Science ( предоставляет программные продукты для совместных научно-исследовательских работ.
Разработка инструментов для совместной работы исследователей НИУ ВШЭ, Москва, Tools for the Citizen Scientist (NASA) предоставляет программные продукты для совместных научно-исследовательских работ.