Обработка слабоструктурированных веб- документов на основе облачных технологий Semantic Social Web Яблонский Сергей Александрович СПбГУ yablonsky.serge@gmail.com.

Презентация:



Advertisements
Похожие презентации
WEB SERVICES Mr. P. VASANTH SENA. W EB SERVICES The world before Situation Problems Solutions Motiv. for Web Services Probs. with Curr. sols. Web Services.
Advertisements

© 2009 Avaya Inc. All rights reserved.1 Chapter Two, Voic Pro Components Module Two – Actions, Variables & Conditions.
Introducing Cisco Network Service Architectures © 2004 Cisco Systems, Inc. All rights reserved. Introducing the Cisco AVVID Framework ARCH v
© 2003, Cisco Systems, Inc. All rights reserved. CSPFA Chapter 3 Cisco PIX Firewall Technology and Features.
The Web The Internet. Level A2 Waystage Level A2 Waystage Listening (p.17) I can understand simple messages delivered at a relatively high speed (on every.
Copyright 2003 CCNA 4 Chapter 16 Introduction to Network Administration By Your Name.
Intelligence framework for labour-market and educational services resources management Personalreserve Authors: Antonets A. Galushkin M. c.t.s. Kravets.
© 2005 Cisco Systems, Inc. All rights reserved.INTRO v Building a Simple Ethernet Network Understanding How an Ethernet LAN Works.
© 2006 IBM Corporation Made available under the EPL v WebSphere Services Technical Conference world class skill building and technical enablement.
"Cloud services" - what it is.. First of all – it is innovative online services. They provide an opportunity to use the enormous potential of the Internet.
Evgeniy Krivosheev Andrey Stukalenko Vyacheslav Yakovenko Last update: Nov, 2013 Spring Framework Module 1 - Introduction.
Designing Network Management Services © 2004 Cisco Systems, Inc. All rights reserved. Designing the Network Management Architecture ARCH v
© 2005 Cisco Systems, Inc. All rights reserved.INTRO v Building a Simple Serial Network Understanding the OSI Model.
OLAP ModelKit is a universal solution in the field of interactive reporting and thorough data analysis which allows programmers to create effective decision-support.
© 2005 Cisco Systems, Inc. All rights reserved.INTRO v Managing Your Network Environment Managing Cisco Devices.
The Internet Abramov History of the internet The modern history of the Internet starts in the 1950s and 1960s with the development of computers.
© 2006 Cisco Systems, Inc. All rights reserved. HIPS v Using CSA Analysis Generating Behavior Analysis Reports.
Strategy / Business Development Technique Communication / Design.
© 2006 Cisco Systems, Inc. All rights reserved. HIPS v Using CSA Analysis Generating Application Deployment Reports.
SSD1: Introduction to Information Systems SSD1: Introduction to Information Systems ISS, Wuhan University.
Транксрипт:

Обработка слабоструктурированных веб- документов на основе облачных технологий Semantic Social Web Яблонский Сергей Александрович СПбГУ

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии

Эволюция сетей WWW

Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется); Web 2.0 – объединение в социальные сети – Social Web (пройден, социальные сети стали реальностью и стремительно растут); Web 3.0 – объединение в семантические сети – Semantic Web (начинается сейчас); Web 4.0 – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива). WEB 1.0, 2.0, 3.0, 4.0 (?)

Информационный взрыв Социального Веба! image from tinyurl.com/nuketest

Boom!

61% = социальные сети 11% = форумы 11% = создаваемый пользователями контент -> urbandictionary.com 10% = создаваемые пользователями рынки и классификаторы -> craigslist.org 03% = блоги 01% = создаваемые пользователями обзоры -> apartmentratings.com 01% = вики 02% = прочее

Social websites are like data silos image from pidgintech.com

Нужны способы объединения image from pidgintech.com

Данных и пользователей image from pidgintech.com

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы Облачные технологии

Эволюция сетей WWW

Tim Berners-Lee, The 1st World Wide Web Conference, Geneva, May 1994 To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity, as in fact documents on the Web describe real objects and imaginary concepts, and give particular relationships between them. […] Adding semantics to the Web involves two things: allowing documents which have information in machine-readable forms, and allowing links to be created with relationship values. Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a greater extent than our own reading.

Переход от «читаемых человеком» к «читаемых компьютером» (machine readable) документам на основе технологий SW стал одним из важнейших путей дальнейшего развития WWW. Semantic Web – Web 3.0

image from The Semantic Web stack

Semantic Web Базовая модель Semantic Web включает следующие компоненты: URI/IRI – универсальный идентификатор ресурсов; расширяемый язык разметки (XML); общая схема описания ресурсов RDF; метаданные и схема RDF Schema (RDFS); онтологии и языки их описания (OWL: OWL Lite, OWL DL, OWL Full ); метаданные и схема OWL Schema (OWLS); язык запросов SPAROL к RDF-хранилищам; агенты/сервисы WSDL и схемы WSDLS и пр. Консорциум W3C предложил и использует стандарты практически по всем компонентам SW (Berners-Lee, 2003).

Представление знаний в SW

RDF URIs identify resources: o How do we define assertions about these resources? We use RDF (Resource Description Framework): o A data model; a directed, labeled graph using URIs o Various serialisations (RDF/XML, N3, RDFa, etc.) RDF is based on triples:

RDF dct:. dct:title Introduction to the Semantic Web ; dct:author ; dct:subject.

Онтологии состоят из classes и properties o :Person a rdfs:Class. o :father a rdfs:Property. o :father rdfs:domain :Person. o :father rdfs:range :Person.

Metadata and ontologies

Известные онтологии Social networks and social data: o FOAF, SIOC Software development: o DOAP, BEATLE Comprehensive / top-level: o Yago, OpenCYC Lexical ontologies o WordNet Taxonomies and controlled vocabularies: o SKOS

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии

The Semantic Social Web

Linked Data Building a Web of Data to enhance the current Web The Linking Open Data (LOD) project: o o Translating existing datasets into RDF and linking them together, for example DBpedia (Wikipedia) and GeoNames, Freebase, BBC programmes, etc. o Governement data also available as Linked Data

The LOD cloud

The LOD cloud

image from richard.cyganiak.de/2007/10/lod/lod-datasets_ png

LOD

Данные о 2.6 миллионах вещей (things), включая 213,000 персоналий; 328,000 мест; 57,000 музыкальных альбомов; 36,000 фильмов; 20,000 компаниях. Всего 274 миллионов RDF триплетов, в том числе 609,000 ссылок на изображения; 3,150,000 ссылок на внешние веб-страницы; ссылок на данные во внешних RDF наборах. Wikipedia

Найти всех, родившихся в 19 веке в Берлине. SPARQL

DBpedia (LOD-версия Wikipedia, включающая: o 3.5 млн сущностей, в том числе описаний мест (places), персоналий (persons), видов, организаций, музыкальных альбомов, фильмов, строений, видеоигр, 5000 заболеваний; o описания на 90 языках; o 1 млрд RDF-триплетов, 10 млн связей с внешними RDF-наборами данных из LOD; o онтологию, содержащую 260 классов, 1200 свойств, 3.5 млн экземпляров; DBpedia

Freebase ( – аналогична DBpedia, но в 10 раз меньше при значительно лучшем качестве данных; OpenCyc ( часть базы знаний Cyc, которая является собственностью компании Cycorp, Inc, вошла в состав LOD. Последняя версия OpenCyc, 1.0 была выпущена в июле 2006 г. и включает в себя полную онтологию Cyc из сотни тысяч выражений. База знаний содержит концепций и экземпляров-фактов. Стратегическая цель компании Cycorp, Inc, – создать полностью открытую, свободно распространяемую базу знаний для использования в Web 3.0;Cycorp, Inc Freebase и OpenCyc

YAGO ( naga/yago/) – это онтология, связывающая Wikipedia с WorldNet; состоит из более 2 млн сущностей (persons, organizations, cities, etc.) и 20 млн фактов-экземпляров об этих сущностях; UMBEL (Upper Mapping and Binding Exchange Layer, – подмножество концептов OpenCyc, обеспечивающее связь с YAGO и DBpedia и возможность логического вывода на основе Cyc; YAGO и UMBEL

W3C WordNet ( – RDF/OWL представление лексической онтологии WordNet в LD; GeoNames ( – содержит информацию о 6 млн мест (places); MusicBrainz (musicbrainz.org/) – содержит информацию о артистов, альбомов, 36 млн RDF- триплетов;

Open Government Data: o Data.gov – 2400 наборов данных (но только 400 из них в настоящее время представлены в виде RDF-триплетов), 6.5 млрд триплетов/ 0.5 млрд сущностей; o Data.gov.uk 3 тыс. наборов данных; o Data Publica 2 тыс. наборов данных; o Eurostat 4 тыс. наборов данных; o OpenGovData.ru ( – это российский некоммерческий проект, точных статистических данных пока не получено.

Friend Of A Friend (FOAF)

An ontology for describing people and the relationships that exist between them: o o Identity, personal profiles and social networks o Can be integrated with other SW vocabularies FOAF on the Web: o LiveJournal, MyOpera, identi.ca, MyBlogLog, hi5, Fotothing, Videntity, FriendFeed, Ecademy, Typepad FOAF (Friend-of-a-Friend)

FOAF at a glance

FOAF from Flickr

FOAF from Twitter

Экспорт FOAF данных Facebook: o html html Twitter: o Flickr: o flickr-profiles-foaf-and-sioc/ flickr-profiles-foaf-and-sioc/ и др. (Drupal 7, WordPress plug-ins,...)

Определение связей на основе FOAF

Кросс-сайтовые социальные рекомендации FOAF

Semantically-Interlinked Online Communities (SIOC)

63

Некоторые онтологические классы и свойства SIOC

Объединение SIOC и FOAF

68 Разъединенные сайты Social Web / Web 2.0 могут быть связаны на основе Semantic Web / Web 3.0 словарей

Web 1.0

Web 2.0

Web

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы Облачные технологии

Information Extraction

Под извлечением информации традиционно понимается извлечение из текста именованных сущностей (люди, организации, компании, местоположение, книги, альбомы, авторы и пр.; всего более 250 классов), фактов (позиция, образование и пр.), событий (спорт, управление, изменения, IPO – Initial Public Offering – первоначальное публичное предложение акций компании на продажу, трудовые действия и пр.), отношений между сущностями и ряда других. Information Extraction

IE Systems

Avatar: Semantic search on personal s DBLife: Use IE to build a knowledge base about database researchers AliBaba: IE over medical research papers IE Systems

Enterprise Semantic Search Enterprise Data as a Service Business Intelligence Data-driven Enterprise Mashups New IE Systems

Enterprise Semantic Search

Enterprise Data as a Service

Business Intelligence

Data-Driven Mashups

GATE

IBM project (2005) for information extraction (named entities) in textual data IBM UIMA (v1.4) OmniFind (semantic search engine) et DB2 Data Warehouse UIMA

Incubation at the ASF (Apache Software Foundation) (v2.2) OASIS Members Approve Open Standard for Accessing Unstructured Information (data model, component interface,...) o IBM, EMC, Carnegie Mellon University, University of Manchester, University of Tokyo, U.S. National Center for Supercomputing Applications,... and Others Collaborate on Platform for Semantic Analysis and Search o UIMA

XML Metadata Interchange (XMI) o XML language to represent MOF (Meta-Object Facility) OMG (Object Management Group) standards to exchange UML metadata o Импорт/Экспорт ииз любой DB o Пример: JDBC for Apache Derby DataBase UIMA

OASIS Specification

Development API : Java, C++ but Perl, Python,TCL... Bean Scripting Framework (BSF) Annotators, (http ://jakarta.apache.org/bsf) : Beanshell, Rhino Javascript, Jython, Jruby Deployment in REST service (Representational StateTransfer) HTTP + URL + XML/HTML/GIF/JPEG/etc (Resource Representations) + mime type UIMA

wrappers for GATE (IBM UIMA) (Hamish Cunningham – University of Sheeld) wrappers for OpenNLP Tools wrapper for LingPipe JULIE Lab NLP Toolsuite IBM LanguageWare on Alphaworks NLP UIMA

Apache UIMA Sandbox - Regular Expression Annotator WEKA for IBM UIMA - Machine Learning TextMarker Rule-based information extraction Apache UIMA Sandbox o Tika Annotator o Cas Editor o Dictionary Annotator, Concept Mapper UIMA

IBM Semantic Search, a Free Apache version is developed by IBM IBM OmniFind Enterprise Search, Yahoo ! Edition index documents based on Lucene u-compare.org a web-based integrated platform for the purpose of sharing and comparing UIMA components and tools, including visualizers and utilities bio-nlp number of popular bio-informatic annotators as UIMA components wrapped by the center of Computational Pharmacology at the University of Colorodo Semantic Web ? Приложения для UIMA

UIMA

OASIS Specification Apache UIMA Getting started

Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии

1960 Централизованные вычисления Centralized Computing 1985 Клиент-серверные вычисления Client/Server 2010 Облачные вычисления Cloud Computing Эволюция ИТ Clouds will transform the information technology (IT) industry… profoundly change the way people work and companies operate.

Gartner Hypercycle

Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет. Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов. Облачные вычисления

К настоящему времени можно выделить три основных вида облачных вычислений: o инфраструктура как сервис (Infrastructure as a Service, IaaS); o платформа как сервис (Platform as a Service, PaaS); o программное обеспечение как сервис (Software as a Service, SaaS). Виды облаков

Облачная экосистема

112 Cloud Applications (Apps-as-a-Service) Cloud (Application) Platforms (Platform-as-a-Service) Cloud Infrastructure (Infrastructure-as-a-Service) App Deploy App Dev/Test

Облачные сервисы

Облачная платформа превращает ресурс в услугу: IaaS, PaaS, SaaS Облачная платформа автоматизирована Облачная платформа автономна Ресурсы в облаке измеряемы Облако управляемо из приложений (PaaS) Облако, как корпоративная платформа

Web 2.0

Web

o API calls, content - 100K Zemanta o API calls, content - 8K Services

Cloud IE

Благодарю за внимание. Вопросы?