Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 13 лет назад пользователемcheshirig
1 Обработка слабоструктурированных веб- документов на основе облачных технологий Semantic Social Web Яблонский Сергей Александрович СПбГУ
2 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии
3 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии
4 Эволюция сетей WWW
5 Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется); Web 2.0 – объединение в социальные сети – Social Web (пройден, социальные сети стали реальностью и стремительно растут); Web 3.0 – объединение в семантические сети – Semantic Web (начинается сейчас); Web 4.0 – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива). WEB 1.0, 2.0, 3.0, 4.0 (?)
6 Информационный взрыв Социального Веба! image from tinyurl.com/nuketest
7 Boom!
12 61% = социальные сети 11% = форумы 11% = создаваемый пользователями контент -> urbandictionary.com 10% = создаваемые пользователями рынки и классификаторы -> craigslist.org 03% = блоги 01% = создаваемые пользователями обзоры -> apartmentratings.com 01% = вики 02% = прочее
16 Social websites are like data silos image from pidgintech.com
17 Нужны способы объединения image from pidgintech.com
18 Данных и пользователей image from pidgintech.com
19 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы Облачные технологии
20 Эволюция сетей WWW
21 Tim Berners-Lee, The 1st World Wide Web Conference, Geneva, May 1994 To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity, as in fact documents on the Web describe real objects and imaginary concepts, and give particular relationships between them. […] Adding semantics to the Web involves two things: allowing documents which have information in machine-readable forms, and allowing links to be created with relationship values. Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a greater extent than our own reading.
22 Переход от «читаемых человеком» к «читаемых компьютером» (machine readable) документам на основе технологий SW стал одним из важнейших путей дальнейшего развития WWW. Semantic Web – Web 3.0
23 image from The Semantic Web stack
24 Semantic Web Базовая модель Semantic Web включает следующие компоненты: URI/IRI – универсальный идентификатор ресурсов; расширяемый язык разметки (XML); общая схема описания ресурсов RDF; метаданные и схема RDF Schema (RDFS); онтологии и языки их описания (OWL: OWL Lite, OWL DL, OWL Full ); метаданные и схема OWL Schema (OWLS); язык запросов SPAROL к RDF-хранилищам; агенты/сервисы WSDL и схемы WSDLS и пр. Консорциум W3C предложил и использует стандарты практически по всем компонентам SW (Berners-Lee, 2003).
25 Представление знаний в SW
26 RDF URIs identify resources: o How do we define assertions about these resources? We use RDF (Resource Description Framework): o A data model; a directed, labeled graph using URIs o Various serialisations (RDF/XML, N3, RDFa, etc.) RDF is based on triples:
27 RDF dct:. dct:title Introduction to the Semantic Web ; dct:author ; dct:subject.
28 Онтологии состоят из classes и properties o :Person a rdfs:Class. o :father a rdfs:Property. o :father rdfs:domain :Person. o :father rdfs:range :Person.
29 Metadata and ontologies
30 Известные онтологии Social networks and social data: o FOAF, SIOC Software development: o DOAP, BEATLE Comprehensive / top-level: o Yago, OpenCYC Lexical ontologies o WordNet Taxonomies and controlled vocabularies: o SKOS
31 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии
32 The Semantic Social Web
33 Linked Data Building a Web of Data to enhance the current Web The Linking Open Data (LOD) project: o o Translating existing datasets into RDF and linking them together, for example DBpedia (Wikipedia) and GeoNames, Freebase, BBC programmes, etc. o Governement data also available as Linked Data
34 The LOD cloud
35 The LOD cloud
36 image from richard.cyganiak.de/2007/10/lod/lod-datasets_ png
37 LOD
42 Данные о 2.6 миллионах вещей (things), включая 213,000 персоналий; 328,000 мест; 57,000 музыкальных альбомов; 36,000 фильмов; 20,000 компаниях. Всего 274 миллионов RDF триплетов, в том числе 609,000 ссылок на изображения; 3,150,000 ссылок на внешние веб-страницы; ссылок на данные во внешних RDF наборах. Wikipedia
44 Найти всех, родившихся в 19 веке в Берлине. SPARQL
46 DBpedia (LOD-версия Wikipedia, включающая: o 3.5 млн сущностей, в том числе описаний мест (places), персоналий (persons), видов, организаций, музыкальных альбомов, фильмов, строений, видеоигр, 5000 заболеваний; o описания на 90 языках; o 1 млрд RDF-триплетов, 10 млн связей с внешними RDF-наборами данных из LOD; o онтологию, содержащую 260 классов, 1200 свойств, 3.5 млн экземпляров; DBpedia
47 Freebase ( – аналогична DBpedia, но в 10 раз меньше при значительно лучшем качестве данных; OpenCyc ( часть базы знаний Cyc, которая является собственностью компании Cycorp, Inc, вошла в состав LOD. Последняя версия OpenCyc, 1.0 была выпущена в июле 2006 г. и включает в себя полную онтологию Cyc из сотни тысяч выражений. База знаний содержит концепций и экземпляров-фактов. Стратегическая цель компании Cycorp, Inc, – создать полностью открытую, свободно распространяемую базу знаний для использования в Web 3.0;Cycorp, Inc Freebase и OpenCyc
48 YAGO ( naga/yago/) – это онтология, связывающая Wikipedia с WorldNet; состоит из более 2 млн сущностей (persons, organizations, cities, etc.) и 20 млн фактов-экземпляров об этих сущностях; UMBEL (Upper Mapping and Binding Exchange Layer, – подмножество концептов OpenCyc, обеспечивающее связь с YAGO и DBpedia и возможность логического вывода на основе Cyc; YAGO и UMBEL
49 W3C WordNet ( – RDF/OWL представление лексической онтологии WordNet в LD; GeoNames ( – содержит информацию о 6 млн мест (places); MusicBrainz (musicbrainz.org/) – содержит информацию о артистов, альбомов, 36 млн RDF- триплетов;
50 Open Government Data: o Data.gov – 2400 наборов данных (но только 400 из них в настоящее время представлены в виде RDF-триплетов), 6.5 млрд триплетов/ 0.5 млрд сущностей; o Data.gov.uk 3 тыс. наборов данных; o Data Publica 2 тыс. наборов данных; o Eurostat 4 тыс. наборов данных; o OpenGovData.ru ( – это российский некоммерческий проект, точных статистических данных пока не получено.
51 Friend Of A Friend (FOAF)
53 An ontology for describing people and the relationships that exist between them: o o Identity, personal profiles and social networks o Can be integrated with other SW vocabularies FOAF on the Web: o LiveJournal, MyOpera, identi.ca, MyBlogLog, hi5, Fotothing, Videntity, FriendFeed, Ecademy, Typepad FOAF (Friend-of-a-Friend)
56 FOAF at a glance
57 FOAF from Flickr
58 FOAF from Twitter
59 Экспорт FOAF данных Facebook: o html html Twitter: o Flickr: o flickr-profiles-foaf-and-sioc/ flickr-profiles-foaf-and-sioc/ и др. (Drupal 7, WordPress plug-ins,...)
60 Определение связей на основе FOAF
61 Кросс-сайтовые социальные рекомендации FOAF
62 Semantically-Interlinked Online Communities (SIOC)
63 63
65 Некоторые онтологические классы и свойства SIOC
66 Объединение SIOC и FOAF
68 68 Разъединенные сайты Social Web / Web 2.0 могут быть связаны на основе Semantic Web / Web 3.0 словарей
71 Web 1.0
72 Web 2.0
73 Web
74 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы Облачные технологии
75 Information Extraction
76 Под извлечением информации традиционно понимается извлечение из текста именованных сущностей (люди, организации, компании, местоположение, книги, альбомы, авторы и пр.; всего более 250 классов), фактов (позиция, образование и пр.), событий (спорт, управление, изменения, IPO – Initial Public Offering – первоначальное публичное предложение акций компании на продажу, трудовые действия и пр.), отношений между сущностями и ряда других. Information Extraction
77 IE Systems
81 Avatar: Semantic search on personal s DBLife: Use IE to build a knowledge base about database researchers AliBaba: IE over medical research papers IE Systems
82 Enterprise Semantic Search Enterprise Data as a Service Business Intelligence Data-driven Enterprise Mashups New IE Systems
83 Enterprise Semantic Search
84 Enterprise Data as a Service
85 Business Intelligence
87 Data-Driven Mashups
93 GATE
94 IBM project (2005) for information extraction (named entities) in textual data IBM UIMA (v1.4) OmniFind (semantic search engine) et DB2 Data Warehouse UIMA
97 Incubation at the ASF (Apache Software Foundation) (v2.2) OASIS Members Approve Open Standard for Accessing Unstructured Information (data model, component interface,...) o IBM, EMC, Carnegie Mellon University, University of Manchester, University of Tokyo, U.S. National Center for Supercomputing Applications,... and Others Collaborate on Platform for Semantic Analysis and Search o UIMA
98 XML Metadata Interchange (XMI) o XML language to represent MOF (Meta-Object Facility) OMG (Object Management Group) standards to exchange UML metadata o Импорт/Экспорт ииз любой DB o Пример: JDBC for Apache Derby DataBase UIMA
99 OASIS Specification
100 Development API : Java, C++ but Perl, Python,TCL... Bean Scripting Framework (BSF) Annotators, (http ://jakarta.apache.org/bsf) : Beanshell, Rhino Javascript, Jython, Jruby Deployment in REST service (Representational StateTransfer) HTTP + URL + XML/HTML/GIF/JPEG/etc (Resource Representations) + mime type UIMA
101 wrappers for GATE (IBM UIMA) (Hamish Cunningham – University of Sheeld) wrappers for OpenNLP Tools wrapper for LingPipe JULIE Lab NLP Toolsuite IBM LanguageWare on Alphaworks NLP UIMA
102 Apache UIMA Sandbox - Regular Expression Annotator WEKA for IBM UIMA - Machine Learning TextMarker Rule-based information extraction Apache UIMA Sandbox o Tika Annotator o Cas Editor o Dictionary Annotator, Concept Mapper UIMA
103 IBM Semantic Search, a Free Apache version is developed by IBM IBM OmniFind Enterprise Search, Yahoo ! Edition index documents based on Lucene u-compare.org a web-based integrated platform for the purpose of sharing and comparing UIMA components and tools, including visualizers and utilities bio-nlp number of popular bio-informatic annotators as UIMA components wrapped by the center of Computational Pharmacology at the University of Colorodo Semantic Web ? Приложения для UIMA
104 UIMA
105 OASIS Specification Apache UIMA Getting started
106 Social Web (Web 2.0) Semantic Web (Web 3.0) Semantic Social Web (Web ) IE + cлабоструктурированные веб- документы IE + Облачные технологии
107 1960 Централизованные вычисления Centralized Computing 1985 Клиент-серверные вычисления Client/Server 2010 Облачные вычисления Cloud Computing Эволюция ИТ Clouds will transform the information technology (IT) industry… profoundly change the way people work and companies operate.
108 Gartner Hypercycle
109 Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет. Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов. Облачные вычисления
110 К настоящему времени можно выделить три основных вида облачных вычислений: o инфраструктура как сервис (Infrastructure as a Service, IaaS); o платформа как сервис (Platform as a Service, PaaS); o программное обеспечение как сервис (Software as a Service, SaaS). Виды облаков
111 Облачная экосистема
112 112 Cloud Applications (Apps-as-a-Service) Cloud (Application) Platforms (Platform-as-a-Service) Cloud Infrastructure (Infrastructure-as-a-Service) App Deploy App Dev/Test
113 Облачные сервисы
114 Облачная платформа превращает ресурс в услугу: IaaS, PaaS, SaaS Облачная платформа автоматизирована Облачная платформа автономна Ресурсы в облаке измеряемы Облако управляемо из приложений (PaaS) Облако, как корпоративная платформа
115 Web 2.0
116 Web
117 o API calls, content - 100K Zemanta o API calls, content - 8K Services
120 Cloud IE
123 Благодарю за внимание. Вопросы?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.