Введение в интеллектуальные Web-технологии ДонНУ, кафедра КТ, проф. В. К. Толстых Из цикла лекций «Интеллектуальные Web-технологии» для магистров кафедры.

Презентация:



Advertisements
Похожие презентации
ДонНУ, кафедра КТ, проф. В. К. Толстых New Media – новая информационная среда Из цикла лекций «Современные Internet-технологии» для студентов 5-го курса.
Advertisements

Продолжение темы 4. Основные этапы проектирования CSRP-системы.
Всемирная паутина Компьютерные телекоммуникации. 2 World Wide Web Популярнейшая служба Интернета - World Wide Web (сокращенно WWW или Web), еще называют.
1 Диаграммы реализации (implementation diagrams).
К построению и контролю соблюдения политик безопасности распределенных компьютерных систем на основе механизмов доверия А. А. Иткес В. Б. Савкин Институт.
Всемирная паутина Компьютерные телекоммуникации. 2 World Wide Web Популярнейшая служба Интернета - World Wide Web (сокращенно WWW или Web), еще называют.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
1 Всемирная паутина. 2 Популярнейшая служба Интернета - World Wide Web (сокращенно WWW или Web), еще называют Всемирной паутиной. Представление информации.
Система для поиска контактных данных физических и юридических лиц Вы приобретаете высокотехнологичный, конкурентный IT-продукт за меньшие деньги.
Тема 3 Рассматриваемые вопросы 1. Классификация сетей 2. Назначение сетей 3. Компоненты вычислительных сетей 4. Топологии сетей 5. Архитектура сетей.
Базы данных Лекция 01 Информационные технологии баз данных.
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
Понятие о базовых сетях. Способы создания сетей Глава 2 Исследуя Всемирную Паутину.
Учитель информатики МОУ СОШ 14 с. Новопаньшино Меньшикова Татьяна Николаевна.
ПроектированиеРазработкаВнедрение г. Самара ул. Льва Толстого
Системный подход в управлении в таможенном деле Выполнил студент Арутюнян Гр.312.
1 Информационные технологии За короткую историю своего существования и развития, применение компьютеров прошло путь от научных расчетов к массовому управлению,
Основы создания многостраничного Web-узла Создание многостраничного сайта предполагает разработку его структуры (списка разделов и подразделов) и системы.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Транксрипт:

Введение в интеллектуальные Web-технологии ДонНУ, кафедра КТ, проф. В. К. Толстых Из цикла лекций «Интеллектуальные Web-технологии» для магистров кафедры Компьютерных технологий физико-технического факультета Донецкого национального университета

Содержание дисциплины Интеллектуальные агенты Информационный поиск в Web Семантический Web Адаптивные Web-ресурсы. Персонализация Web-Minin. Интеллектуальный анализ данных в Web Grid-технологии Социальные сети

Интеллектуальные агенты 3 Интеллектуальные агенты аппаратная или программная сущность, способная действовать автономно в интересах достижения цели, поставленной перед ней владельцем или пользователем. Мультиагентные системы это своего рода агентство, программно-вычислительный комплекс, где взаимодействуют различные агенты для решения поставленной перед ними задачи. Типичные задачи агентов: сбор и доставка новостей (RSS); сообщение об изменениях на избранных сайтах; сравнение цен в электронных магазинах; информационно-поисковые системы (роботы-пауки, см. далее) и др.RSSроботы-пауки На практике, используя понятие «агент», каждый автор обычно определяет своего собственного агента с конкретным набором свойств в зависимости от целей. Для разработки Internet-агентов применяют Web/WCF технологии.WebWCF

4 автономность способность функционировать без вме­шательства со стороны своего владельца и осуществлять контроль внутреннего состояния и своих действий; социальное поведение возможность взаимодействия с другими агентами; реактивность адекватное восприятие среды и реакции на ее изменения; активность способность генерировать цели и действо­вать рациональным образом для их достижения; базовые знания знания агента о себе, окружающей среде, других агентах, которые не меняются в рамках жизненного цикла агента; убеждения переменная часть базовых знаний, которые могут меняться во времени, хотя агент может об этом не знать и продолжать их использовать; цели совокупность состояний, на достижение кото­рых направлено текущее поведение агента; желания состояния и/или ситуации, достижение кото­рых для агента важно; обязательства задачи, которые берет на себя агент по просьбе и/или поручению других агентов; намерения то, что агент должен сделать в силу своих обязательств и/или желаний. Типичные свойства интеллектуальных агентов

Информационный поиск в Web 5 Задачи интеллектуальных агентов информационно-поисковых систем: Классификация документов; Фильтрация документов; Кластеризация документов; Проектирование архитектур поисковых систем и пользовательских интерфейсов; Извлечение информации в виде аннотирования и реферирования документов; Языки запросов и др. Современные информационно-поисковые системы (ИПС) основаны на Инвертированном индексе это структура данных, в которой для каждого слова перечислены все места (URL-адреса ресурсов, позиция слова, цвет и размер шрифта...), в которых оно встретилось.информационно-поисковые системы Для реализации алгоритмов интеллектуальных агентов привлекают Text Mining или онтологии в семантическом Web (см. далее). Эти алгоритмы, обычно, используют модели поиска: булева, векторная, вероятностная. Кроме того, для оценки качества документа (популярный, спам…) и ранжирования документов, используют технологию PageRank, что выражается в SEO – Search Engine Optimization.Text Mining модели поискаSearch Engine Optimization

Семантический Web 6 Semantic WebSemantic Web часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Обработкой и обменом информации должны заниматься не люди, а интеллектуальные агенты. Для того, чтобы агенты могли взаимодействовать между собой необходимо иметь общее (разделяемое всеми) формальное представление любого ресурса. Именно для этой цели в Semantic Web используются онтологии (область знаний о сущности бытия, его категориях, принципах, структуре). Semantic Web разделил средства визуализации (HTML) и средства смыслового содержания (XML RDF OWL).

7 Персонализация форма адаптации дизайна, содержимого, ссылок Web- страниц сайта, позволяющая легко переходить от стандартной формы сайта и набора услуг к виду, учитывающему вкусы и особенности каждого отдельного потребителя. Автоматическая персонализация включает в себя подходы, основанные на интеллектуальном анализе данных о пользователях (в первую очередь лог-файлы HTTP-сервера), информационном поиске и совместной фильтрации. Строится модель пользователя и производится адаптация информации и ссылок Web-страниц сайта, предоставляемых пользователю. При этом система может выглядеть совершенно по-разному для пользователей с разными моделями. Адаптивные Web-ресурсы - Персонализация

Основные функции персонализации: 8 1.Демократизация товаров Уникальные услуги (символ богатства и статуса) становятся достоянием рядового потребителя. Правильный совет помогает каждому найти наилучший способ, как потратить свои деньги и в максимальной степени получить от этого удовольствие. 2.Превращение необычных товаров в обычные Персонализация является эффективным инструментом превращения необычных товаров в обычные, давая информацию, какую продукцию следует выбирать, а какую – избегать. Потребитель получает выгоду за счёт снижения неопределённости в отношении необычных для себя товаров. Он не всегда может заранее знать и указать важнейшие характеристики товаров и оценит все выгоды при их приобретении.

9 3.Помощь потребителю при его выборе Огромное разнообразие потребительских товаров и услуг сильно затрудняет выбор при их приобретении. Персонализация позволяет определить индивидуальные вкусы, потребности и на основании этого выдать персональные рекомендации для совершения наиболее подходящей покупки. 4.Подгонка продукции на заказ Используя специализированное программное обеспечение и учитывая полученный опыт, онлайновые службы предлагают своим потребителям уникальные и динамично персонализированные ресурсы. Упрощённый выбор из обширного ассортимента является мощным маркетинговым инструментом. Всё это позволяет построить и правильно использовать модель пользователя.

Архитектура адаптивной информационной системы: 10 Модель системы, описывающая каким образом структурированно содержание сайта, приложения; Модель пользователя, описывающая его предпочтения, знания, цели, историю навигации… ( пример построения ); пример построения Механизмы адаптации, лежащие в основе генерации адаптивного представления Web-ресурсов и обновления модели пользователя.

Основные приёмы адаптации представления Web-ресурсов: 11 Изменение порядка следования информационных ресур­сов. Изменение навигационной схемы на основе модели пользователя. Формирование релевантных ссылок на другие ресурсы на основе различных схем адаптации: анализ множества ключевых слов в модели пользователя; истории его посещений; семантического пространства текущей темы.релевантных Соответствующая подсветка ссылок текущей и др. предметных областей. Сокрытие ссылок, выпадающих за текущий уровень пользователя или из-за их чрезмерной сложности. Сокрытие информационных фрагментов и подсветка их по аналогичным критериям. Адаптация интерфейса. Выбор пользователем стиля, ин­тересующих модулей и интерфейсных решений. Всплывающие подсказки на ключевых словах основ­ных понятиях (концептах) ресурса.

Web-Mining –12 Топология данных во Всемирной паутинеТопология данных во Всемирной паутине имеет фрактальную структуру и объём данных экспоненциально растёт. Необходимо автоматизировать процесс извлечения знаний из Web-пространства, чтобы использовать их со смыслом. Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологии Data Mining, Text Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах. В основу современного подхода положена концепция шаблонов (паттернов), представляющих собой закономерности, свойственные предвыборкам данных. Интеллектуальный анализ данных ( ИАД ) в Web

Обнаружение знаний 13 Главной идеей ИАД является нетривиальность разыскиваемых шаблонов, т.е. шаблоны должны отражать неочевидные, неожиданные регулярности (закономерности) данных, составляющие так называемые скрытые знания. Целевые данные Алгоритм обнаружения знаний Важнейшим элементом ИАД является интерпретируемость результатов. Выбор Предобр аботка, очистка Data Mining Данные Преобразованные, «чистые» данных Шаблоны Интерпретация (таблица, текст, дерево, перекрёстная таблица) и оценка

Шаблоны Виды закономерностей, выявляемые ИАД 14 ассоциация несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы приобретают также «кока-колу», а при наличии скидки за такой комплект его покупают в 85% случаев; последовательность существует цепочка связанных по времени событий. Например, после покупки дома через некоторое время 60% новоселов обзаводятся холо­дильником, а в 45% случаев покупают еще и новую кухонную плиту; классификация выявляются признаки, характеризую­щие группу, к которой принадлежит тот или иной объ­ект. Делается это посредством анализа уже классифи­ цированных объектов; кластеризация отличается от классификации тем, что группы априорно не заданы. Система самостоя­тельно выделяет однородные группы данных. При этом достигается максимальная «близость» элементов одной группы и максимальное «удаление» групп; прогнозирование анализ исторической информации, хранящейся в базе данных в виде временных рядов. Та­кие шаблоны, отражающие динамику поведения целе­ вых показателей, помогают предсказать поведение сис­темы в будущем. Одним из популярных методов обнаружения знаний, при­меняемых в Интернете, являются алгоритмы поиска ассоциа­тивных правил.

Ассоциативные правила 15 – это зависимости вида: если произошло событие А, то с определённой вероятностью произойдёт событие В. Каждое ассоциативное правило характеризуется поддержкой и достоверностью. Пример: Ассоциативное правило «Хлеб Молоко»: если человек покупает хлеб – Условие, то вероятность покупки молока – 75%, это – Следствие. Здесь достоверность правила равна 75%. Поддержка правила, например, –3% от общего числа всех транзакций содержат оба товара. Варьируя верхним и нижним пределом поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей: Уменьшение поддержки приводит к увеличение потенциально интересных правил. Увеличение поддержки даёт теоретически ценное правило, но, скорее всего, оно означает, что правило всем известно, либо его товары и так лидеры продаж, из чего следует низкая практическая ценность такого правила. Уменьшение порога достоверности приводит к увеличение количества правил. Однако их практическая ценность (

Пример Web Mining для персонализации 16 Системы Web Mining могут определить кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей. Здесь главный источник данных – это лог-файл сервера. Пример ответа Web-сервера: smith [28/OCT/2004:20:27: ] ''GET /Default.htm HTTP/1.1'' '' ''Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)'' Удаленный хост: Авторизация: smith. Дата/время: [28/OCT/2004:20:27: ]. Запрос: ''GET /Default.htm HTTP/1.1''. Код состояния: 200. Переданное количество данных: Ссылающийся ресурс : '' Пользовательский агент: ''Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)''.

Пример (продолжение) 17 Предобработка лог-файла сервера: Очистка данных – удалить записи о файлах с расширениями.gif,.jpeg,.js,.css и им подобные; Удаление записей, не отражающих активность пользователя – поисковые агенты и автоматические веб-боты для поиска сайтов. Их можно выявить по запросам страниц сайта одной за другой или по именам агентов; Определение каждого отдельного пользователя – информация из поля "Авторизация" Идентификация пользовательской сессии. Каждый определенный пользователь в течение исследуемого периода мог посещать портал несколько раз, и вполне возможно, что с различными целями. Поэтому визиты пользователей необходимо разбить на сессии; Информация, которую можно извлечь после предобработки: количество просмотров страницы; сессии каждого пользователя; просмотренные страницы; порядок просмотренных страниц; продолжительность пребывания на каждой странице. Мы получаем модель пользователя и можем произвести персонализацию.

Grid-технологии18 Grid Grid – это гетерогенная инфраструктура программного обеспечения и вычислительных ресурсов: процессоров, памяти, каналов и др. оборудования. Объединив в массив группу машин, можно заимствовать их свободные или мало используемые ресурсы, независимо от изготовителя, модели, аппаратной конфигурации и даже операционных систем. Если машина отключается от сети, выходит из строя, задание переправляется на другой компьютер. Выбрав сеть (LAN, MAN, распределённые элементы WAN) для вычислительного массива Grid, необходимо организовать на серверах центральную консоль управления. Затем следует выбрать машины-доноры ресурсов и загрузить на них небольшие программы-агенты для связи с центральной консолью. Современные агенты реализуются в виде Web/WCF-сервисов, которые образуют Open Grid Services Architecture – OGSA. Grid – это не вычислительные кластеры и не облака.WebWCF OGSAоблака Центральная консоль обеспечивает общее управление Grid, давая поручения распределённым агентам. С консоли можно передать программу для исполнения, запустить уже имеющуюся у клиента программу, извлечь нужный фрагмент данных.

Социальные сети19 Современные социальные сети представляют собой результат действия самоорганизующихся процессов, управляемых общими, довольно простыми законами. Такие системы состоят из большого числа взаимодействующих элементов, устойчивы к ошибкам и внешним воздействиям (например, хакерским атакам). Такие сети описываются и исследуются в теории комплексных сетей. Для исследования и прогнозирования процессов в комплексных сетях (массовое поведение людей, распространение заболеваний, тенденции рынка, эволюция взаимодействия белковых молекул, террористическая сеть…) используют различные модели, например, – модели теории малого мира. Оказывается, два случайно выбранных человека, как правило, связаны короткой цепочкой промежуточных знакомств – 6 звеньев. Если в этом мире имеются кластеры из тесно общающихся людей и эти кластеры пересекаются, то мир может охватить стремительная волнообразная эпидемия. По аналогии с эпидемиям в малом мире возможны явления «массовой мобилизации», например, акции гражданского неповиновения. Возможны такие социальные акции как Флешмоб. Комплексные сети

20 Формализм комплексных сетей Под комплексной сетью подразумевается граф с достаточно большим числом узлов различной природы (характеризуемых, в том числе, многомерным кортежем признаков) и динамически изменяющимися связями. Каждое состояние комплексной сети представляется взвешенным неориентированным графом G, который определяется как совокупность (V,E) конечного множества вершин V и множества рёбер E, состоящего из неупорядоченных пар (u,v), где u,v V и u v. Каждая вершина характеризуется своей степенью, т.е. числом инцидентных ей ребер. Формализм комплексных сетей применим для описания различных многосвязных систем реального мира. Основным отличием моделей комплексных сетей от других графовых структур является возможность их вероятностного описания. Это позволяет изучать комплексные сети посредством аппарата статистической физики. Что в свою очередь, открывает возможности для обобщения на комплексные сети физических закономерностей, описывающих процессы в реальных физических, биологических, социологических... системах с большим числом узлов.

21 Примеры комплексных сетей Twitеer последователи

22 Модели комплексных сетей Модель случайного графа (1956 г.)

23 Модель малого мира – это модификация случайного графа с учётом кластериза- ции соседних членов общества и наличием «случайных» дальних связей. Кластеризация учитывает зависимость связей от того, какие персоны выбраны. Можно ввести коэффициент кластеризации C – средняя доля пар соседей узла, которые также являются соседями друг друга. В полностью связанной сети (каждый знает каждого) C = 1. В случайном графе C ~ 1/N. Было выяснено, что в реальных сетях значение 1/N

24 Узел, который присоединяется к сети, старается первоначально связаться с достаточно популярными и в то же время схожими с ним самим узлами. Например, в сети Facebook узел – это страничка пользователя. Популярны те узлы сети, которые имеют большое количество соединений с другими, как, допустим, страница какого-нибудь известного блогера. Узлы, которые похожи, имеют больший шанс к соединению, даже если они не популярны. Модели комплексных сетей Модель предпочтительного соединения (1999 г.)

25 Модели комплексных сетей Диффузионная модель – распространение информации, эпидемия Полное покрытие. Время покрытия зависит от узла-источника. Важна связанность сети

26 Исследователи обнаруживают, что при определённом рассмотрении структура Вселенной, интернета, социальных сетей и мозга человека удивительно похожи, что является следствием асимптотической эквивалентности динамики эволюции этих на первый взгляд совершенно разных сложных систем. Нейроны мозга и Вселенная!

Источники 1.Боженюк A.B. Интеллектуальные интернет-технологии : учебник / A.B. Боженюк, Э.М. Котов., A.A. Целых. Ростов н/Д: Феникс, с. 2.Гаврилова Т. А. Базы знаний интеллектуальных систем : учебник / Т. А. Гаврилова, Ф. В. Хорошевский. СПб.: Питер, с. 3.Web Mining: интеллектуальный анализ данных в сети Internet // Управление знаниями Жуков Л. Теория социальных сетей.