Анализ веб-данных. BaseGroup Labs Предпосылки На сегодняшний день всемирная сеть собрала в себе огромное количество информации. Из Интернета можно извлечь.

Презентация:



Advertisements
Похожие презентации
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Advertisements

Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Обнаружение нетривиальных аномалий методами Data Mining.
Deductor Inventory Stock Optimization. BaseGroup Labs Важность проблемы Большая часть финансовых средств торговой организации сосредоточена на складе,
Deductor 5 – эволюция платформы. BaseGroup Labs Причины изменений Deductor изменялся под влиянием требований, возникающих при его применения в реальных.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Анализ данных в телекоме: от отчетности к Data Mining.
Анализ больших объемов данных. BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется.
Противодействие мошенничеству в розничной торговле.
Арустамов Алексей BaseGroup Labs IT Service Management – анализ инцидентов и проблем.
Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Deductor 5 – новые возможности. BaseGroup Labs Развитие системы Deductor активно применяется во многих проектах. Новый функционал, расширяющий возможности.
Data Mining – инструмент оптимизации работы с клиентами.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Образовательный портал BaseGroup. BaseGroup Labs Составные части Образовательный портал состоит из следующих частей: Образовательная платформа – e-learning.
Особенности Data Mining проектов. BaseGroup Labs Отличие от стандартного проекта В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов.
Арустамов Алексей BaseGroup Labs IT Service Management в банках : анализ инцидентов и проблем.
Data Mining в ситуационных центрах. BaseGroup Labs Цель создания ситуационных центров Ситуационный центр - это самая современная форма реализации системы.
Анализ бизнес информации – основные принципы. BaseGroup Labs Последовательность работы Сбор и систематизация данных Построение модели, объясняющей имеющиеся.
Промышленное прогнозирование. BaseGroup Labs Постановка задачи Прогнозированием можно назвать любой способ предсказать значения одной переменной в зависимости.
Транксрипт:

Анализ веб-данных

BaseGroup Labs Предпосылки На сегодняшний день всемирная сеть собрала в себе огромное количество информации. Из Интернета можно извлечь множество данных, которые содержат в себе знания, полезные субъектам сетевой экономики. Необходимость повышения экономической эффективности своей деятельности уже давно подталкивает предприятия к анализу накопившихся у них данных. Субъекты сетевой экономики нуждаются в специальных подходах к анализу веб-данных. Методы Web Mining решают эту задачу.

BaseGroup Labs Web Mining Web Mining – применение методов и алгоритмов Data Mining для обнаружения и поиска зависимостей и знаний в сети Интернет. В процессе анализа веб- данных решаются задачи кластеризации, ассоциации, классификации. Основные шаги: импорт данных из лог-файла; предобработка; выделение отдельных сессий; Data Mining; интерпретация.

BaseGroup Labs Основные цели Web Mining Узнать, кто посещает сайт Выяснить, какие типы людей являются покупателями Выявить типичные сессии и навигационные пути пользователей сайта Выделить группы и сегменты среди посетителей сайта Найти зависимости и правила в посещениях сайта.

BaseGroup Labs Информация для анализа Данные о посещениях сайта хранятся в лог-файлах веб- сервера. Фактически они представляют собой текстовые файлы с разделителями и способны импортироваться в аналитические платформы [08/Mar/2010:18:35: ] GET /img/btn_close.gif HTTP/ Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv: ) Gecko/ AdCentriaIM/1.7 Firefox/ sputnik [08/Mar/2010:18:35: ] GET /img/formuls/math_921_c5da77d27189b563b0346a015babea75.png HTTP/ Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv: ) Gecko/ AdCentriaIM/1.7 Firefox/ sputnik

BaseGroup Labs Предобработка и очистка Данные, полученные из веб-лога, нуждаются в очистке и предобработке. Можно выделить следующие шаги: удаление записей, содержащих запросы графических файлов; удаление записей, отражающих активность веб-ботов; выделение отдельных сессий посетителей сайта.

BaseGroup Labs Записи с запросами графических файлов Вместе с текстом запрошенной страницы сервер присылает пользователю и все объекты, находящиеся на ней, например графические файлы. Таким образом, в веб-лог заносится несколько записей. Используя строковые функции и фильтры, можно получить сценарий, который удаляет лишние записи из набора данных [08/Mar/2010:18:35: ] GET /img/btn_close.gif HTTP/ Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv: ) Gecko/ AdCentriaIM/1.7 Firefox/ sputnik

BaseGroup Labs Записи об активности веб-ботов Веб-боты постоянно сканируют сайт. Их поведение существенно отличается от человеческого. Записи об активности веб-ботов необходимо удалить из набора данных, чтобы алгоритмы Data Mining не выдали ложных результатов. В таких записях вместо названия браузера будет стоять имя веб-бота, например GoogleBot. Поэтому для их поиска в логе достаточно использовать строковые функции [08/Mar/2010:18:35: ] GET /img/formuls/math_921_c5da77d27189b563b0346a015babea75.png HTTP/ Googlebot- Image/1.0

BaseGroup Labs Выделение отдельных сессий Каждый пользователь может посещать сайт за определенный период несколько раз. При этом цели визита могут быть различными. В связи с этим выделяют различные сессии у каждого пользователя и рассматривают их как отдельные транзакции [08/Mar/2010:18:35: ] GET /solutions HTTP/ Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv: ) Gecko/ AdCentriaIM/1.7 Firefox/ sputnik [10/Mar/2010:12:27: ] GET /library/ HTTP/ (Windows; U; Windows NT 5.1; ru; rv: ) Gecko/ AdCentriaIM/1.7 Firefox/ sputnik http://

BaseGroup Labs Анализ с помощью средств визуализации Самым простым методом анализа веб-данных является их визуализация. Она включает : таблицы; диаграммы; графики; OLAP-отчеты; прочие визуальные методы представления данных.

BaseGroup Labs Визуализация: диаграммы Регулярный спад посещаемости по субботам Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Понедельник Вторник Среда Четверг Пятница Суббота Воскресенье Понедельник Вторник Среда День недели Количество сессий

BaseGroup Labs Визуализация: OLAP Кубы – удобное средство для визуализации многомерных данных. Количество не-загруженных страниц из-за ошибок на сервере Количество успешно загруженных страниц

BaseGroup Labs Методы Data Mining Алгоритмы и методы Data Mining активно применяются в Web Mining и полезны для: сегментации посетителей сайта и их сессий; анализа рыночной корзины покупателей интернет-магазина; выявления популярных навигационных путей; поиска сессий с большим количеством действий и высокой продолжительностью.

BaseGroup Labs Методы очистки и предобработки данных Алгоритмы кластеризации могут быть использованы для поиска аномалий. Подозрительные записи собираются в отдельном кластере и их доля в общей массе мала. Сессии с большим количеством действий и высокой продолжительностью Количество действий 0 Продолжительность сессии

BaseGroup Labs Сегментация С помощью алгоритмов кластеризации можно проводить сегментацию посетителей или их сессий в зависимости от активности. Используя идентификатор сессии и данные о просмотренных страницах, выделяют несколько кластеров. Проанализировав содержание кластеров, находят более и менее приоритетные группы. Когда пользователь будет на сайте, его сессию в режиме on-line можно отнести к тому или иному кластеру (для этого можно использовать алгоритмы классификации). Затем посетителю «подсказывают», какие страницы также стоит посмотреть.

BaseGroup Labs Пример сегментации Общая статистика по всем кластерам Страницы, встречающиеся вместе в сессиях

BaseGroup Labs Сегментация посетителей интернет-магазина Покупатели интернет-магазина, как правило, зарегистрированные пользователи. Их анкетные данные могут быть дополнены их предпочтениями в покупках тех или иных групп товаров. Вся эта информация может быть использована для сегментации посетителей. Целевая аудитория Структура посетителей

BaseGroup Labs Анализ рыночной корзины Применяя строковые функции, нетрудно выделить записи, которые отражают факт покупки конкретного товара. За определенный период посетители интернет-магазина покупают некоторый набор товаров. Эти данные можно использовать для поиска ассоциативных правил. Страницы для выбора Сформированное условие Рассчитанное следствие

BaseGroup Labs Популярный навигационный путь Если выявить ассоциативные правила для всего набора данных, то можно определить часто используемые (популярные) навигационные пути, по которым перемещаются посетители сайта. /download/deductor/deductor_setup_5.2 /download/deductor/deductor5.2setupacademic.exe BaseGroup.ru :: Deductor Academic Выявленные правила Используемый навигационный путь

BaseGroup Labs Deductor – инструмент анализа данных Deductor – аналитическая платформа, позволяющая решить все описанные выше задачи. Реализованные в ней технологии обеспечивают возможность на базе единой архитектуры пройти все этапы построения аналитической системы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов. Методы, реализованные в Deductor

BaseGroup Labs Deductor – инструмент анализа данных Ключевые преимущества Deductor: Хранилища данных на нескольких платформах Поддержка ETL-процесса, включая механизмы очистки, предобработки и обогащения данных Встроенный развитый OLAP-модуль Развитые механизмы Data Mining, реализация широкого спектра самообучающихся алгоритмов: нейронные сети, деревья решений, самоорганизующиеся карты, ассоциативные правила и прочее Гибкая интеграция, десятки источников данных Учебно-методическая поддержка: система дистанционного обучения, кейсы, книги, обширная справка на русском языке Доступная для продуктов подобного класса цена.

BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru