Процесс анализа данных. Основные подходы Уровни анализа Визуализация Моделирование Прогнозирование Оптимизация.

Презентация:



Advertisements
Похожие презентации
Противодействие мошенничеству в розничной торговле.
Advertisements

Data Mining – инструмент оптимизации работы с клиентами.
Какие группы (например по демографическому признаку, или по уровню доходов, или по социальному статусу) более чувствительны к изменению.
Маркетинг банковских продуктов и услуг. Борьба за выгодного клиента требует умного подхода: Привлечение нужных клиентов Удержание ценных покупателей Учет.
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Арустамов Алексей BaseGroup Labs IT Service Management – анализ инцидентов и проблем.
Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Маркетинг банковских продуктов и услуг. BaseGroup Labs Вектор развития По мере насыщения финансового рынка, борьба за каждого клиента становится более.
Анализ бизнес информации – основные принципы. BaseGroup Labs Последовательность работы Сбор и систематизация данных Построение модели, объясняющей имеющиеся.
Арустамов Алексей BaseGroup Labs IT Service Management в банках : анализ инцидентов и проблем.
Бизнес-ценность клиентской аналитики. Жесткая конкуренция Сложность создания уникального продукта Ценовые войныСнижение прибыли Большинство зрелых рынков,
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
Анализ данных в телекоме: от отчетности к Data Mining.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
ФИТНЕС-ЦЕНТРФИТНЕС-ЦЕНТР PAPYRUS Система управления предприятием.
Транксрипт:

Процесс анализа данных

Основные подходы

Уровни анализа Визуализация Моделирование Прогнозирование Оптимизация

Выборка данных Очистка данных Трансформация Data Mining - моделирование Интерпретация результатов Знания Процесс анализа

Данные для анализа CRM, ERPБазы данных Офисные приложения Интернет Социальные сети Выборка данных

Атрибут Персона 1Персона 2 ФИОИванов Иван Иванович Иван Иванович Адресг. Рязань ул. Новая 53 в Телефон+7 (4912) Дата рождения 1971 г.15 декабря Место работыBaseGroup LabsBGL ИсточникCRM-системаFacebook Выборка данных: проблема Это один человек?

Выборка данных: решение Оценка близости и связывание

Данные всегда плохие Ошибки ввода ПропускиАномалии ДублиПротиворечия Очистка данных

Очистка данных: пример Аномалия или норма? Нет данных или нет продаж?

Проблема Вариант решения Ошибки ввода Проверить по справочникам Пропуски Интерполировать Аномалии Срезать выбросы Дубли Оставить одну запись Противоречия Удалить записи Очистка данных: решение

Фильтрация Расчет агрегатов Группировка данных Квантование Сэмплинг Трансформация Подготовка данных к анализу

Трансформация: проблема Средний чек - 359?

Трансформация: решение Медиа = 120 Среднее = 359

Data Mining Новые данные Модель Прогноз Исторические данные Модель Обобщение опыта Применение модели

Трудно понять модель Нет доверия к результатам Отказ в применении модели Интерпретация результатов

Визуализация – способ понять Структура кластеров Различие кластеров

Выборка данных 25% Очистка 25% Трансформация 20% Data Mining 15% Интерпретация 15% Трудоемкость этапов

Выборка данных История продаж История остатков Маркетинговые акции Связывание данных Очистка Заполнить пропуски Удались аномалии Трансформация Сгруппировать помесячно Скользящее окно Data Mining – моделирование Линейная регрессия Нейронная сеть Интерпретация результатов Диаграмма рассеяния Ретро-прогноз Распределение ошибки Пример: прогнозирование

Выборка данных История звонков Параметры тарифных планов Очистка Исключить редкие события Удалить аномалии Трансформация Сгруппировать понедельной Сбалансировать классы Data Mining – моделирование Логистическая регрессия Дерево решений Интерпретация результатов Таблица сопряженности Дерево правил Пример: отток клиентов

Data Mining

Data Mining – это процесс обнаружения в 'сырых' данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений Data Mining

Кластеризация Регрессия Классификация Ассоциативные правила Последовательные шаблоны Анализ временных рядов Анализ связей Анализ отклонений Классы задач Data Mining

Объединение «похожих» объектов в сравнительно однородные группы, существенно отличающихся от других групп Кластеризация

Сегментация клиентов Выявление целевой аудитории Анализ миграции клиентов Канибализация товаров Кластеризация: задачи

Предсказание значения непрерывной зависимой переменной с помощью независимых переменных Регрессия

Прогнозирование спроса Вероятность отклика на предложение Оценка эластичности цен Кредитный скоринг Регрессия: задачи

Отнесение объектов к одному из известных классов с помощью независимых переменных Классификация

Оценка перспективности клиента Предсказание мошенничества Прогнозирование оттока Анализ рисков Классификация: задачи

Обнаружение в транзакциях зависимостей, что из события X с определенной вероятностью следует событие Y Ассоциация

Анализ рыночной корзины Кросс-продажи (Cross-sale) Повышение доходности (Up-sale) Лучшее товарное предложение (Next Best Offer) Ассоциация: задачи

Выявление зависимости, что после события Х, с определенной вероятностью наступит событие Y Купил Принтер Бумага Предложить Тонер Последовательность Спустя некоторое время

Предсказание переходов по сайту Анализ отложенного спроса Оптимизация работы службы технической поддержки Последовательность: задачи

Предсказание будущих значений временного ряда по настоящим и прошлым значениям Анализ временных рядов

Прогнозирование спроса Оптимизация складских запасов Прогнозирование финансовых потоков Прогнозирование потребности в ресурсах Анализ временных рядов: задачи

Выявление отношений между объектами сети для определения ранее неизвестных характеристик объектов Анализ связей

Противодействие мошенничеству Защита конфиденциальных данных Построение профилей клиентов Выбор каналов воздействия Анализ связей: задачи

Обнаружение наиболее нехарактерных случаев, выбивающихся из общих закономерностей Анализ отклонений

Выявление подозрительной активности Анализ влияния маркетинговых акций Автоматический контроль выполнения KPI Анализ отклонений: задачи

Решение большинства задач бизнес- аналитики сводятся к описанным классам задач Data Mining или их комбинациям. Применение в бизнесе

Кейс: мошенничество

До 70% потерь происходит по вине персонала. Проблемная зона – касса: Воровство и обман покупателей Неправомерное использование скидок Начисление баллов на бонусные карты Мошенничество в рознице

Мошенничество – не только воровство, но и осознанное нарушение корпоративных правил работы: Начисление баллов на свою карту Использование служебной карты для родственников и знакомых Что такое мошенничество

Противодействия мошенничеству базируются на выявлении последовательности подозрительных действий, оценке вероятности обмана и расчете финансовых потерь: Жесткие правила известных схем обмана Частотный анализ действий Аномальные выбросы во временных рядах Анализ последовательности действий Поиск подозрительных сочетаний Кластеризация транзакций Выявление мошенничества

Много бонусов Кассир начислил подозрительно много бонусов

Аномальное сторно Слишком много подозрительных операций

Странный возврататат транзакции Дата транзакции Время транзакции Тип транзакции ККМ чека возвратат. чека Код кассира Код товара Цена Количеств о Сумма :19:1511 – регистрация товара :19:2011 – регистрация товара :19:2711 – регистрация товара :19:5140 – оплата :19:5155 – закрытие чека транзакции Дата транзакции Время транзакции Тип транзакции ККМ чека возвратат. чека Код кассира Код тов.Цена Кол-во Сумма :53:33 80 – возврататат по номеру чека :53:5013– возврататат :53:5340 – оплата :53:5355 – закрытие чека Создан чек Отмена чека через час

Плохие сочетания Профиль нормального чека Профиль «плохого» чека

Big Data

Каждый день в мире генерируется байт информации 90% всех существующих данных созданы за последние 2 года Каждый час Wal-Mart генерирует данных в 170 раз больше объема данных Библиотеки Конгресса США Big Data Интернет вещей Социальные сети Мобильная связь Чеки Логи Обвал данных

Проблемы больших данных: Volume – огромные объема данных Velocity – высокая скорость генерации новых данных Variety – многообразие структурированных и неструктурированных источников данных Big Data

Мнение клиентов Рекомендательные системы Массовая кастомизация услуг Противодействие оттоку Борьба с мошенничеством Построение профилей клиентов Потенциал Big Data

Ручная обработка огромных потоков данных практически бесполезна. Технологии Data Mining – реальный способ извлечь ценные знания из Big Data, превратив умение анализировать данные в конкурентное преимущество. Знания из данных

basegrpoup.ru