An Introduction to Data Mining Kurt Thearling, кандидат наук Kurt Thearling, кандидат наук.

Презентация:



Advertisements
Похожие презентации
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Advertisements

Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Использование нейросимулятора при определении внешнего вида ребенка по параметрам родителей.
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Положение об отделе В.Андреев, Д.Сатин. Штат отдела начальник отдела; бизнес-аналитик; проектировщик пользовательских интерфейсов; специалист по анализу.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Предмет изучения кибернетики как теории управления.
Процесс, методология, стратегия. Карта содержимого (1)
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
Лекция 1. ЧТО ТАКОЕ ГЕОИНФОРМАЦИОННЫЕ СИСТЕМЫ? Харитонов А. Ю. Министерство образования и науки Украины Донецкий национальный технический университет Кафедра.
Система оптимизации цен на платформе Microsoft Azure Machine Learning spellabs.R- pricer.
Интегрированная информационная система «КВАРТА». Компания КВАРТА Компания КВАРТА имеет 14-летний опыт работы в следующих областях: Реализация «под ключ»
BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Этап (годы) Концепция использования информации Вид ИС Цель использования Бумажный поток расчетных документов ИС обработки расчетных документов.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Транксрипт:

An Introduction to Data Mining Kurt Thearling, кандидат наук Kurt Thearling, кандидат наук

Введение в датамайнинг перевод Юрий А. Денисов, технический писатель перевод Юрий А. Денисов, технический писатель

Содержание: Краткий обзор Датамайнинга Краткий обзор Датамайнинга Коммерческое программное обеспечение для датамайнинга. Коммерческое программное обеспечение для датамайнинга. Представление моделей и Понимание результатов Представление моделей и Понимание результатов

Краткий обзор Датамайнинга Что такое датамайнинг? Что такое датамайнинг? Целевые функции, модели и визуализация данных Целевые функции, модели и визуализация данных Реальные проблемы Реальные проблемы Беглое обсуждение основных алгоритмов и процессов Беглое обсуждение основных алгоритмов и процессов

Источники: книга Хорошая книга для краткого обзора: Хорошая книга для краткого обзора: –«Методы датамайнинга» Майкла Берри и Гордона Линоффа;

Источники: Веб Мой веб-сайт (рекомендованная литература, полезные ссылки, белые листы, … ): Мой веб-сайт (рекомендованная литература, полезные ссылки, белые листы, … ): Самородки Открытия Знания ; Самородки Открытия Знания ;

Источники: Рассылка Список адресатов датамайнинга Список адресатов датамайнинга –пошлите сообщение, «Subscribe datamine- l».

Проблема... Вы – менеджер по маркетингу брокерской компании Вы – менеджер по маркетингу брокерской компании Проблемы Вас слишком сильно «прессуют» Проблемы Вас слишком сильно «прессуют» –Оборот за последние шесть месяцев (в конце периода) лишь 40 % от прошлого периода.

Проблемы… Клиенты получают скидки (средняя скидка: 160 $) при открытии счета Клиенты получают скидки (средняя скидка: 160 $) при открытии счета –Предоставлять новые скидки каждому клиенту, который может прекратить сотрудничество с Вами и уйти, будет просто расточительно –Возвращение клиента после их ухода от Вас – дело и трудное, и дорогостоящее.

Решение… За один месяц до отчетного периода, нужно предсказывать, какие клиенты уйдут За один месяц до отчетного периода, нужно предсказывать, какие клиенты уйдут –Если Вы хотите удержать клиента, предложите ему нечто безусловно ценное. Те клиенты, которые не хотят уйти, не требуют такого внимания. Те клиенты, которые не хотят уйти, не требуют такого внимания. –Если Вы не хотите удержать клиента, не делайте ничего

Как предсказать? Как Вы можете предсказать будущее поведение клиента? Как Вы можете предсказать будущее поведение клиента? –Гадальные Карты? –Волшебство 8 Шаров?

Общая Картина много неточностей и дезинформации в данных, добытых неправильным путем. много неточностей и дезинформации в данных, добытых неправильным путем. Датамайнинг - часть намного большего процесса Датамайнинг - часть намного большего процесса 10 % от 10 % из 10 % от 10% 10 % от 10 % из 10 % от 10%

Точность Точность – не всегда самая важная цель для датамайнинга Точность – не всегда самая важная цель для датамайнинга Сами данные являются критичными для исследования Сами данные являются критичными для исследования Алгоритмы не столь же важны, как думают некоторые специалисты Алгоритмы не столь же важны, как думают некоторые специалисты

Понятность Если Вы не можете понять выводы, сделанные с помощью датамайнинга, Вы вряд ли будете действовать по ним (и убеждать других действовать на основании этих выводов). Если Вы не можете понять выводы, сделанные с помощью датамайнинга, Вы вряд ли будете действовать по ним (и убеждать других действовать на основании этих выводов).

Автоматизация Автоматизированное извлечение целевой информации из больших баз данных Автоматизированное извлечение целевой информации из больших баз данных Два ключевых слова: Два ключевых слова: –Автоматизированный –Целевой (прогнозирующий) Неявная статистическая методология. Неявная статистическая методология.

Действия Датамайнинг позволяет Вам быть действенным Датамайнинг позволяет Вам быть действенным Упреждающий, а не Ретроспективный подход к исследованиям Упреждающий, а не Ретроспективный подход к исследованиям

Цель датамайнинга Упрощение и автоматизация статистического сбора информации из первоисточников, для моделирования поведения Упрощение и автоматизация статистического сбора информации из первоисточников, для моделирования поведения –Изменения за год –Замена статистики Чем лучше модели, тем меньше неприятной работы Чем лучше модели, тем меньше неприятной работы –1 + от 1 до 0

Алгоритмы Множество различных алгоритмов датамайнинга / доступного инструментария Множество различных алгоритмов датамайнинга / доступного инструментария Требуется статистическая экспертиза для сравнения различных методов Требуется статистическая экспертиза для сравнения различных методов Встраивание интеллекта в программное обеспечение Встраивание интеллекта в программное обеспечение

Датамайнинг – это: Дерево Решений Дерево Решений Метод классификации ближайших соседей (kNN) Метод классификации ближайших соседей (kNN) Нейронные сети Нейронные сети Правила вывода Правила вывода K-средства кластеризации K-средства кластеризации

Датамайнинг - это не... Организация хранения данных Организация хранения данных SQL / Queries запросы / Средства составления отчетов SQL / Queries запросы / Средства составления отчетов Программное обеспечение. Программное обеспечение. Диалоговая Аналитическая Обработка (OLAP) Диалоговая Аналитическая Обработка (OLAP) Визуализация Данных Визуализация Данных

1. Возможности Возрастающие возможности компьютерных вычислений Возрастающие возможности компьютерных вычислений Закон Мура утверждает, что мощность компьютеров удваивается каждые 18 месяцев; Закон Мура утверждает, что мощность компьютеров удваивается каждые 18 месяцев; –Мощные компьютерные рабочие станции становятся общедоступными; –Серверы с параллельными вычислениями и оптимальные по стоимости доступны на массовом рынке;

Интересная альтернатива: Вычисления с небольшим количеством чисел по сложным алгоритмам их анализа вместо вычислений с большими количествами чисел и простыми алгоритмами; Вычисления с небольшим количеством чисел по сложным алгоритмам их анализа вместо вычислений с большими количествами чисел и простыми алгоритмами;

2. Хранение Улучшенное хранение и обработка данных Улучшенное хранение и обработка данных % продажи программ создания данных CIO; % продажи программ создания данных CIO; –Хранение данных, Доступ, Навигация, Добыча данных; –Чем больше данных, тем лучше (обычно);

3. «Обучение» машин Статистические и машинные обучающие алгоритмы Статистические и машинные обучающие алгоритмы Техника обычно ждет, пока вычислительные алгоритмы ее догонят; Техника обычно ждет, пока вычислительные алгоритмы ее догонят;

«Обучение» машин Работники статистики обычно делают «без машинный датамайнинг»; Работники статистики обычно делают «без машинный датамайнинг»; Хорошая машина обучается интеллектуальными приложениями статистических вычислений; Хорошая машина обучается интеллектуальными приложениями статистических вычислений;

Примеры использования: Прямой почтовый маркетинг (прямая рассылка); Прямой почтовый маркетинг (прямая рассылка); Персонализация веб-сайтов; Персонализация веб-сайтов; Определение мошенничества с кредитными картами; Определение мошенничества с кредитными картами; Биоинформатика; Биоинформатика; Анализ текста; Анализ текста; Маркетинговый анализ покупателя; Маркетинговый анализ покупателя;

Определение: целевая функция: «Черный ящик», который делает предположения о будущем, основанные на информации о прошлом и настоящем. «Черный ящик», который делает предположения о будущем, основанные на информации о прошлом и настоящем. В «Черном ящике» обычно присутствует большое число входов; В «Черном ящике» обычно присутствует большое число входов;

Модели: Одни модели лучше других: Одни модели лучше других: –по точности; –по понятности;

Классификация моделей Модели выстраиваются от «легко понятных» моделей до плохо объяснимых в следующих ряд: Модели выстраиваются от «легко понятных» моделей до плохо объяснимых в следующих ряд: –Дерево решений; –Дедуктивный вывод по правилам; –Регрессионные модели; –Нейронные сети.

Подведение результатов: Лицо, выполняющее основную работу по датамайнингу; Лицо, выполняющее основную работу по датамайнингу; Модель может использоваться только один раз или использоваться снова и снова (многократно); Модель может использоваться только один раз или использоваться снова и снова (многократно);

Человеческий фактор Люди, использующие результаты датамайнинга, отличаются от людей, создающих модели для датамайнинга; Люди, использующие результаты датамайнинга, отличаются от людей, создающих модели для датамайнинга; –Как лучше передать модель в руки лиц, которые будут ее использовать?

Вопросы к результатам Результат: сопоставление данных, использованных при создании моделей и данных, вычисляемых в данной модели; Результат: сопоставление данных, использованных при создании моделей и данных, вычисляемых в данной модели; –Это те же самые данные? –Обеспечивается ли логическая последовательность решения автоматически?

Способы использования Два способа использования модели: Два способа использования модели: –Качественный –Количественный

Качественный входят ли данные в рабочий диапазон: входят ли данные в рабочий диапазон: –Если Город = Москва и 30 < возраст < 35; –Наиболее важный возраст населения будет заблаговременно выбран от 20 до 25 лет;

Качественный –Перенести рекламную кампанию из деревни «Гадюкино» на жителя Санкт- Петербурга; Требуется поддержка интерактивности и хорошая визуализация данных; Требуется поддержка интерактивности и хорошая визуализация данных;

Количественный; Автоматические вычисления; Автоматические вычисления; –Подсчет генома живого существа для модели с ошибками каждую полночь; Ориентация на «низы»; Ориентация на «низы»;

Насколько хороша целевая функция? Кривая отклика; Кривая отклика; –Как кривая отклика текущей выборки отличается от кривой случайной выборки?

Кривая допуска. Допуск Допуск –Отношение производной целевой функции отклика к производной случайной функции отклика (общий наклон кривой отклика); –Допуск > 1 означает, что обработка выборки для целевой функции лучше, чем отклик от случайной выборки для этой целевой функции;

Кривые получения рабочих характеристик (ROC): Продвижение по вертикали для всех случаев дает правильный результат, передвижения вправо для всех – отрицательный результат; Продвижение по вертикали для всех случаев дает правильный результат, передвижения вправо для всех – отрицательный результат; –зависимость от сортировки образцов; –решение: среднее над множеством образцов;

ROC Подобная кривая отклика, когда пропорции соблюдаются, описывает закономерность. Подобная кривая отклика, когда пропорции соблюдаются, описывает закономерность.

Детские проблемы датамайнинга. Классификация и сегментация (выборка); Классификация и сегментация (выборка); –Бинарная (да, нет); –Множественные категории (Большой, Средний, Малый); Прогнозирование; Прогнозирование; Выделение по правилам ассоциации; Выделение по правилам ассоциации; Определение последовательности; Определение последовательности; Кластеризация; Кластеризация;

Обучение: Управляемое Управляемое Неуправляемое Неуправляемое

Управляемое обучение: решение проблемы; решение проблемы; –Управление проблемами реального бизнеса и исторические данные; –Качество результатов зависит от качества данных;

Неконтролируемое обучение: Зондирование (как в кластерах); Зондирование (как в кластерах); –Скорее получаются относительные результаты, чем точные; Плюшевый мишка или детские пеленки (кто заботливее?); Плюшевый мишка или детские пеленки (кто заботливее?); –Полезно, когда пытаешься получить первоначальное понимание данных; –Неочевидные модели могут внезапно «испортиться» при сложных для нее данных в анализируемом проекте;

Тривиальность Иногда данные говорят Вам то, что Вы уже знаете. Иногда данные говорят Вам то, что Вы уже знаете. –Как целевая функция создается и используется?

На что это похоже? В реальном мире (когда предметы простые)? В реальном мире (когда предметы простые)? Технологии датамайнинга как один элемент. Технологии датамайнинга как один элемент.

Датамайнинг применяется в больших проектах: Компании по всему миру размером от десяти до работников используют исследования методами датамайнинга. Компании по всему миру размером от десяти до работников используют исследования методами датамайнинга. Офисные политики «последней мили»: Офисные политики «последней мили»: –Контролирование бюджета, людских ресурсов; –Персональные данные; –Правомерность публикаций

Выпуск специальных предложений Цель должна быть определена. Цель должна быть определена. Источник данных и сегментация данных должны быть определены. Источник данных и сегментация данных должны быть определены.

Управление техн. Процессами Управление технологическим процессом является одним из алгоритмов, имеющих большую сложность в описании; Управление технологическим процессом является одним из алгоритмов, имеющих большую сложность в описании; –Сравнение их с системами отслеживания публикаций в газетах, или, более часто встречающийся случай, с содержимым веб- страниц. Управление редакторскими и рекламными процессами. Управление редакторскими и рекламными процессами.

Что понимается под сложностью системы? Под сложностью системы понимают: Под сложностью системы понимают: –Объем –Скорость обработки

Объем Большой объем данных Большой объем данных –Данные с большим количеством деталей –Внешние источники данных (например, консорциум GO); Большая сегментация данных Большая сегментация данных

Скорость –Данные поступают слишком быстро (в обоих направлениях) –Ошибки легко вносятся в систему принятия решений «Я думал, что существует только одна проблема, от которой у нас неприятности, и не разглядел других опасностей». «Я думал, что существует только одна проблема, от которой у нас неприятности, и не разглядел других опасностей». «Вы уверены, что это была таблица X23.Jqqiud3843, а не X23Jqguid3483?» «Вы уверены, что это была таблица X23.Jqqiud3843, а не X23Jqguid3483?»

Законны и этические принципы Соблюдение приватности Соблюдение приватности –Становится все более важным –Будете ли Вы противодействовать ПО для сбора данных, если они для анализа используют Ваши приватные данные? Владение данными; Владение данными; –Европейские законы о защите данных будут неприменимы в США

Ограничения Государственное регулирование отдельных сегментов промышленности Государственное регулирование отдельных сегментов промышленности –Правила FDA на целостность и проверку на достоверность данных.

Ограничения Часто данные, включенные в банки данных, не могут быть использованы в процессе принятия решения. Часто данные, включенные в банки данных, не могут быть использованы в процессе принятия решения. –Например, раса, происхождение, возраст. –Получение этих данных будет критичным элементом

Данные – основание для аналитиков Если Вы не имеете достоверных данных, Ваша аналитика будут испытывать: Если Вы не имеете достоверных данных, Ваша аналитика будут испытывать: –Плохие заключения вместо ценных –Плохие (по качеству) выводы вместо хороших –Потерянные данные –Случайные решения вместо подробных;

Типы данных –Бинарные, Категориальные и Длительные. –Большое количество категориальных данных (например zip-кодирование)

Данные Преобразование Преобразование Не делайте допущений о недостающих данных Не делайте допущений о недостающих данных

Обобщение против «подгонки». Необходимо избегать подгонки (экстраполяции) данных при обучении системы Необходимо избегать подгонки (экстраполяции) данных при обучении системы

Перекрестная проверка Разбейте данные на группы одинакового размера Разбейте данные на группы одинакового размера Оставьте для проверки одну группу и используйте остаток для построения модели Оставьте для проверки одну группу и используйте остаток для построения модели Повторите Повторите

Некоторые популярные алгоритмы датамайнинга Контролируемые алгоритмы Контролируемые алгоритмы Неконтролируемые алгоритмы Неконтролируемые алгоритмы

Контролируемые алгоритмы Регрессионные модели Регрессионные модели Классификация ближайших соседей Классификация ближайших соседей Нейронные сети Нейронные сети Логический вывод Логический вывод Дерево решений Дерево решений

Неконтролируемые алгоритмы Кластеризация K-способом Кластеризация K-способом Самоорганизующиеся системы Самоорганизующиеся системы

Две хорошие книги по алгоритмам датамайнинга. «Интеллектуальный анализ данных: Введение» (Berthold & Hand) «Интеллектуальный анализ данных: Введение» (Berthold & Hand) –Множество алгоритмов Элементы статистического изучения: датамайнинг, выводы и прогнозирование (Hastie, Tibshirani & Friedman) Элементы статистического изучения: датамайнинг, выводы и прогнозирование (Hastie, Tibshirani & Friedman) –Много статистики

Очень простые проблемные множества

Регрессионные модели

Модель классификации ближайших соседей Использование для обучения базу данных как модель. Использование для обучения базу данных как модель. Найти ближайшую точку с данными и найти около нее похожие соседние точки Найти ближайшую точку с данными и найти около нее похожие соседние точки Очень простая модель в осуществлении. Очень простая модель в осуществлении.

Модель классификации ближайших соседей Очень сложная модель для использования продукций (правил вывода). Очень сложная модель для использования продукций (правил вывода). Недостатки: очень большие массивы данных для построения модели Недостатки: очень большие массивы данных для построения модели

Выигрыш во времени с kNN

Разработка моделей ближайших соседей. Создание модели. Создание модели. –Что означает близость с точки зрения вычислений? –Необходимо ли масштабировать переменные для достижения эффекта? –Как обрабатывать результаты отбора? –Доверительная функция.

Разработка моделей ближайших соседей. Условная вероятность используется для калькуляции весов; Условная вероятность используется для калькуляции весов; Оптимизация процесса может быть механизирована. Оптимизация процесса может быть механизирована.

Пример модели ближайших соседей Веса: Веса: –Возраст: 1.0 –Доля: 0,2 –Расстояние = –Мажоритарная выборка: 3 из 5 ближайших соседей (k = 5) –Доверительный интервал = D(v)/D(v')

(Предварение) Нейронные сети (Предварение) Нейронные сети Очень отдаленно эти сети основаны на биологии Очень отдаленно эти сети основаны на биологии Входы преобразуются посредством сети простых процессов Входы преобразуются посредством сети простых процессов Процесс комбинирует (взвешивает) входы и преобразует их в конечные величины Процесс комбинирует (взвешивает) входы и преобразует их в конечные величины Резонный вопрос: Какую функцию трансформации вы используете, и как определяются веса? Резонный вопрос: Какую функцию трансформации вы используете, и как определяются веса?

Функциональность процесса, определяющего сеть Линейная комбинация входов Линейная комбинация входов Простая линейная регрессия. Простая линейная регрессия.

Функциональность процесса, определяющего сеть логическая функция линейной комбинации входов логическая функция линейной комбинации входов логическая регрессия. логическая регрессия. классический «персептрон» классический «персептрон»

Многослойные нейронные сети «Полностью соединенные» сети -> Скрытый слой -> Выходной уровень «Полностью соединенные» сети -> Скрытый слой -> Выходной уровень –нелинейная регрессия. Регулировка весов в многослойной нейронной сети Регулировка весов в многослойной нейронной сети –обратная связь при обучении: веса регулируются очевидными ошибками на выходе и распространяются назад по сети. –Идет пересчет весов от выходов к входам.

Нейронная сеть: резюме Ключевая проблема: трудности в понимании Ключевая проблема: трудности в понимании –Модель на нейронной сети трудно понять; –Отношения между весами и переменными очень сложные Графическое взаимодействие входных переменных (ползунок) Графическое взаимодействие входных переменных (ползунок) –Не интуитивные для понимания результаты

Нейронная сеть: резюме Время на регулировку Время на регулировку –Ошибка уменьшает мощность и размер множества для регулировки –Часто требуется существенная предварительная обработка данных –Хороший FAQ: ftp://ftp.sas.com/pub/neural/FAQ.html ftp://ftp.sas.com/pub/neural/FAQ.html ftp://ftp.sas.com/pub/neural/FAQ.html

Правила логического вывода Нет необходимости в исключениях (частичного совпадения) Нет необходимости в исключениях (частичного совпадения)

Начало вывода Начинается рассмотрение с одного из правил Начинается рассмотрение с одного из правил –Если А то Б –А = Забытый платеж, то Б = Прекращение платежей по кредитной карте –Является ли комбинация измеренных вероятностей вероятность А и Б больше чем ожидалось (достигается ли независимость их вероятностей)? –Если это так, правила описываются в форме предикатов.

Правила логического вывода (продолжение) Зафиксировать все возможные комбинации переменных Зафиксировать все возможные комбинации переменных –Просчитать вероятность комбинаций –Это дорогостоящий способ –Фиксируются только правила, в которых наблюдается релевантное поведение –Быстро достигается для них предел вычислительных мощностей без адекватной аппаратной поддержки

Ограничения на ресурсы Движение в направлении большой комбинации переменных Движение в направлении большой комбинации переменных –Мощности множеств: n 3, n 4, n 5,... –Ресурсы для вычислений драматически уменьшаются, ограничивая глубину расчетов

Дерево решений Серия вложенных правил: «Если/то» Серия вложенных правил: «Если/то»

Виды деревьев вывода CHAID CHAID CART CART C4.5 C4.5

CHAID: Выделение автоматического взаимодействия хи- квадрата Выделение автоматического взаимодействия хи- квадрата –Kass (1960) –Разбиение на n-путей –Категорические (безусловные) переменные

CART: Деревья классификации и регрессии; Деревья классификации и регрессии; –Brelmarn, Friedman, Olshen и Stone (1984) –Двоичное разбиение –Непрерывные переменные

C4.5: –Quinlan (1993) –Также используется для вывода по правилам

Преимущество дерева вывода: понятность понятность

Резюме рассмотренных алгоритмов kNN kNN –Быстро и просто –Модели имеют тенденцию становиться очень большими Нейронные сети Нейронные сети –Сложности в интерпретации –Могут требовать большого количества времени на настройку

Резюме рассмотренных алгоритмов Вывод на правилах Вывод на правилах –Понятность –Необходимо ограничивать глубину вычислений. Дерево решений Дерево решений –Понятность –Относительно быстрый алгоритм –Просто переводится в SQL-запросы.

Другие технологии, используемые в датамайнинге. Поддержка векторных машин Поддержка векторных машин Баесовы (семантические) сети Баесовы (семантические) сети –простые семантические сети Генетические алгоритмы Генетические алгоритмы –Преимущественно поисковые методы, чем алгоритмы датамайнинга. И остальные И остальные

K-способ кластеризации Пользователи начинают уточнять число кластеров (K) Пользователи начинают уточнять число кластеров (K) K точек данных выделяются случайным образом K точек данных выделяются случайным образом Повторение пока нет изменений: Повторение пока нет изменений: –Генерируется гиперплоскость поиска K точек –Вычисляется K центров каждого кластера

Самоорганизующиеся карты Похожи на нейронные сети, за исключением того, что существует только один выход для каждой ветви «скрытого» слоя. Похожи на нейронные сети, за исключением того, что существует только один выход для каждой ветви «скрытого» слоя. Выходы обычно раскладываются как двумерная сетка (основанные на этой модели приложения характерны для систем компьютерного зрения) Выходы обычно раскладываются как двумерная сетка (основанные на этой модели приложения характерны для систем компьютерного зрения)

Самоорганизующиеся карты (SOM) Входы обрабатываются и «выигрышная» выходная ветвь распознается. Входы обрабатываются и «выигрышная» выходная ветвь распознается. Веса «победивших» ветвей регулируются, в соответствии с весами соседних параметров SOM обычно идентифицирует небольшие кластеры, а не выходные ветви. Веса «победивших» ветвей регулируются, в соответствии с весами соседних параметров SOM обычно идентифицирует небольшие кластеры, а не выходные ветви.

Текстовый Датамайнинг Неструктурированные данные (неформатированный текст) как вызов для технологий датамайнинга Неструктурированные данные (неформатированный текст) как вызов для технологий датамайнинга Обычное решение– внесение структуры в текстовые данные, и затем использовать стандартные технологии датамайнинга Обычное решение– внесение структуры в текстовые данные, и затем использовать стандартные технологии датамайнинга

Внесение структуры –Простейшие эвристики (например, не используемые слова) –Экспертиза доменов –Лингвистический анализ Пример: Симони, бренд-менеджер Пример: Симони, бренд-менеджер –идентифицируется документы, внешние темы, кластер

Текстовый датамайнинг Представление данных критично для разбора Представление данных критично для разбора Текст может быть скомбинирован со структурированными данными Текст может быть скомбинирован со структурированными данными Текст может быть скомбинирован с выходными данными Текст может быть скомбинирован с выходными данными

Коммерческое ПО для датамайнинга. Кто – игроки? Кто – игроки? Обзор ведущих программных приложений для датамайнинга. Обзор ведущих программных приложений для датамайнинга.

Коммерческое ПО для Датамайнинга Оно было еще недоступно последние семь или восемь лет Оно было еще недоступно последние семь или восемь лет в соответствии с данными IDC, объем рынка датамайнинга оценивается от 540 млн. долларов США в 2002 году до 1,5 млрд. долларов США в 2005 году. в соответствии с данными IDC, объем рынка датамайнинга оценивается от 540 млн. долларов США в 2002 году до 1,5 млрд. долларов США в 2005 году.

Коммерческое ПО для датамайнинга –зависит от того, что понимают под термином «датамайнинг». За вычетом того, что относилось к приложениям, которые первоначально считалось приложением для датамайнинга. За вычетом того, что относилось к приложениям, которые первоначально считалось приложением для датамайнинга. –взамен этого производители средств медленно расширяют их функциональность своих продуктов

Стандартизация. XML XML –CWM, PMML, GEML, Обработка критичных опытных данных Веб - сервисы? Веб - сервисы?

Интеграция. Между приложениями Между приложениями Между базами данных и приложениями Между базами данных и приложениями

Что происходит на рынке? Консолидация. Консолидация. Нишевые игроки испытывают трудности Нишевые игроки испытывают трудности Очень большое предложение Очень большое предложение Ограниченное число аутсорсинговых разработок Ограниченное число аутсорсинговых разработок –Digitize

Консолидация Аналитические компании расширяют существующие продуктовые линейки. Аналитические компании расширяют существующие продуктовые линейки. –SPSS купила ISL, NetGenesis Аналитические компании расширяют свои продуктовые ниши Аналитические компании расширяют свои продуктовые ниши –SAB купила Intrinsic Промышленные программные вендоры покупают аналитические компании Промышленные программные вендоры покупают аналитические компании –Oracle приобрела Thinking Machines –NCR приобрела Ceres

Ведущие на сегодня вендоры: SAS SAS –Тяжеловес на пространстве датамайнинга SPSS SPSS Insightful (Образована из Mathsoft/S-Plus) Insightful (Образована из Mathsoft/S-Plus) Oracle Oracle –Интегрирует датамайнинг в свою СУБД

Ведущие на сегодня вендоры: Angoss Angoss –Одно из первых приложений для датамайнинга (выступающее «в оппозиции» утилитам) IBM IBM –Лидер разработок, с трудом пытающаяся преобразовать свои разработки в программные продукты;

Ведущие на сегодня вендоры: HNC HNC –Очень специфичные аналитические решения. Unica Unica –Высочайшие технологии обработки данных, в настоящее время менее фокусированные на аналитике.

Стандарты: Разделяемые модели между приложениями. Разделяемые модели между приложениями. Язык разметки предикатных моделей (PMML) Язык разметки предикатных моделей (PMML) –The Data Mining Group ( –Основан на XML (DTD)

Java Data Mining API спецификация (JSR ) спецификация (JSR ) Oracle, Sun, IBM,... Oracle, Sun, IBM,... Поддерживает API для датамайнинга на платформе J2EE Поддерживает API для датамайнинга на платформе J2EE Создание, управление и оценка моделей программными средствами Создание, управление и оценка моделей программными средствами

OLE DB для датамайнинга Microsoft Microsoft В основе продукта – таблицы В основе продукта – таблицы включает в себя PMML включает в себя PMML Это позволяет на основе более чем одному XML стандарта создавать приложения, работающие совместно, и использовать их пользователями более продуктивно Это позволяет на основе более чем одному XML стандарта создавать приложения, работающие совместно, и использовать их пользователями более продуктивно

Помещение в базы данных Oracle 9i Oracle 9i –Команда разработчиков Darwin работает для DB group, а не создает приложения для датамайнинга. Microsoft SQL Server Microsoft SQL Server IBM Intelligent Miner V7R1 IBM Intelligent Miner V7R1 NCR Teraminer NCR Teraminer

Преимущества: Минимизация перемещений (перекодировок) данных Минимизация перемещений (перекодировок) данных Не останавливаемые продажи Не останавливаемые продажи

Недостатки Ограничивает поддержку аналитики вендорами Ограничивает поддержку аналитики вендорами Другие приложения могут не получить доступ к особым функциям обработки данных Другие приложения могут не получить доступ к особым функциям обработки данных Данные преобразуются в процессе обновления СУБД Данные преобразуются в процессе обновления СУБД –ETL важная часть управления данными

SAS Enterprise Miner Лидер на рынке аналитического программного обеспечения. Лидер на рынке аналитического программного обеспечения. –Большая рыночная доля (70% рынка статистических приложений) –30000 пользователей –двадцатипятилетний опыт

SAS Enterprise Miner Графическая оболочка поддерживает SEMMA процессы. Графическая оболочка поддерживает SEMMA процессы. –Управление документооборотом Полная поддержка технологий датамайнинга Полная поддержка технологий датамайнинга

Возможности Enterprise Miner Регрессионные модели; Регрессионные модели; kNN (классификация ближайших соседей); kNN (классификация ближайших соседей); Нейронные сети; Нейронные сети; Деревья решений; Деревья решений; Карты организации; Карты организации; Обработка текста (Text Mining) Обработка текста (Text Mining) Образцы; Образцы; Другие фильтры; Другие фильтры; Оценка результатов Оценка результатов

Angoss Knowledge STUDIO Удобство в пользовании и понимании Удобство в пользовании и понимании Результаты процессов датамайнинга часто трудны для понимания; Результаты процессов датамайнинга часто трудны для понимания;

Angoss Knowledge STUDIO Графическое взаимодействие между данными и результатами Графическое взаимодействие между данными и результатами –Разрешает пользователю задавать вопросы (до и после формирования результата) –Позволяет пользователю «продвигаться» через данные –Выявление в данных несколько уровней детализаций, от широкого обзора до детальной структуры. Создает доверие к результатам Создает доверие к результатам

Представление и Понимание Визуализация данных: больше, чем делать приятное для глаз. Визуализация данных: больше, чем делать приятное для глаз. Построение доверия к аналитическим результатам Построение доверия к аналитическим результатам

Пользователям необходимо сравнение результатов Множество моделей – какая из них наилучшая? Множество моделей – какая из них наилучшая?

Визуализация Визуализация может помочь определить проблемные данные Визуализация может помочь определить проблемные данные Визуализация поможет «интуитивно» проникнуть в суть явлений Визуализация поможет «интуитивно» проникнуть в суть явлений

Визуализация может показать зависимости «Сетевая карта» (Граф) «Сетевая карта» (Граф) –корреляция между узлами сети, представленных ссылками (звеньями) –ширина звена показывает «корреляционный» вес данной связи –с самого начала приучать себя к борьбе с организационной неразберихой

Книги Эдварда Тафта Визуализация количественной информации (The Visual Display of Quantitative Information) (1983) Визуализация количественной информации (The Visual Display of Quantitative Information) (1983) Рисование в своем воображении информацию (Envisioning Information)(1993) Рисование в своем воображении информацию (Envisioning Information)(1993) Визуальное объяснение (Visual Explanations)(1997) Визуальное объяснение (Visual Explanations)(1997)

Основная идея книг Основная мысль: «Как точно представить информацию для всеобщего обозрения, так чтобы все поняли то, что Вы хотели сказать?» Основная мысль: «Как точно представить информацию для всеобщего обозрения, так чтобы все поняли то, что Вы хотели сказать?»

Простое кратное число Когерентно представляет большое количество информации в малом пространстве Когерентно представляет большое количество информации в малом пространстве Поощряйте глаза делать сравнения. Поощряйте глаза делать сравнения.

OLAP Анализ

Микро/Макро объекты показывайте объект одновременно в нескольких масштабах показывайте объект одновременно в нескольких масштабах

Inxight: Табличные линзы

Спасибо! Если Вы имеете какие-либо вопросы, я могу связаться с Вами по: Если Вы имеете какие-либо вопросы, я могу связаться с Вами по: или или

Перевод По вопросам, касающегося качества перевода, можно связаться по По вопросам, касающегося качества перевода, можно связаться по ru Другие работы автора перевода, (по сбору данных для исследований методами датамайнинга) смотри на сайте: clerk.narod.ru/DATAMAINING/. Другие работы автора перевода, (по сбору данных для исследований методами датамайнинга) смотри на сайте: clerk.narod.ru/DATAMAINING/. clerk.narod.ru/DATAMAINING/ clerk.narod.ru/DATAMAINING/ Искренне Ваш, Искренне Ваш, –Юрий А. Денисов