Data Mining. Data Mining как мультидисциплинарная область.

Презентация:



Advertisements
Похожие презентации
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Advertisements

Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 10 Временные ряды в эконометрических исследованиях.
Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.
Временные ряды в эконометрических исследованиях..
Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.
Моделирование и исследование мехатронных систем Курс лекций.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
РАДИОМЕТРИЧЕСКИЕ СВОЙСТВА СНИМКОВ И ИХ КОМПЬЮТЕРНАЯ ОБРАБОТКА.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Тема 4. Модели принятия решений Концептуальные модели развития человеческого общества (организации) в целом Органическая модель предполагает, что.
ТЕМА 1. Экономико-математическое моделирование как метод познания 1.1.Модель и моделирование: основные понятия 1.2.Особенности применения метода моделирования.
АНАЛИЗ ТРЕНДОВ И ВРЕМЕННЫХ РЯДОВ. Введение Временные ряды отличаются от обычных данных об одном временном срезе в том отношении, что в случае временных.
Понятие эконометрики и эконометрических моделейO Эконометрика это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым.
ПРО- ГНОЗИ- РОВАНИЕ Маркин Сергей Менеджмент 2 КУРС.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Транксрипт:

Data Mining

Data Mining как мультидисциплинарная область

Сравнение статистики, машинного обучения и Data Mining Статистика Более, чем Data Mining, базируется на теории. Более сосредотачивается на проверке гипотез. Машинное обучение Более эвристично. Концентрируется на улучшении работы агентов обучения. Data Mining. Интеграция теории и эвристик. Сконцентрирована на едином процессе анализа данных, включает очистку данных, обучение, интеграцию и визуализацию результатов.

Понятие Data Mining Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. (Григорий Пиатецкий-Шапиро) Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур с целью достижения преимуществ в бизнесе Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов

Понятие Data Mining Data Mining – это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - выводы имеют конкретное значение, которому можно найти практическое применение.

Стадии Data Mining Свободный поиск (+валидация) Прогностическое моделирование Анализ исключений

Свободный поиск Осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются. Закономерность - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов. Свободный поиск представлен такими действиями: выявление закономерностей условной логики; выявление закономерностей ассоциативной логики; выявление трендов и колебаний.

Свободный поиск Описанные действия, в рамках стадии свободного поиска, выполняются при помощи : индукции правил условной логики (задачи классификации и кластеризации, описание в компактной форме близких или схожих групп объектов); индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация); определения трендов и колебаний (исходный этап задачи прогнозирования). Валидация закономерностей – проверка их достоверности на части данных, которые не принимали участие в формировании закономерностей.

Пример Имеется БД кадрового агентства с данными о профессии, стаже, возрасте и желаемом уровне вознаграждения. Результаты запроса аналитика: Средний желаемый уровень вознаграждения специалистов в возрасте от 25 до 35 лет равен 1200 условных единиц. Свободный поиск: Если возраст 700 условных единиц, то в 75% случаев соискатель ищет работу программиста Если возраст >35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу Если соискатель ищет руководящую работу и его стаж > 15 лет, то возраст соискателя > 35 лет в 65 % случаев.

Прогностическое моделирование Прогностическое моделирование включает такие действия: предсказание неизвестных значений; прогнозирование развития процессов. В процессе прогностического моделирования решаются: Задачи классификации. Результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений. Задачи прогнозирования. Результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной (переменных).

Сравнение свободного поиска и прогностического моделирования Свободный поиск раскрывает общие закономерности. Он по своей природе индуктивен. Закономерности, полученные на этой стадии, формируются от частного к общему. В результате мы получаем некоторое общее знание о некотором классе объектов на основании исследования отдельных представителей этого класса. Прогностическое моделирование, напротив, дедуктивно. Закономерности, полученные на этой стадии, формируются от общего к частному и единичному. Здесь мы получаем новое знание о некотором объекте или же группе объектов на основании: знания класса, к которому принадлежат исследуемые объекты; знание общего правила, действующего в пределах данного класса объектов.

Анализ исключений Действие, выполняемое на этой стадии, - выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска. Пример: Если возраст > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90 % случаев соискатель ищет руководящую работу. 10% Новое правило Ошибки исходных данных

Классификация методов Data Mining По принципу работы с исходными обучающими данными все методы Data Mining подразделяются на 2 группы: Непосредственное использование данных, или сохранение данных. Исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k- ближайшего соседа, рассуждение по аналогии. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. Один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Методы этой группы: логические методы, методы визуализации, методы кросс-табуляции, методы, основанные на уравнениях.

Классификация методов Data Mining В зависимости от подхода к обучению математических моделей: статистические методы, основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных; кибернетические методы, включающие множество разнородных математических подходов.

Статистические методы Data Mining Арсенал статистических методов Data Mining классифицирован на четыре группы методов: Дескриптивный анализ и описание исходных данных. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.). Анализ временных рядов (динамические модели и прогнозирование).

Кибернетические методы Data Mining искусственные нейронные сети (распознавание, кластеризация, прогноз); эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов); генетические алгоритмы (оптимизация); ассоциативная память (поиск аналогов, прототипов); нечеткая логика; деревья решений; системы обработки экспертных знаний

Классификация методов Data Mining По задачам Data Mining можно выделить: Методы, решающие задачи сегментации (описательные методы). Методы, решающие задачи прогнозирования. Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика (Алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс- табличной визуализации, различные методы визуализации и др.) Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных (Нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др.)

Задачи Data Mining Классификация. Обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы: ближайшего соседа; k-ближайшего соседа; байесовские сети; индукция деревьев решений; нейронные сети. Кластеризация. Классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Методы: обучение "без учителя" самоорганизующихся карт Кохонена. Ассоциация. Отыскиваются закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Методы: алгоритм Apriori.

Задачи Data Mining Последовательность или последовательная ассоциация. позволяет найти временные закономерности между транзакциями, событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Прогнозирование. На основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Определение отклонений или выбросов, анализ отклонений или выбросов. Обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. Оценивание. Предсказание непрерывных значений признака. Анализ связей - задача нахождения зависимостей в наборе данных. Визуализация. Создание графического образа анализируемых данных. Подведение итогов. Описание конкретных групп объектов из анализируемого набора данных.

Задача классификации Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства. Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.

Задача классификации Правила классификации: в каждом акте деления необходимо применять только одно основание; деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия; члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться; деление должно быть последовательным.

Задача классификации Различают: вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка; естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.

Задача классификации В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть: простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. По количеству классификационных признаков: Одномерная классификация Многомерная классификация

Пример Код клиента Возраст Доход Класс

Пример

Процесс классификации Цель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию. Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков. Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое. Обучающее множество - множество, которое включает данные, использующиеся для обучения (конструирования) модели. Тестовое множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации Процесс классификации состоит из двух этапов: Конструирование модели: описание множества предопределенных классов. Каждый пример набора данных относится к одному предопределенному классу. На этом этапе используется обучающее множество, на нем происходит конструирование модели. Полученная модель представлена классификационными правилами, деревом решений или математической формулой. Использование модели: классификация новых или неизвестных значений. Оценка правильности (точности) модели. Известные значения из тестового примера сравниваются с результатами использования полученной модели. Уровень точности - процент правильно классифицированных примеров в тестовом множестве. Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества. Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Процесс классификации Конструирование модели.

Процесс классификации Использование модели.

Методы классификации Метод линейной регрессии Метод деревьев решений Метод нейронных сетей

Точность классификации Кросс-проверка – это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.

Оценивание классификационных методов Скорость характеризует время, которое требуется на создание модели и ее использование. Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных. Интерпретируемость обеспечивает возможность понимания модели аналитиком. Свойства классификационных правил: размер дерева решений; компактность классификационных правил. Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.

Задача кластеризации Кластеризация предназначена для разбиения совокупности объектов на однородные группы Цель кластеризации - поиск существующих структур. Кластер можно охарактеризовать как группу объектов, имеющих общие свойства. Характеристиками кластера можно назвать два признака: внутренняя однородность; внешняя изолированность.

Сравнение классификации и кластеризации Характеристика КлассификацияКластеризация Контролируемость обучения Контролируемое обучение Неконтролируемое обучение Стратегия Обучение с учителем Обучение без учителя Наличие метки класса Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение Метки класса обучающего множества неизвестны Основание для классификации Новые данные классифицируются на основании обучающего множества Дано множество данных с целью установления существования классов или кластеров данных

Сравнение классификации и кластеризации

Алгоритмы кластеризации Алгоритмы, основанные на разделении данных, в т.ч. итеративные: разделение объектов на k кластеров; итеративное перераспределение объектов для улучшения кластеризации. Иерархические алгоритмы: агломерация: каждый объект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т.д. Методы, основанные на концентрации объектов: основаны на возможности соединения объектов; игнорируют шумы, нахождение кластеров произвольной формы. Грид-методы: квантование объектов в грид-структуры. Модельные методы: использование модели для нахождения кластеров, наиболее соответствующих данным.

Оценка качества кластеризации Оценка качества кластеризации может быть проведена на основе следующих процедур: ручная проверка; установление контрольных точек и проверка на полученных кластерах ; определение стабильности кластеризации путем добавления в модель новых переменных; создание и сравнение кластеров с использованием различных методов.

Задача прогнозирования Целью прогнозирования является предсказание будущих событий. Решение задачи прогнозирования сводится к решению подзадач: выбор модели прогнозирования ; анализ адекватности и точности построенного прогноза.

Сравнение задач классификации и прогнозирования Сходство: При решении обеих задач используется двухэтапный процесс построения модели на основе обучающего набора и ее использования для предсказания неизвестных значений зависимой переменной. Различие: В задаче классификации предсказывается класс зависимой переменной, а в задаче прогнозирования - числовые значения зависимой переменной, пропущенные или неизвестные (относящиеся к будущему).

Задача прогнозирования Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов. Временной ряд - последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени. Анализ временного ряда осуществляется с целью: определения природы ряда; прогнозирования будущих значений ряда.

Задача прогнозирования Задачи прогнозирования можно разделить на 2 группы: Прогнозирование односерийных рядов. Включает задачи построения прогноза одной переменной по ретроспективным данным только этой переменной, без учета влияния других переменных и факторов. Прогнозирование мультисерийных, или взаимовлияющих, рядов. Включает задачи анализа, где необходимо учитывать взаимовлияющие факторы на одну или несколько переменных.

Задача прогнозирования Основными составляющими временного ряда являются тренд и сезонная компонента. Трендом называют неслучайную функцию, которая формируется под действием общих или долговременных тенденций, влияющих на временной ряд. Сезонная составляющая временного ряда является периодически повторяющейся компонентой временного ряда. Свойство сезонности означает, что через примерно равные промежутки времени форма кривой, которая описывает поведение зависимой переменной, повторяет свои характерные очертания.

Задача прогнозирования

Отличия циклической компоненты от сезонной: Продолжительность цикла, как правило, больше, чем один сезонный период; Циклы, в отличие от сезонных периодов, не имеют определенной продолжительности.

Задача прогнозирования Перед началом прогнозирования необходимо ответить на следующие вопросы: Что нужно прогнозировать? Определяем переменные, которые будут прогнозироваться. Это может быть, например, уровень производства конкретного вида продукции в следующем квартале, прогноз суммы продажи этой продукции и т.д В каких временных элементах (параметрах)? Период прогнозирования - основная единица времени, на которую делается прогноз. Горизонт прогнозирования - это число периодов в будущем, которые покрывает прогноз. Интервал прогнозирования - частота, с которой делается новый прогноз. С какой точностью прогноза?

Задача прогнозирования Точность прогноза характеризуется ошибкой прогноза. Наиболее распространенные виды ошибок: Средняя ошибка (СО). Она вычисляется простым усреднением ошибок на каждом шаге. Недостаток этого вида ошибки - положительные и отрицательные ошибки аннулируют друг друга. Средняя абсолютная ошибка (САО). Она рассчитывается как среднее абсолютных ошибок. Если она равна нулю, то мы имеем совершенный прогноз. В сравнении со средней квадратической ошибкой, эта мера "не придает слишком большого значения" выбросам. Сумма квадратов ошибок (SSE), среднеквадратическая ошибка. Она вычисляется как сумма (или среднее) квадратов ошибок. Это наиболее часто используемая оценка точности прогноза. Относительная ошибка (ОО). Предыдущие меры использовали действительные значения ошибок. Относительная ошибка выражает качество подгонки в терминах относительных ошибок.

Задача прогнозирования Виды прогнозов Краткосрочный прогноз представляет собой прогноз на несколько шагов вперед, т.е. осуществляется построение прогноза не более чем на 3% от объема наблюдений или на 1- 3 шага вперед. Среднесрочный прогноз - это прогноз на 3-5% от объема наблюдений, но не более 7-12 шагов вперед; также под этим типом прогноза понимают прогноз на один или половину сезонного цикла. Для построения краткосрочных и среднесрочных прогнозов вполне подходят статистические методы. Долгосрочный прогноз - это прогноз более чем на 5% от объема наблюдений.

Задача визуализации Визуализация - это инструментарий, который позволяет увидеть конечный результат вычислений, организовать управление вычислительным процессом и даже вернуться назад к исходным данным, чтобы определить наиболее рациональное направление дальнейшего движения