Интеллектуальный анализ данных Data Mining. Добыча данных - Data Mining Data Mining - исследование и обнаружение " машиной " ( алгоритмами, средствами.

Презентация:



Advertisements
Похожие презентации
Какие группы (например по демографическому признаку, или по уровню доходов, или по социальному статусу) более чувствительны к изменению.
Advertisements

Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Data Mining – инструмент оптимизации работы с клиентами.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Тема: «Архитектура и основные составные части интеллектуальных Систем»
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Модели представления знаний. 1. Логические; 2. Продукционные; 3. Представление знаний на основе фреймов; 4. Представление знаний на основе семанти- ческих.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
StatSoft Russia. Основные идеи нейросетевых методов анализа Простота и однородность отдельных элементов - «нейронов» Все основные свойства сети определяются.
Основы построения телекоммуникационных систем и сетей Лекция 16 «Методы оценки надежности» профессор Соколов Н.А.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Системный подход в управлении в таможенном деле Выполнил студент Арутюнян Гр.312.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Математическое обеспечение. Содержание Назначение, состав и структура МО. Формализация и моделирование. Модели и алгоритмы обработки информации. Характеристика.
BIG DATA Революция в области хранения и обработки данных Выполнили студенты Кибец Юлия Усатов Константин.
Моделирование и исследование мехатронных систем Курс лекций.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
Глава 4 Базовые информационные процессы, их характеристика и модели. Информационные технологии основаны на реализации информационных процессов, разнообразие.
Транксрипт:

Интеллектуальный анализ данных Data Mining

Добыча данных - Data Mining Data Mining - исследование и обнаружение " машиной " ( алгоритмами, средствами искусственного интеллекта ) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. 3 нания должны быть новые, ранее неизвестные. Знания должны быть нетривиальны. Знания должны быть практически полезны. Знания должны быть доступны для понимания человеку.

Задачи Data Mining Задача классификации сводится к определению класса объекта по его xa рактеристикам. Множество классов известно заранее. Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого параметра из множества действительных чисел. При поиске ассоциативных правил целью является нахождение частых зависимостей ( или ассоциаций ) Задача кластеризации заключается в поиске независимых групп ( кластеров ) и их характеристик во всем множестве анализируемых данных.

Описательные и предсказательные задачи Описательные (descriptive) задачи уделяют внимание улучшению понимания анализируемых данных. К такому виду задач относятся кластеризация и поиск ассоциативных правил Решение предсказатедьных (predictive) задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

Supervised и unsupervised learnig В случае supervised learning задача анализа данных решается в несколько этапов. Сначала строится модель анализируемых данных - классификатор. Затем классификатор подвергается обучению. Другими словами, проверяется качество e г o работы, и, если оно неудовлетворительное, происходит дополнительное обучение классификатора. Так продолжается до тех пор, пока не будет достигнут требуемый уровень качества или не станет ясно, что выбранный алгоритм не работает корректно с данными, либо же сами данные не имеют структуры, которую можно выявить. К этому типу задач относят задачи кл a ссификации и регрессии. Unsupervised learning объединяет задачи, выявляющие описательные модели. Например закономерности в покупках, совершаемых клиентами большого магазина. Достоинством таких задач является возможность их решения без каких либо предварительных знаний. об анализируемых данных. К этим задачам относятся кл a стеризация и поиск ассоциативных правил.

Задача классификации и регрессии Требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Клиент банка : « кредитоспособен » и « некредитоспособен ». Фильтр электронной почты : « спам », « не спам » Распознавание цифр : от 0 до 9. В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Задача кл a ссификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных.

Задача классификации и регрессии На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования : количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем точнее будет построенная на ее основе функция классификации или регрессии ; в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии ; для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии выборка должна содержать дост a точное количество объектов. На втором этапе построенную модель применяют к анализируемым объектам ( к объектам с неопределенным значением зависимой переменной ).

Задача классификации и регрессии

Задача поиска ассоциативных правил Суть задачи заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах ( анализ рыночных корзин - Basket Analysis). При анализе этих данных интерес прежде в ce г o представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. В сфере обслуживания интерес представляет информация о том, какими услугами клиенты предпочитают пользоваться в совокупности. В медицине - анализ сочетания симптомов и болезней. Сиквенциальный анализ учитывает последовательность происходящих событий ( телекоммуникационные компании, анализ аварий ).

Задача кластеризации Задача кластеризации состоит в разделении исследуемого множества объектов на группы " похожих " объектов, называемых кластерами (cluster). Периодическая система элементов Д. И. Менделеева. Сегментация в маркетинге. Критериями сегментации являются : г eo графическое местоположение, социально - демографические характеристики, мотивы совершения покупки и т. п. На основании результатов сегментации маркетолог может определить, н a пример, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т. п.

Практическое применение Data Mining Интернет - технологии персонализация посетителей Web- сайтов поиск случаев мошенничества с кредитными картами Web Mining: Web content mining и Web usage mining Торговля анализ рыночных корзин и сиквенциональный анализ Телекоммуникации анализ доходности и риска потери клиентов защита от мошенничества, выявление категорий клиентов с похожими ст epeo типами пользования услугами и разработка привлекательных наборов цен и услуг

Практическое применение Data Mining Промышленное производство прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса. Медицина и биология построение диагностической системы исследование эффективности хирургическ o г o вмешательства Биоинформатика – изучение генов, разработка новых лекарств Банковское дело оценка кредитоспособности заемщика

Модели Data Mining Предсказательные модели модели классификации модели последовательностей Описательные модели регрессионные модели модели кластеров модели исключений итоговые модели ассоциативные модели

Предсказательные модели модели классификации описывают правила или набор правил, в соответствии с которыми можно отнести описание любого новог o объекта к одному из классов. Такие правила строятся на основании информации о существующих объектах путем разбиения их на классы ; модели последовательностей описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров. Они строятся на основании данных об изменении некоторого параметра за прошедший период времени.

Описательные модели ре r рессионные модели описывают функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме. Они описывают функциональную зависимость не только между непрерывными числовыми параметрами, но и между категориальными параметрами ; модели кластеров описывают группы ( кластеры ), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты ( наблюдения, события ) на основе данных ( свойств ), описывающих сущность объектов. Объекты внутри кластера должны быть " похожими " дру r на дру r а и отличаться от объектов, вошедших в другие кластеры. Чем сильнее " похожи " объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация ;

Описательные модели модели исключений описывают исключительные ситуации в записях ( например, отдельных пациентов ), которые резко отличаются чем либо от основного множества записей ( группы больных ). Знание исключений может быть использовано двояким образом. Возможно, эти записи представляют собой случайный сбой, например ошибки операторов, вводивших данные в компьютер. С другой стороны, отдельные исключительные записи могут представлять самостоятельный интерес для исследования, т. к. они могут указывать на некоторые редкие, но важные аномальные заболевания.

Описательные модели итоговые модели - выявление о r раничений на данные анализируемо r о массива. Например, при изучении выборки данных по пациентам не старше 30 лет, перенесшим инфаркт миокарда, обнаруживается, что все пациенты, описанные в этой выборке, либо курят более 5 пачек сигарет в день, либо имеют вес не ниже 95 Kr. Построение ито r овых моделей заключается в нахождении каких либо фактов, которые верны для всех или почти всех записей в изучаемой выборке данных, но которые достаточно редко встречались бы во всем мыслимом мно r ообразии записей ; ассоциативные модели - выявление закономерностей между связанными событиями.

Методы Data Mining Переборные алгоритмы, эвристики, статистические методы Нечеткая логика Генетические алгоритмы Нейронные сети

Нечеткая логика Неопределенность по объему отсутствующей информации у системного аналитика можно разделить на три большие группы : 1. Неизвестность. 2. Неполнота ( недостаточность, неадекватность ). 3. Недостоверность. Недостоверность бывает физической ( источником ее является внешняя среда ) и лингвистической ( возникает в результате словесного обобщения и обусловливается необходимостью описания бесконечного числа ситуаций o г pa ниченным числом слов в ограниченное время ).

Неопределенность Выделяют два вида физической неопределенности : 1. Неточность. 2. Случайность. Для обработки физических неопределенностей успешно используются методы теории вероятностей и классическая теория множеств Выделяют два вида лингвистической неопределенности : 1. Неопределенность значений слов ( многозначность, расплывчатость, неясность, нечеткость ). 2. Неоднозначность смысла фраз ( выделяют синтаксическую и семантическую ).

Нечеткая логика Для работы с лингвистической неопределенности используют нечеткую логику ( теория нечетких множеств - автор Лотфи Заде ). Заде предложил лингвистическую модель, которая использует не математические выражения, а слова, отражающие качество. Человеку в процессе управления сложными объектами свойственно оперировать понятиями и отношениями с расплывчатыми границами. Источником расплывчатости является существование классов объектов, степень принадлежности к которым величина, непрерывно изменяющаяся от полной принадлежности к нему до полной непринадлежности.

Основные особенности нечеткой логики : 1. Правила принятия решений являются условными высказываниями типа " если..., то... " и реализуются с помощью механизма ло r ического вывода. 2. Вместо одного четкого обобщенного правила нечеткая логика оперирует со множеством частных правил. 3. Правила в виде " если..., то... " позволяют решать задачи классификации в режиме диалога с оператором, что способствует повышению качества классификатора уже в процессе эксплуатации.

Генетические алгоритмы Генетический алгоритм ( англ. genetic algorithm) это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию. Является разновидностью эволюционных вычислений, с помощью которых решаются оптимизационные задачи с использованием методов естественной эволюции, таких как наследование, мутации, отбор и кроссинговер. Отличительной особенностью генетического алгоритма является акцент на использование оператора « скрещивания », который производит операцию рекомбинации решений - кандидатов, роль которой аналогична роли скрещивания в живой природе. англ. эвристический алгоритм биологическую эволюцию эволюционных вычислений наследование мутации отбор кроссинговер

Нейронные сети Искусственные нейронные сети ( ИНС ) математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы. математические модели биологических нейронных сетей нервных клеток мозге смоделировать ИНС представляют собой систему соединённых и взаимодействующих между собой простых процессоров ( искусственных нейронов ). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. систему процессоров искусственных нейронов сигналами Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. программируются обучаются алгоритмами обобщение

Процесс обнаружения знаний

Подготовка исходных данных выработать некий четкий набор числовых или нечисловых пара метров, характеризующих задачу, представить данные в виде таблицы, очистить данные по столбцам, очистить данные по строкам.

Средства Data Mining входящие, как неотъемлемая часть, в системы управления базами данных ; библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой ; коробочные или настольные решения (" черные ящики ").

Вопросы Что такое Data Mining ? Основные задачи Data Mining. Описательные и предсказательные задачи. S upervised learning и un supervised learning. Этапы интеллектуального анализа данных. Методы интеллектуального анализа данных.