(c) Ю.П. АДЛЕР, МИСИС, 2004 DATA MINING. (c) Ю.П. АДЛЕР, МИСИС, 2004 «РАСКОПКИ В ДАННЫХ»

Презентация:



Advertisements
Похожие презентации
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Advertisements

Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Предсказательная сила законов классической механики. 10 класс.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. СТАТИСТИЧЕСКАЯ ОЦЕНКА.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
СТАТИСТИЧЕСКИЕ ИГРЫ Выполнили: Петрук К. Черняк А. Чикиш Ю.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Презентация к уроку по алгебре (10 класс) на тему: Презентация. Применение математической статистики в школе.
Случайные и систематические погрешности при измерениях и расчетах.
Математическая статистика Случайные величины. Случайной называется величина, которая в результате испытания может принять то или иное возможное значение,
Лекция 7 Формализация и измерение исторических явлений. Продолжение. Ошибки и погрешности измерения исторических явлений.
Лекция 2.1 Линейная регрессионная модель для случая одной объясняющей переменной. Метод наименьших квадратов (МНК)
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Доверительный интервал и доверительная вероятность.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Транксрипт:

(c) Ю.П. АДЛЕР, МИСИС, 2004 DATA MINING

(c) Ю.П. АДЛЕР, МИСИС, 2004 «РАСКОПКИ В ДАННЫХ»

(c) Ю.П. АДЛЕР, МИСИС, 2004 ЭПИГРАФ «Во всем мне хочется дойти До самой сути. В работе, в поисках пути, В сердечной смуте. До сущности протекших дней, До их причины, До оснований, до корней, До сердцевины.» Б.Л. Пастернак

(c) Ю.П. АДЛЕР, МИСИС, 2004 Как же это называть? 1. Анализ данных. 2. Интеллектуальный анализ данных 3. Дейта майнинг. 4. Раскопки в данных 5. Список открыт…

(c) Ю.П. АДЛЕР, МИСИС, 2004 КОМУ, КОГДА И ЗАЧЕМ? Кому? 1. Всем, кто имеет дело с большими массивами данных. 2. Тем, для кого работа с данными – профессия. 3. Тем, для кого последствия ошибок в анализе ведут к огромным потерям или даже к трагедиям.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Кому, когда и зачем? Когда? 1. Затраты на «раскопки» не превышают ожидаемых выгод. 2. Нет другого выхода. 3. «Раскопки» – это увлекательная игра с данными, ценная сама по себе.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Кому, когда и зачем? Зачем? 1.Чтобы минимизировать риски, связанные с ошибочными решениями. 2. Чтобы обеспечить профессиональный уровень решений. 3. Чтобы получить удовольствие.

(c) Ю.П. АДЛЕР, МИСИС, 2004 История метода Джон Тьюки – выдающийся статистик ХХ-го века год – первая публикация «Будущее анализа данных»: Tukey J.W. The Future of Data Analysis//Ann. Math. Stat. – – vol # 1. – P

(c) Ю.П. АДЛЕР, МИСИС, 2004 Анализ данных по Тьюки Реализм и системность Непрерывность и шаговый принцип Неопределенность и размытость Неоднозначность предпосылок и ответов Неформализуемость и моделирование

(c) Ю.П. АДЛЕР, МИСИС, 2004 Анализ – форма жизни данных От «расшатывания основ» статистики, до аналитических и логических методов. В поисках истины все пути хороши.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Источники и составные части Источники Статистика. Исследование операций. Системный анализ (Теория систем). Кибернетика. Теория решений.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Источники и составные части Составные части 1. Программные комплексы. 2. Базы данных. 3. Компьютерные системы. 4. Механизмы постановки задач, их решения, принятия решений и их реализации.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Пойди туда, не знаю куда … Алгоритмически неразрешимые задачи. Некорректно поставленные задачи. Не сформулированные задачи. Неопределенные задачи. Вот чем мы собираемся заниматься!

(c) Ю.П. АДЛЕР, МИСИС, 2004 …найди то, не знаю что ЦЕЛЬ – Поиск неожиданных ярких гипотез, блестящих находок, незапланированных открытий, глубоких аналогий.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Модели явлений Иерархия уровней априорной информации: «Белый ящик». «Серые ящики» «Черный ящик». Модель как гипотеза.

(c) Ю.П. АДЛЕР, МИСИС, 2004 ящики 1. у = 5 + 2х «белый ящик» 2. у = а + вх «начало посерения» 3. у = а + вх или у = а + вх + сх 2 – нужно выбрать 4. у = φ(х) «серым-серо» 5. у = ? «черный ящик» Модели объектов

(c) Ю.П. АДЛЕР, МИСИС, 2004 Модели данных Предпосылки Три пути: Знать, Верить, Проверять.

(c) Ю.П. АДЛЕР, МИСИС, 2004 «я знаю, что я ничего не знаю» Удобная вещь – аксиома! Сформулировал – и пользуйся. Доказывать ничего не надо. Откуда же берутся аксиомы?

(c) Ю.П. АДЛЕР, МИСИС, 2004 «верую, ибо абсурдно» Гаусс полагал, что нормальный закон распределения – это обобщение практического опыта. Исследователи же считали, что Гаусс доказал, что именно такое распределение должно реализоваться на практике.

(c) Ю.П. АДЛЕР, МИСИС, 2004 «доверяй, но проверяй» Легко сказать! Да где деньги взять? А время? … И все-таки…

(c) Ю.П. АДЛЕР, МИСИС, 2004 Виды моделей данных Детерминированные модели И Стохастические модели

(c) Ю.П. АДЛЕР, МИСИС, 2004 Детерминированные модели «Мрак от науки природу скрывал, Бог создал Ньютона - свет воссиял» (А. Поп, цитируется по книге Р. Беллмана «Процессы регулирования с адаптацией», М.: Наука, – С. 205.)

(c) Ю.П. АДЛЕР, МИСИС, 2004 Еще о детерминизме Законы Природы. Например: Законы механики Ньютона, Законы электродинамики Максвелла, Законы термодинамики Гиббса, И т.д.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Стохастические модели «Но хитрый Черт воскликнул как-то раз: «Приди Эйнштейн!» - и снова свет погас.» (Дж. Скуайр, источник тот же)

(c) Ю.П. АДЛЕР, МИСИС, 2004 Стохастика продолжается «И чтобы ученых запутать вконец, Кванты придумали Черт и Творец.» (Р. Беллман, там же.) Переводы во всех случаях А. Дмоховского

(c) Ю.П. АДЛЕР, МИСИС, 2004 парадигмы ВСЕ ДЕТЕРМИНИРОВАННО – случайность – признак незнания. МОДЕЛЬ ДЕТЕРМИНИРОВАНА – константы – случайные величины. ВСЕ СЛУЧАЙНО –модель – соломинка, держась за которую, надеемся спастись.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Источники данных Наблюдение Эксперимент Знание эксперта Теория

(c) Ю.П. АДЛЕР, МИСИС, 2004 Формы хранения данных Наскальные рисунки Устное предание Книга Таблица База данных База знаний Экспертная система

(c) Ю.П. АДЛЕР, МИСИС, 2004 Виды данных Рисунок Мелодия Текст Числа Комбинации

(c) Ю.П. АДЛЕР, МИСИС, 2004 Характеристики данных Полнота Точность Правильность Воспроизводимость Избыточность Метрологические характеристики

(c) Ю.П. АДЛЕР, МИСИС, 2004 полнота «Если в системе не хватает сведений о некоторых комбинациях неизвестных, то никакие магические заклинания не могут их вызвать.» К. Ланцош Практические методы прикладного анализа. – М., 1961

(c) Ю.П. АДЛЕР, МИСИС, 2004 Метрология – «царица» данных Шкалы Шкала номиналов Шкала порядка Шкала отношений Абсолютная шкала Арифметика шкал

(c) Ю.П. АДЛЕР, МИСИС, 2004 Снова метрология Точность – мера вариабельности данных при фиксированных условиях. Правильность – способность нацеливаться на «истинное»значение. Воспроизводимость – способность сохранять точность во времени и пространстве.

(c) Ю.П. АДЛЕР, МИСИС, 2004 избыточность Бывают данные «болтливы»: говорят много, а толку – мало. Свертка данных – задача математической статистики. Что есть данные?

(c) Ю.П. АДЛЕР, МИСИС, 2004 Так что же такое «данные»? Примем такие определения. 1. Данные – исходный материал, которым мы располагаем, или собираемся располагать. 2. Информация – результат первичной обработки данных. 3. Знания – интерпретированная информация в контексте принятия решений.

(c) Ю.П. АДЛЕР, МИСИС, 2004 «знание - сила» «В значительной степени капитал состоит из знания и организации…Знание – один из самых мощных двигателей производства…организация помогает знанию». Альфред Маршалл

(c) Ю.П. АДЛЕР, МИСИС, 2004 Что есть знания? «Знание – динамичный субъективный процесс проверки соответствия личного мнения истине». Нонака и Такеути «Мы знаем больше, чем можем сказать». М. Полани

(c) Ю.П. АДЛЕР, МИСИС, 2004 «Ремонт» данных 1 Формальные методы восстановления пропущенных данных. 2. Содержательные методы. Пример: «Методы сравнительного расчета физико-химических величин»

(c) Ю.П. АДЛЕР, МИСИС, 2004 Формальные методы 1. Интерполяция (обычно линейная) 2. Экстраполяция 3. Экспертный прогноз 4. Комбинирование данных из разных источников.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Интерполяция Замена неизвестной или известной, но сложной, функции более простой в ограниченной области. Пример: линейная интерполяция логарифмической функции в таблицах Брадиса.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Сплайны Кусочная интерполяция

(c) Ю.П. АДЛЕР, МИСИС, 2004 экстраполяция Продолжение известной функции за область, в которой она определена во времени или в пространстве.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Экспертный прогноз Использование методов опроса экспертов (знатоков) для восстановления пропущенных значений в данных.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Комбинирование данных из разных источников Основной метод создания справочников различных констант. Например: Справочники физических и химических констант.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Методы сравнительного расчета физико-химических величин Эти методы предложены профессором МХТИ им. Менделеева М.Х. Карапетянцом более 30 лет назад. Методы основаны на использовании теоретических знаний, заложенных в таблице Менделеева или в гомологических рядах органических веществ, для экономии числа опытов.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Что мерить? Данные возникают в результате измерений. Измерения требуют ресурсов. То, что мы хотели бы измерить, часто мы не знаем как, или просто не умеем измерять. А то, что умеем, часто кажется не интересным.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Можно ли… измерить неизвестно что? Как определить, от чего зависит коммерческий успех конкурента? Как узнать, чего стоит наш имидж? Почему одним «везет», а другим – нет?

(c) Ю.П. АДЛЕР, МИСИС, 2004 Как измерить то, чему нет меры? «нет меры пьянству русскому. А горе наше мерили? работе мера есть?» Н.А. Некрасов «Кому на Руси жить хорошо»

(c) Ю.П. АДЛЕР, МИСИС, 2004 «не мытьем, так катаньем» Коль не можем мерить прямо, ищем окольные пути. «Слезами измеренный больше, Чем верстами, шел тракт, На пригорках скрываясь из глаз…» К. Симонов «Алексею Суркову»

(c) Ю.П. АДЛЕР, МИСИС, 2004 Измерения прямые и косвенные Из предыдущего слайда следует, что когда мы не можем или не хотим мерить прямо, нам приходится искать косвенные измерители (показатели). Это – обычное дело, но опасное.

(c) Ю.П. АДЛЕР, МИСИС, 2004 «трудные» показатели Бывает, что мерить трудно, долго, дорого, в общем, не с руки, да и не по карману. И здесь ищем косвенные показатели. Что же еще можно сделать?

(c) Ю.П. АДЛЕР, МИСИС, 2004 Бестолковые показатели Есть лозунг: «Сначала меряй все, что можешь, а там разберемся!» Но лучше, все-таки, другой лозунг: «Семь раз отмерь, один раз отрежь.» Хотя и это может оказаться дороговато…

(c) Ю.П. АДЛЕР, МИСИС, 2004 Данные 1. либо уже есть, 2. либо мы только собираемся заняться их получением, 3. либо, наконец, мы собираемся сначала заняться их получением, а затем получать их на постоянной основе.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Если у вас есть данные, то главное - их не потерять. И если их очень много, то приходится применять выборочные методы.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Выборочные методы В нашем случае – это страдание от избытка. Теория выборочного метода рассматривает огромное число различных вариантов построения выборок. Для обеспечения представительности выборки важно, чтобы отбор был случайным

(c) Ю.П. АДЛЕР, МИСИС, 2004 Рандомизация – механизм обеспечения случайности выбора Рандомизация – инструмент, опирающийся на таблицы или генераторы случайных чисел.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Объем выборки Объем выборки – функция экономики и стратегии исследования.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Преобразования данных Исходные данные могут подвергаться, и часто подвергаются, разнообразным преобразованиям. Преобразования – одна из центральных тем раскопок в данных. Мы будем возвращаться к ней постоянно.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Регрессионный анализ – основа основ раскопок в данных Регрессионный анализ - первый и самый важный фундаментальный метод, который мы рассматриваем. Он сочетает метод наименьших квадратов (МНК) и определенную модель данных. Начнем с простейшего случая

(c) Ю.П. АДЛЕР, МИСИС, 2004 Модель объекта – «черный ящик» Х- стрелка, входящая в ящик У- стрелка, выходящая из ящика У как-то зависит от х.

(c) Ю.П. АДЛЕР, МИСИС, 2004 С чего начать? Поскольку зависимость нам не известна, начнем с самой простой модели объекта, какая только может прийти в голову, а именно, с линейной модели у = а + вх.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Регрессионная модель Теперь нам нужна модель данных. В случае регрессионного анализа эта модель такова: 1. у – случайная величина с нормальным законом распределения (отклик).

(c) Ю.П. АДЛЕР, МИСИС, 2004 Модель регрессии (продолжение) 2. х – детерминированная переменная (фактор). Она принимает абсолютно точные безошибочные значения. 3. величина х непрерывна по крайней мере в диапазоне от минимального до максимального наблюдаемых значений.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Продолжение 4. Дисперсия, характеризующая ошибку в измерении случайной величины у постоянна во всем диапазоне измерений. 5. Отклики заданы в непрерывных шкалах и не коррелированны. 6. Все данные для проведения анализа уже собраны.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Случайные величины Первый постулат регрессионной модели: у – случайная величина с нормальным законом распределения. Случайная величина – это такая переменная, конкретные значения которой нельзя предсказать заранее с абсолютной точностью. Можно говорить лишь о вероятности ее появления в том или ином диапазоне значений.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Нормальный закон Или распределение Гаусса:

(c) Ю.П. АДЛЕР, МИСИС, 2004 А что, если закон не нормальный? Да все равно какой, лишь бы известный. Распад изотопа, например, подчиняется закону Пуассона, а руда в шаровой мельнице имеет распределение частиц по размерам, описываемое логнормальным распределением.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Метод максимума правдоподобия Когда закон известен – регрессионный анализ превращается, при прочих постулатах, в метод максимума правдоподобия. Выходит, что классический регрессионный анализ – это частный случай ммп при нормальном законе.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Борьба с предпосылками Если мы не знаем, не можем узнать, или не хотим знать закон распределения у, но верим, что вообще-то какой-то закон распределения есть, то мы оказываемся в области непараметрических методов.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Что хорошо и что плохо в непараметрических методах? Хорошо, что не надо высасывать из пальца закон распределения. Плохо, что неопределенность, связанная с результатом анализа, будет больше, чем в параметрических методах, то есть при известном законе.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Байес Жил-был почти 300 лет назад в Англии монах по фамилии Байес. Человек был образованный, на досуге разводил кроликов – известное дело, прибыльное. Но имел странное хобби – любил заниматься теорией вероятностей и однажды придумал формулу условных вероятностей.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Байесовский анализ Потомки назвали эту формулу его именем. Поэтому теперь мы можем воспользоваться придуманным им подходом в своих целях. Можно сначала не утверждать о наличии известного закона, а выдвинуть гипотезу о его возможном виде.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Жизнь покажет… Тогда можно накапливать информацию, которую можно использовать не только для построения модели объекта, но и для проверки гипотезы о виде модели данных.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Робастный подход Есть и другая идея. Иногда можно утверждать, что распределение у принадлежит некоторому классу распределений. Тогда можно искать решения, наилучшим образом согласующиеся с этим классом.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Предложение Дж. Бокса Тот самый Бокс, создавший метод крутого восхождения в планировании эксперимента, предложил называть такие оценки робастными.

(c) Ю.П. АДЛЕР, МИСИС, 2004 Непрерывность против дискретности Случайная величина у может иметь и дискретную область определения. Если дискретных значений всего два, то мы имеем дело с моделью

(c) Ю.П. АДЛЕР, МИСИС, 2004 Дискриминантного анализа Он входит в широкий класс методов, часто называемых методами «распознавания образов»

(c) Ю.П. АДЛЕР, МИСИС, 2004