Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемВалентина Таловерова
1 Анализ данных: Введение Юля Киселёва Школа анализа данных
2 Требования Коллоквиум (20%) Применение теоретических знаний на практике: – анализа данных по теме проекта (25%) – подробный рассказ по статье или реализация прототипа, описанного в статье (15%) Финальный экзамен (40%) Введение в анализ данных 3
3 Программа курса(1) Крупномасштабные файловые системы и Map Reduce. Нахождение похожих объектов. Использование задачи для поиска ближайших соседей. Метрики расстояний. Locality-Sensitive Functions. Mining Data Streams. Ссылочное ранжирование. Page Rank. Частотные объекты. Анализ «потребительской корзины». A-Priori Algorithm Введение в анализ данных 4
4 Кластеризация. Иерархическая кластеризация. Кластеризация. K-Means Basics. The CURE Algorithm. Spam detection Реклама в интернете. Задачи интернет-рекламы. Система рекомендаций. Модели системы рекомендаций. Collaborative Filtering. Программа курса(2) Введение в анализ данных 5
5 Зачем нужен анализ данных (data mining)? Индустрия Много данных, которые были собраны: – Веб-данные, электронная коммерция – Покупки в магазинах – Банки/кредитные карты (транзакции) Компьютеры дешевые и «могущественные» Конкуренция – Нужно лучше понимать данные для принятия решения Введение в анализ данных 6
6 Данные коллекционируются и сохраняются в больших количествах (GB/hour) – Телескопы, сканирующие небесное пространство – Научная эмуляция производит терабайты данных Медицинские данные Анализ данных помогает: – классификации данных – кластеризации данных – формулировании гипотезы Зачем нужен анализа данных? Наука Введение в анализ данных 7
7 Существуют «скрытые» знания в данных Анализ, проведенный человеком, может занять недели-месяцы-годы Большинство данных вообще не анализируется Анализ больших объемов данных: Мотивация Попытки анализа данных Введение в анализ данных 8
8 Много определений Нетривиальное извлечение «скрытых» ранее неизвестных и полезных знаний из данных Анализ больших объемов данных, использующий автоматические или полуавтоматические методы, с целью определить значимые паттерны Введение в анализ данных 9 Что такое анализ данных?
9 Процесс автоматического или полуавтоматического анализа больших объемов данных, чтобы найти паттерны, которые: Валидны: эксперименты можно повторить на новых данных с похожим результатом Новые: не являются очевидными в рамках системы Полезные: полученные знания можно применить для улучшения работы Понятные: человек может интерпретировать полученный паттерн Введение в анализ данных 10 Анализ данных
10 Одним из самых больших рисков анализа данных является тот факт, что результаты могут не иметь смысла Bonferronis principle: если вы рассмотрите больше интересных моделей, чем потенциально содержат ваши данные, то вы получите чепуху Введение в анализ данных 11 Непонятные ответы
11 Парапсихологи в 1950-х выдвинули гипотезу, что некоторые люди обладают экстра-ординарными способностями (ЭОС) Они провели эксперимент, в котором участники должны были угадать 10 скрытых карт – красные или синие Они обнаружили, что 1 из 1000 участников обладают ЭОС – они были способны угадать все 10 скрытых карт правильно Введение в анализ данных 12 Rhine Paradox (1)
12 Далее они рассказали этим людям, что они они обладают ЭОС и попросили их пройти другой тест Но следующий эксперимент показал, что эти люди потеряли ЭОС Какой вывод они сделали? Группа парапсихологов решили, что не стоит говорить людям, что они обладают ЭОС; иначе они потеряют их Введение в анализ данных 13 Rhine Paradox (2)
13 Банки: разрешения на кредит: – Предсказывать «хороших» клиентов, базируясь на истории старых клиентов Targeting Marketing: – Предсказание реакции на ту или иную рекламу Fraud detection (определение мошенничество): – Телекоммуникации – Финансы – Отзывы на товары и продукты Введение в анализ данных 14 Возможные приложения (1)
14 Медицина: оценка эффективности лечения – Анализ истории болезни пациента – Нахождения зависимости между болезнями Молекулярная: – Новые медикаменты Научные исследования: – Нахождение новых галактик! Анализ Веб данных Введение в анализ данных 15 Возможные приложения (2)
15 АД – это пересечение машинного обучения, статистики, искусственного интеллекта, баз данных, визуализации: * масштабируемость * алгоритмы * неоднородные данные Введение в анализ данных 16 Откуда пришел анализ данных Статистика Машинное обучение Базы данных Анализ данных
16 Предсказательные методы: используя, существующие переменные, предсказать не неизвестные или будущие значения других переменных Описательные методы: Нахождение паттернов, понятных человеку, которые описывают данные Введение в анализ данных 17 Задачи анализа данных
17 Классификация Кластеризация Ассоциативные правила Определение аномалий Введение в анализ данных 18 Задачи, которые могут решаться в процессе анализа данных
18 Введение в анализ данных 19 Пример кластеризации
19 Введение в анализ данных 20 Классификация галактик Ранняя Средняя Поздняя Атрибуты: Признаки картинки Характеристики световых волн Классы: Стадия формирования
20 По предоставленной базе данных пользовательских предпочтений, определить «вкусы» новых пользователей Пример: – Определить фильмы, которые потенциально могут быть интересны пользователю – Предсказать, СD/книги интересные пользователю Введение в анализ данных 21 Collaborative Filtering
21 Определение значительных отклонений от нормального поведения Приложения: – Мошенничество с кредитными картами – Атака сети Введение в анализ данных 22 Определение аномалий
22 Супермаркет (customer basket): – Цель: Найти продукты, которые покупаются вместе большим количеством покупателей – Способ: Проанализировать цепочку, которую покупает пользователь и найти зависимость – Классическое правило: Если пользователь покупает подгузник и молоко, затем он покупает пиво Таким образом не удивляйтесь тому, что (в американских) магазинах пиво расположено недалеко от подгузников Введение в анализ данных 23 Ассоциативные правила
23 Масштабируемость Размерность Сложные и неоднородные данные Качество данных Privacy Preservation Введение в анализ данных 24 Сложности анализа данных
24 Введение в анализ данных Формулировка задачи 2. Выбор алгоритма для анализа и методов оценки 3. Выбор обучающего и тестового множества 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод Введение в анализ данных 25 Построение эксперимента
25 1. Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа (рассмотрели) и методов оценки 3. Выбор обучающего и тестового множества 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод (рассмотрели) Введение в анализ данных 26 Построение эксперимента
26 Обучающее множество: на чем обучаемся Для каких рассмотренных методов АД это особенно актуально? Какие свойствами должно обладать обучающее множество? Тестовое множество: на основе чего проверяем полученный результат Какие свойствами должно обладать тестовое множество? Важно: Данные всегда нужно смотреть глазами Введение в анализ данных 27 Выбор обучающего и тестового множеств
27 В медицине: – Данные очень дорогие Для задач Информационного поиска есть готовые тестовые коллекции (английский – TREC, русский - РОМИП) Для анализа поисковых запросов есть открытие логи: – Проблема: последний лог отрыт в 2005 году Часто нужно составлять для каждой отдельной задачи вручную: – Amazon Mechanical Turk – Важно: достоверность Введение в анализ данных 28 Выбор тестового множества
28 Введение в анализ данных 29 Amazon Mechanical Turk
29 Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки(рассмотрели) 3. Выбор обучающего и тестового множества(рассмотрели) 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод (рассмотрели) Введение в анализ данных 30 Построение эксперимента
30 Что такое признаки? Признаки – это индивидуальная характеристика объекта Зависит от данных: – Картинки (цвет, текстура) – Текст (n-grams, контекст) Важно: во время остановиться Введение в анализ данных 31 Выбор признаков (Feature selection)
31 Введение в анализ данных Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки (рассмотрели) 1. Выбор обучающего и тестового множества(рассмотрели) 2. Feature selection (Выбор признаков) (рассмотрели) 3. Оценка полученных результатов 4. Вывод (рассмотрели) Введение в анализ данных 32 Построение эксперимента
32 Этот метод работает «хорошо» Этот метод работает «плохо» Оценка должна быть численной: – Нужно сравниваться с конкурентами – При внесении изменений в метод понимать, как это влияет на результат Введение в анализ данных 33 Зачем нужна оценка Это хорошая оценка?
33 Введение в анализ данных Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки и методов оценки (рассмотрели) 3. Выбор обучающего и тестового множества(рассмотрели) 4. Feature selection (Выбор признаков) (рассмотрели) 5. Оценка полученных результатов (рассмотрели) 6. Вывод (рассмотрели) Введение в анализ данных 34 Построение эксперимента
34 Рассмотрели требования к курсу Познакомились с программой курса Рассмотрели, что такое data mining (анализ данных) Рассмотрели задачи анализа данных Познакомились и запомнили схему построения эксперимента Введение в анализ данных 35 Резюме
35 Контакты Мой мейл Введение в анализ данных 36
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.