Анализ данных: Введение Юля Киселёва Школа анализа данных.

Презентация:



Advertisements
Похожие презентации

Advertisements

Типовые расчёты Растворы
Тен Юлия Старший менеджер по работе с клиентами Где взять клиентов? Эффективные решения для интернет-магазинов.
Michael Jackson
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Юзабилити сайта: как улучшить конверсию Евгения Чернявская CSN-Софт.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Валентина Николаева Менеджер по работе с партнерами Откуда взять клиентов? Эффективные решения для интернет-магазинов.
Школьная форма Презентация для родительского собрания.
Маршрутный лист «Числа до 100» ? ? ?
Светлана Степанова Менеджер по работе с агентствами Откуда взять клиентов? Эффективные решения для бизнеса.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Алексей Иванов Агентство ISEE Marketing Анализ поведения пользователей на сайте и управление конверсией.
Технология извлечения знаний из использования Интернет.
1 Карагандинский государственный технический университет Лекция 4-1. Особенности задач оптимизации. «Разработка средств механизации для устройства «Разработка.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ УПРАВЛЕНИЯ Обработка и хранение информации.
1 Трудные случаи таблицы умножения и деления 2 Приношу свои извинения, но придётся начать заново!
Тема: ФОРМУЛЫ КОРНЕЙ КВАДРАТНЫХ УРАВНЕНИЙ Цели: повторить алгоритм решения полных квадратных уравнений, понятие и смысл дискриминанта; показать правила.
Практическое занятие МППСС -72 Правила маневрирования судов, находящихся на виду друг у друга Практическое занятие тестирование МППСС -72 Правила маневрирования.
Транксрипт:

Анализ данных: Введение Юля Киселёва Школа анализа данных

Требования Коллоквиум (20%) Применение теоретических знаний на практике: – анализа данных по теме проекта (25%) – подробный рассказ по статье или реализация прототипа, описанного в статье (15%) Финальный экзамен (40%) Введение в анализ данных 3

Программа курса(1) Крупномасштабные файловые системы и Map Reduce. Нахождение похожих объектов. Использование задачи для поиска ближайших соседей. Метрики расстояний. Locality-Sensitive Functions. Mining Data Streams. Ссылочное ранжирование. Page Rank. Частотные объекты. Анализ «потребительской корзины». A-Priori Algorithm Введение в анализ данных 4

Кластеризация. Иерархическая кластеризация. Кластеризация. K-Means Basics. The CURE Algorithm. Spam detection Реклама в интернете. Задачи интернет-рекламы. Система рекомендаций. Модели системы рекомендаций. Collaborative Filtering. Программа курса(2) Введение в анализ данных 5

Зачем нужен анализ данных (data mining)? Индустрия Много данных, которые были собраны: – Веб-данные, электронная коммерция – Покупки в магазинах – Банки/кредитные карты (транзакции) Компьютеры дешевые и «могущественные» Конкуренция – Нужно лучше понимать данные для принятия решения Введение в анализ данных 6

Данные коллекционируются и сохраняются в больших количествах (GB/hour) – Телескопы, сканирующие небесное пространство – Научная эмуляция производит терабайты данных Медицинские данные Анализ данных помогает: – классификации данных – кластеризации данных – формулировании гипотезы Зачем нужен анализа данных? Наука Введение в анализ данных 7

Существуют «скрытые» знания в данных Анализ, проведенный человеком, может занять недели-месяцы-годы Большинство данных вообще не анализируется Анализ больших объемов данных: Мотивация Попытки анализа данных Введение в анализ данных 8

Много определений Нетривиальное извлечение «скрытых» ранее неизвестных и полезных знаний из данных Анализ больших объемов данных, использующий автоматические или полуавтоматические методы, с целью определить значимые паттерны Введение в анализ данных 9 Что такое анализ данных?

Процесс автоматического или полуавтоматического анализа больших объемов данных, чтобы найти паттерны, которые: Валидны: эксперименты можно повторить на новых данных с похожим результатом Новые: не являются очевидными в рамках системы Полезные: полученные знания можно применить для улучшения работы Понятные: человек может интерпретировать полученный паттерн Введение в анализ данных 10 Анализ данных

Одним из самых больших рисков анализа данных является тот факт, что результаты могут не иметь смысла Bonferronis principle: если вы рассмотрите больше интересных моделей, чем потенциально содержат ваши данные, то вы получите чепуху Введение в анализ данных 11 Непонятные ответы

Парапсихологи в 1950-х выдвинули гипотезу, что некоторые люди обладают экстра-ординарными способностями (ЭОС) Они провели эксперимент, в котором участники должны были угадать 10 скрытых карт – красные или синие Они обнаружили, что 1 из 1000 участников обладают ЭОС – они были способны угадать все 10 скрытых карт правильно Введение в анализ данных 12 Rhine Paradox (1)

Далее они рассказали этим людям, что они они обладают ЭОС и попросили их пройти другой тест Но следующий эксперимент показал, что эти люди потеряли ЭОС Какой вывод они сделали? Группа парапсихологов решили, что не стоит говорить людям, что они обладают ЭОС; иначе они потеряют их Введение в анализ данных 13 Rhine Paradox (2)

Банки: разрешения на кредит: – Предсказывать «хороших» клиентов, базируясь на истории старых клиентов Targeting Marketing: – Предсказание реакции на ту или иную рекламу Fraud detection (определение мошенничество): – Телекоммуникации – Финансы – Отзывы на товары и продукты Введение в анализ данных 14 Возможные приложения (1)

Медицина: оценка эффективности лечения – Анализ истории болезни пациента – Нахождения зависимости между болезнями Молекулярная: – Новые медикаменты Научные исследования: – Нахождение новых галактик! Анализ Веб данных Введение в анализ данных 15 Возможные приложения (2)

АД – это пересечение машинного обучения, статистики, искусственного интеллекта, баз данных, визуализации: * масштабируемость * алгоритмы * неоднородные данные Введение в анализ данных 16 Откуда пришел анализ данных Статистика Машинное обучение Базы данных Анализ данных

Предсказательные методы: используя, существующие переменные, предсказать не неизвестные или будущие значения других переменных Описательные методы: Нахождение паттернов, понятных человеку, которые описывают данные Введение в анализ данных 17 Задачи анализа данных

Классификация Кластеризация Ассоциативные правила Определение аномалий Введение в анализ данных 18 Задачи, которые могут решаться в процессе анализа данных

Введение в анализ данных 19 Пример кластеризации

Введение в анализ данных 20 Классификация галактик Ранняя Средняя Поздняя Атрибуты: Признаки картинки Характеристики световых волн Классы: Стадия формирования

По предоставленной базе данных пользовательских предпочтений, определить «вкусы» новых пользователей Пример: – Определить фильмы, которые потенциально могут быть интересны пользователю – Предсказать, СD/книги интересные пользователю Введение в анализ данных 21 Collaborative Filtering

Определение значительных отклонений от нормального поведения Приложения: – Мошенничество с кредитными картами – Атака сети Введение в анализ данных 22 Определение аномалий

Супермаркет (customer basket): – Цель: Найти продукты, которые покупаются вместе большим количеством покупателей – Способ: Проанализировать цепочку, которую покупает пользователь и найти зависимость – Классическое правило: Если пользователь покупает подгузник и молоко, затем он покупает пиво Таким образом не удивляйтесь тому, что (в американских) магазинах пиво расположено недалеко от подгузников Введение в анализ данных 23 Ассоциативные правила

Масштабируемость Размерность Сложные и неоднородные данные Качество данных Privacy Preservation Введение в анализ данных 24 Сложности анализа данных

Введение в анализ данных Формулировка задачи 2. Выбор алгоритма для анализа и методов оценки 3. Выбор обучающего и тестового множества 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод Введение в анализ данных 25 Построение эксперимента

1. Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа (рассмотрели) и методов оценки 3. Выбор обучающего и тестового множества 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод (рассмотрели) Введение в анализ данных 26 Построение эксперимента

Обучающее множество: на чем обучаемся Для каких рассмотренных методов АД это особенно актуально? Какие свойствами должно обладать обучающее множество? Тестовое множество: на основе чего проверяем полученный результат Какие свойствами должно обладать тестовое множество? Важно: Данные всегда нужно смотреть глазами Введение в анализ данных 27 Выбор обучающего и тестового множеств

В медицине: – Данные очень дорогие Для задач Информационного поиска есть готовые тестовые коллекции (английский – TREC, русский - РОМИП) Для анализа поисковых запросов есть открытие логи: – Проблема: последний лог отрыт в 2005 году Часто нужно составлять для каждой отдельной задачи вручную: – Amazon Mechanical Turk – Важно: достоверность Введение в анализ данных 28 Выбор тестового множества

Введение в анализ данных 29 Amazon Mechanical Turk

Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки(рассмотрели) 3. Выбор обучающего и тестового множества(рассмотрели) 4. Feature selection (Выбор признаков) 5. Оценка полученных результатов 6. Вывод (рассмотрели) Введение в анализ данных 30 Построение эксперимента

Что такое признаки? Признаки – это индивидуальная характеристика объекта Зависит от данных: – Картинки (цвет, текстура) – Текст (n-grams, контекст) Важно: во время остановиться Введение в анализ данных 31 Выбор признаков (Feature selection)

Введение в анализ данных Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки (рассмотрели) 1. Выбор обучающего и тестового множества(рассмотрели) 2. Feature selection (Выбор признаков) (рассмотрели) 3. Оценка полученных результатов 4. Вывод (рассмотрели) Введение в анализ данных 32 Построение эксперимента

Этот метод работает «хорошо» Этот метод работает «плохо» Оценка должна быть численной: – Нужно сравниваться с конкурентами – При внесении изменений в метод понимать, как это влияет на результат Введение в анализ данных 33 Зачем нужна оценка Это хорошая оценка?

Введение в анализ данных Введение в анализ данных Формулировка задачи (рассмотрели) 2. Выбор алгоритма для анализа и методов оценки и методов оценки (рассмотрели) 3. Выбор обучающего и тестового множества(рассмотрели) 4. Feature selection (Выбор признаков) (рассмотрели) 5. Оценка полученных результатов (рассмотрели) 6. Вывод (рассмотрели) Введение в анализ данных 34 Построение эксперимента

Рассмотрели требования к курсу Познакомились с программой курса Рассмотрели, что такое data mining (анализ данных) Рассмотрели задачи анализа данных Познакомились и запомнили схему построения эксперимента Введение в анализ данных 35 Резюме

Контакты Мой мейл Введение в анализ данных 36