Анализ Данных Лекция 1 Введение в Анализ Данных. План лекции От БД до АД Определение Анализа Данных Типы задач АД Основные понятия Основная цель: определение.

Презентация:



Advertisements
Похожие презентации
Data Mining – инструмент оптимизации работы с клиентами.
Advertisements

Тема: Понятие данных. Классификация данных. Анализ данных и прогнозирование экономики ALMA U К.Э.Н., доцент Досалиев Б.А.
Кандидат технических наук, доцент Поляков Константин Львович Учебный курс Эконометрика: идентификация, оценивание и анализ статических моделей Лекция 4.
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
Анализ вариационных рядов. Анализ вариационных рядов. Основные понятия и определения Генеральная совокупность – множество всех значений, характеризующих.
Основные понятия БД Сама по себе БД не может обслужить запросы пользователя на поиск и обработку информации, т.е. БД – это «информационный склад». Обслуживание.
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
Восьмая независимая научно-практическая конференция «Разработка ПО 2012» ноября, Москва АНАЛИТИЧЕСКИЙ МОДУЛЬ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ УПРАВЛЕНИЯ.
Лекция 3. КЛАССИФИКАЦИЯ Харитонов А. Ю. Министерство образования и науки Украины Донецкий национальный технический университет Кафедра компьютерных систем.
СУБД Microsoft Access 2003 ЗНАКОМСТВО. Что такое Access? Access – Приложение, входящее в состав пакета Microsoft Office (разработано компанией Microsoft).
Лист 1 Системы поддержки принятия решения БД Информация Большие массивы данных Точные расчеты и детальный анализ Анализ – сложный процесс Анализ Информация.
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
1 Элементы математической статистики Задача математической статистики – создание методов сбора и обработки статистических данных для получения научных.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
База данных ACCESS. Основные понятия База данных (БД) организованная совокупность данных, предназначенная для длительного хранения во внешней памяти компьютера.
Базы данных Access Вводная лекция. Определение базы данных Базы данных - это совокупность тем или иным способом структурированных данных и комплекса аппаратно-программных.
Транксрипт:

Анализ Данных Лекция 1 Введение в Анализ Данных

План лекции От БД до АД Определение Анализа Данных Типы задач АД Основные понятия Основная цель: определение АД и спектра его применения

Вначале были данные Есть база данных: Например, БД банка. Хранит персональные данные, счета, кредиты и т.д. БД * Рисуйте у себя тоже

Источник данных Сама по себе БД пользы не несет Добавим оперативный источник данных (ОИД) БД ОИД Для банка это терминалы, базы локальных отделений и т.д. …

Работа с транзакциями Нужна обработка данных в БД Добавим Online Transaction Processing (OLTP) БД ОИД Взаимодействует с ОИД и БД. Примеры операция для банка: узнать счет, перевести деньги, пополнить баланс. … OLTP

Особенности OLTP Важна скорость работы – результат максимум за пару секунд Простые операции с данными (около CRUD) Высокая частота вызовов => постоянная средняя загруженность процессора Работа только с оперативными данными

Возможности OLTP Вопрос: Можно ли с помощью OLTP определить кредитоспособность человека? Как?

Возможности OLTP Вопрос: Можно ли с помощью OLTP определить кредитоспособность тысяч человек за час?

Аналитическая система Нужна более сложная система для работы с БД Добавим Online Analytical Processing (OLAP) БД ОИД Взаимодействует с БД. Примеры для банка: найти подозрительные переводы, определить кредитоспособность … OLTP OLAP

Особенности OLAP Важна точность анализа Сложные запросы, функции, процедуры Периодические вызовы чередуются с простоем. Нагрузка на процессор непостоянна. Работа с большой коллекцией данных

OLTP и OLAP во время работы Начало рабочего дня Сотрудники ушли на обед OLTP всегда готова выполнить запрос Попросили оценить кредитоспособность Выдали результат, больше запросов нет, отключаемся Анализируем все операции за день

Возможности OLAP Может: Определить кредитоспособность по имеющимся правилам Прогнозировать прибыль банка на основе моделей и гипотез Не может: Предложить правило оценки кредитоспособности Сгенерировать модель или гипотезу

Анализ данных Нужна система генерации гипотез Вот и Анализ Данных (Data Mining) БД ОИД Примеры для банка: Выяснить зависимость кредитоспособности человека от наличия высшего образования Каковы признаки подозрительных переводов? … OLTP OLAP Data Mining

Система поддержки принятия решений БД ОИД Комплекс для сбора, хранения и анализа информации … OLTP OLAP Data Mining СППР

Определение Анализ Данных - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Примеры для ясности

Примеры для самопроверки Какие правила являются успешным результатом анализа данных: Если фигура - четырехугольник, то сумма его углов равна 360 градусам Во время беспорядков повышается спрос на бейсбольные биты Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка Вместе с хлебом люди часто покупают молоко Люди старше 60 не ищут ночные клубы в Москве

Примеры для самопроверки Какие правила являются успешным результатом анализа данных: Если фигура - четырехугольник, то сумма его углов равна 360 градусам - уже известная информация Во время беспорядков повышается спрос на бейсбольные биты + полезно на будущее Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка - тривиальная информация Вместе с хлебом люди часто покупают молоко + можно продавать комплектом Люди старше 60 не ищут ночные клубы в Москве - практически бесполезное знание

Типичные задачи АД Классификация (Classification) Кластеризация (Clustering) Ассоциация (Associations) Визуализация (Visualization, Graph Mining) Последовательность (Sequence) Прогнозирование (Forecasting) Определение отклонений (Deviation Detection) Анализ связей (Link Analysis)

Примеры задач классификации Определение DDoS-атак Спам-фильтры Привлечение выгодных клиентов (определение целевой аудитории продукта) Определение профиля ДНК

Примеры задач кластеризации Группировка документов по темам Идентификация людей на записях с камер видеонаблюдения Кластеризация тикетов Кластеризация структуры фондового рынка

Примеры задач поиска ассоциаций и последовательностей Рекомендации товаров Обнаружение скрытых факторов влияния

Примеры задач визуализации Связи в социальных сетях Пробки на дорогах Инфографика

Семейство направлений АД Web Mining – специализируется на анализе страниц в интернете (определение тИЦ, выделение модульной сетки сайта) Opinion Mining – специализируется на анализе отношений пользователей к различным объектам (whatdoestheinternetthink.net) Information Retrieval – поиск неструктурированной информации в текстовых документах (поисковые системы)

Основные определения Данные – необработанный материал, используемый для формирования информации на основе данных. Bla bla bla Например, текст документа

Основные определения Объект - описывается как набор атрибутов Bla bla bla Сам текстовый документ

Основные определения Атрибут - свойство, характеризующее объект. Bla bla bla Имя: Текстовый документ (42).txt Размер документа: 5кб Дата создания:

Основные определения Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя. Выборка (sample) - часть генеральной совокупности Полная база документов 50 случайных документов

Основные определения Параметры - числовые характеристики генеральной совокупности. Статистики - числовые характеристики выборки. Параметры: Научные статьи: 30% Анекдоты: 70% Статистика: Научные статьи: 32% Анекдоты: 68%

Основные определения Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов. I lold Гипотеза: Если файл < 5кб, то он скорее всего содержит анекдоты

Основные определения Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. I lold Количество слов: количество пробельных символов + 1

Шкалы измерений Номинальная шкала (nominal scale) -содержит только категории Нельзя упорядочить Доступные операции: ==, != Пример: месяцы, царства животного мира, категории статей Дихотомическая шкала (dichotomous scale) - шкала, содержащая только две категории. Пример: бит, пол

Шкалы измерений Порядковая шкала (ordinal scale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. Доступные операции: ==, !=, >, < Пример: место в рейтинге

Шкалы измерений Интервальная шкала (interval scale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. Доступные операции: ==, !=, >,

Шкалы измерений Относительная шкала (ratio scale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Доступные операции: ==, !=, >,