Лист 1 Системы поддержки принятия решения БД Информация Большие массивы данных Точные расчеты и детальный анализ Анализ – сложный процесс Анализ Информация.

Презентация:



Advertisements
Похожие презентации
СППР OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Advertisements

OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Многомерная модель данных. OLAP, определение OLAP (On-Line Analytical Processing) - технология оперативной аналитической обработки данных, использующая.
Базы данных Лекция 02 Технологии информационных хранилищ.
СППР, хранилища данных, OLAP-системы. Технология Data Мining (также называемая Knowledge Discovery in Data) изучает процесс нахождения новых, действительных.
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
Проектирование баз данных Часть 5. Хранилища данных и OLAP Использование MS SQL Server Analysis Services 2008 для построения хранилищ данных Автор: В.В.
Хранилища данных В основе концепции ХД лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа. Хранилище данных.
Хранилища данных Причины возникновения Концепция хранилищ данных Применение.
Промышленное прогнозирование. BaseGroup Labs Постановка задачи Прогнозированием можно назвать любой способ предсказать значения одной переменной в зависимости.
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Работу выполнила студентка гр. 9 Бд 111 Евженко Дарья.
Восьмая независимая научно-практическая конференция «Разработка ПО 2012» ноября, Москва АНАЛИТИЧЕСКИЙ МОДУЛЬ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ УПРАВЛЕНИЯ.
Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Инструментарий хранилищ данных. Управление метаданными.
Арустамов Алексей BaseGroup Labs IT Service Management – анализ инцидентов и проблем.
ЭТАПЫ ЖИЗНЕННОГО ЦИКЛА БАЗЫ ДАННЫХ. Жизненный цикл БД Это процесс, который начинается с этапа проектирования БД и заканчивается снятием БД с эксплуатации.
Учебная дисциплина «Хранилища данных» Лекция 1 ОСНОВЫ ПОСТРОЕНИЯ ИНФОРМАЦИОННО- АНАЛИТИЧЕСКИХ СИСТЕМ И СИСТЕМ ПОДДЕРЖКИ И ПРИНЯТИЯ РЕШЕНИЙ Учебные вопросы:
Транксрипт:

Лист 1Системы поддержки принятия решения БД Информация Большие массивы данных Точные расчеты и детальный анализ Анализ – сложный процесс Анализ Информация АналитикСППР Законы предметной области Данные для анализа

Лист 2Системы поддержки принятия решения СППР Ввод данных Хранение данных Анализ данных Предметная область Поиск решений СППР Эргономичность Механизмы автоматического сбора данных Расширенная визуализация результатов оператор аналитик датчик

Лист 3Системы поддержки принятия решения СППР Информационно поисковые Оперативно аналитические Интеллектуальные Фиксированный набор запросов Динамическая генерация запросов Алгоритмы поиска закономерностей в данных

Лист 4Системы поддержки принятия решения

Лист 5Системы поддержки принятия решения

Лист 6Системы поддержки принятия решения

Лист 7 Хранилище данных Хранилище данных Предметная ориентация Интеграция Поддержка хронологии Неизменяемость

Лист 8Хранилище данных СППР с витринами данных СППР с ХД и ВД

Лист 9Хранилище данных Агрегированные аддитивные полуаддитивные неаддитивные Детальные измерения факты

Лист 10Хранилище данных Метаданные Объекты артибуты, значения, источники информации Пользователи идентификация, права доступа, действия, и др. Место хранения сервер, ПО, данные Действия при переносе, при эксплуатации, и др. Время загрузка, архивирование, агрегирование, извлечение, и др. Причины требования, статистика обращений и др.

Лист 11Хранилище данных Входной поток Extraction извлечение Transformation преобразование Load загрузка ETL процесс Вспомогательное ПО Средства OLTP систем Обобщение Перевод значений Создание полей Очистка данных Запись детальных данных Запись агрегированных данных Архивирование

Лист 12Хранилище данных Очистка данных Ячейка ЗаписьТаблица Одиночная БДМножество БД Опечатки Пустые значения Фиктивные значения Логические ошибки Кодированные значения Составные значения Противоречивость данных разных полей Нарушение уникальности Дублирование Противоречивость Целостность Различие структур Одинаковые наименования разных арт. Разное представление одинок. данных Различие классификаторов Различная временная градация Различные ид. одного и того же объекта Этапы очистки 1. Определение важных данных 2. Выявление проблем в данных 3. Определение правил очистки 4. Тестирование правил очистки 5. Очистка данных 1. Расщепление артибутов 2. Проверка допустимости и исправления 3. Стандартизация 4. Сопоставление данных, относящихся к одному элементу 5. Слияние записей 6. Исключение дубликатов Процедуры над отдельными ОИД

Лист 13Хранилище данных Особенности: Подготовка данных для анализа Отсутствует предопределение архитектуры аналитической системы Не решаемые задачи: Способ организации данных для анализа Организация доступа к данным Использование технологии анализа данных

Лист 14OLAP системы 1993 г. Кодд (недостатки OLTP для многомерного анализа) Основные понятия Операции OLAP Оперативно-аналитическая обработка Методы сбора, хранения и обработки информации Поддержка принятия решения Показатель Гиперкуб

Лист 15OLAP системы Правила Кодда для OLAP, тест FASMI 1. Многомерность 2. Прозрачность 3. Доступность 4. Постоянная производительность при разработке отчетов 5. Клиент-серверная архитектура 6. Равноправие измерений 7. Динамическое управление разреженными мартицами 8. Поддержка многопользовательского режима 9. Неограниченные перекрестные операции 10. Интуитивная манипуляция с данными 11. Гибкие возможности создания отчетов 12. Неограниченная размерность и число уровней агрегаций Fast Analysis Shared Multidimensional Information

Лист 16OLAP системы Архитектура OLAP систем OLAP система OLAP клиент OLAP сервер Способ реализации гиперкуба MOLAPROLAPHOLAPDOLAPJOLAP MOLAP гиперкубполикуб Высокая скорость поиска Расширяемость по функциям Увеличение объема данных в 2,5 – 100 раз Высокая степень разреженности Чувствительность к структурным изменениям Особенности Реккомендации Объем данных не более нескольких Гб Набор измерений стабилен Время отклика критично Необходимость функционального расширения

Лист 17OLAP системы Архитектура OLAP систем MOLAP Снежинка Адаптация схемы Звезда Таблица фактов Таблицы измерений * * * * * * * * * * * * Факты Связь с транзакциями Transaction facts Связь с моментальными снимками Snapshot facts Связь с элементами документа Line-item facts Связь с событиями/состояниями объекта Event/state facts Типы фактов Анализ реляционных ИД Меньший размер хранилища Добавление нового измерения не требует полной физической реорганизации Отработаны вопросы безопасности Эффективная работа с разреженными данными Снижение производительности Особенности

Лист 18Data Mining Пятецкий – Шапиро (1996 г.) Data Mining Знания ранее не известные нетривиальные практически полезны интерпретируемые скрытые

Лист 19Data Mining Задачи Data Mining Описательные Предсказательные Кластеризация Поиск ассоциативных правил Классификация Регрессия Обучение с учителем Обучение без учителя Задачи Data Mining Классификация задач Data Mining

Лист 20Data Mining Задача классификации, регрессии Кредитоспособность место работы размер з/п составе семьи кредитная история др. да-нет Фильтрация эл. почты Частота появления определенных слов спам не спам Распознавание образа цифры Мартица точек независимые зависимые Построение обучающей выборки Построение функции классификации (регрессии) Большая обучающая выборка Охват всей области определения На каждом интервале ОЗ много объектов Проблемы overfittingunderfitting Интерпретация частного случая Множество ошибок

Лист 21Data Mining Задача поиска ассоциативных правил / секвенциальный анализ Задача кластеризации Комплекты товаров, продаваемых вместе Комплекты услуг Симптомы болезни {e1, e5, e3,…} Последовательность событий Объекты Кластерыкластеризация Сегментация рынка Таблица Менделеева Способ разбиения зависит от: 1. Природы элементов (детерм., стохастич) 2. Связи объект – кластер (например, возможность принадлежности нескольким кластерам) Области применения Телекоммуникации Интернет-технологии Медицина Торговля Промышленность Банковское дело

Лист 22Data Mining Модели Data Mining Модели Классификации Описательные Последовательности Предсказательные Регрессионные Кластеризации Исключений Ассоциации Итоговые Факты, верные для всех записей, но редко встреч. в общей выборке X -> Y Анализ уникальных фактов Разбиение на группы Функциональная зависимость (незав /зав) Использование обучающей выборки Прогнозирование событий на основании предыд.

Лист 23Data Mining Процесс обнаружения знаний

Лист 24Data Mining Подготовка данных Эл. письмо Текст Методы Data Mining Параметры письма Частота встречаемости ключевых слов Средняя длина предложений Параметры сочетаемости предложений Числовые Нечисловые Выбор и расчет Формирование таблицы фактов Таблица фактов Предварительная обработка, очистка Обработанная таблица фактов Исключение идентичных объектов Исключение ряда категориальных признаков Исключение не важных полей

Лист 25Data Mining Проверка построенных моделей БД Таблица фактов Таблица фактов, V 1 Таблица фактов, V 2 V 1 >> V 2 Модель Data Mining получение проверка