Хранилища данных. Лекция 1. Введение Антон Викторович Кудинов, доцент кафедры ВТ.

Презентация:



Advertisements
Похожие презентации
Многомерная модель данных. OLAP, определение OLAP (On-Line Analytical Processing) - технология оперативной аналитической обработки данных, использующая.
Advertisements

Анализ информации является неотъемлемой частью ведения бизнеса и одним из важных факторов повышения его конкурентоспособности. Модуль ОПТИМУМ OLAP предназначен.
Хранилища данных. 4 Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации.
Разработка модуля построения отчетов в единой информационной системе КузГТУ Научный руководитель: ст. преподаватель кафедры ВТ и ИТ Лу Павел Цзуйлянович.
ПРОЕКТ ОТКРЫТАЯ МЕДИЦИНА ТМ:Аналитик. 2 Назначение системы АИС ТМ:Аналитик Обработка Управление Интеграция данных, отражающих различные аспекты деятельности.
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
СППР OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Классификация ИС В современном мире существует достаточно большое количество разновидностей информационных систем. Классификация информационных систем.
OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ) КАФЕДРА ИКТ Дипломный проект на тему: Студент: Руководитель проекта:
OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Базы данных Лекция 02 Технологии информационных хранилищ.
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ) КАФЕДРА ИКТ Дипломный проект на тему: Студент: Руководитель проекта:
Хранилище данных это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ УПРАВЛЕНИЯ Обработка и хранение информации.
Учебная дисциплина «Хранилища данных» Лекция 1 ОСНОВЫ ПОСТРОЕНИЯ ИНФОРМАЦИОННО- АНАЛИТИЧЕСКИХ СИСТЕМ И СИСТЕМ ПОДДЕРЖКИ И ПРИНЯТИЯ РЕШЕНИЙ Учебные вопросы:
Хранилища данных Причины возникновения Концепция хранилищ данных Применение.
Работу выполнила студентка гр. 9 Бд 111 Евженко Дарья.
Разработка баз данных предприятий ЯОК Саровский физико-технический институт.
Администрирование информационных систем Лекция 4. Система управления базами данных.
Транксрипт:

Хранилища данных. Лекция 1. Введение Антон Викторович Кудинов, доцент кафедры ВТ

Содержание Структура курса Основные понятия. История вопроса OLAP Различия между транзакционными и аналитическими системами Области применения хранилищ данных Общие свойства хранилищ 2

Структура курса Итоговая аттестация экзамен 3

Лекции Введение. Эволюция корпоративных информационных систем Общие свойства хранилищ Данные хранилища Компоненты хранилища Методика ( методология ) построения хранилищ данных Выбор метода реализации хранилищ данных Что такое OLAP Типичная структура хранилищ данных Интеллектуальный анализ данных. Data Mining 4

Лабораторные работы Проектирование, реализация и наполнение БД, являющей источником данных для хранилища 4 часа Проектирование структуры хранилища данных 5 часов Реализация хранилища данных под управлением Microsoft SQL Server 2008 Analysis Services 6 часов Использование Microsoft Office Excel как стандартного OLAP- клиента для доступа к данным хранилища 4 часа Создание специализированного клиентского приложения для доступа к данным хранилища 6 часов Лабораторные работы выполняются по индивидуальным сквозным заданиям 5

Учебно - методическое обеспечение дисциплины Программные продукты : Microsoft SQL Server 2008 Analysis Services Borland Delphi, C++ Builder Литература : Дейт К. Дж.. Введение в системы баз данных.: Пер. с англ.-6- е изд.,- К.: Диалектика, с. Архипенков С. Я. Аналитические системы на базе Oracle Express OLAP. М.: ДИАЛОГ - МИФИ, Елманова Н., Федоров А. Введение в OLAP- технологии Microsoft. М.: ДИАЛОГ - МИФИ, Архипенков С., Голубев Д., Максименков О. Хранилища данных. Т концепции до внедрения / Под общ. Ред. С. Я. Архипенкова М.: ДИАЛОГ - МИФИ,

Введение Особый класс систем - системы поддержки принятия решений ( СППР ) Они предназначены для извлечения, сбора и представления конечному пользователю информации, необходимой для анализа текущего состояния дел и прогноза будущего решения Основные пользователи – люди, принимающие решения или влияющие на их принятие ( топ - менеджеры, аналитики ) В большинстве компаний имеются информационные системы на базе СУБД и обслуживают повседневную деятельность отделов компании - транзакционные или OLТP ( On - Line Transactions Processing ). 7

Интеграция данных Чтобы анализировать данные – надо их объединить. Два основных подхода : децентрализованное объединение источников ( схема спагетти ) централизованное объединение источников 8

Основные понятия Хранилища данных ( Datawarehouse ) и оперативный анализ данных ( On - Line Analytical Processing, OLAP ) – новые информационные технологии, которые обеспечивают аналитикам, управленцам и руководителям высшего звена возможность изучать большие объемы взаимосвязанных данных при помощи быстрого интерактивного отображения информации на разных уровнях детализации с различных точек зрения в соответствии с представлениями пользователя о предметном пространстве Основная цель хранилищ создание единого логического представления данных, содержащихся в разнотипных БД или в единой модели корпоративных данных 9

Хранилище данных создается с целью Интеграции в одном месте, согласования и, возможно, агрегации ранее разъединенных детализированных данных : Исторических архивов Данных из оперативных систем Данных из внешних источников А также : Разделения наборов данных, используемых для оперативной обработки, и наборов данных, используемых для решения задач поддержки принятия решений Обеспечения всесторонней информационной поддержки максимальному кругу пользователей 10

История вопроса первая работа - Кен Айверсон (Ken Iverson) « Язык программирования » (A Programming Language, APL) первый программный продукт для многомерного анализа данных Express статья Девлина (Devlin) и Мэрфи (Murphy) Уильям Г. Инмон (William H. Inmon), технический директор компании Prism, монография «Building the Data Warehouse» (« Построение хранилищ данных ») Статья Е. Ф. Кодда : - 12 правил OLAP (1993) - дополнительные правила OLAP ( 1995 ) 11

Определение по Инмону (« в узком смысле ») Хранилище данных это предметно - ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений 12

Определение (« в широком смысле ») Хранилище данных ориентированная на поддержку управленческих решений автоматизированная система, состоящая из организационной структуры, технических средств, базы или совокупности баз данных и ПО, которое выполняет, как правило, следующие функции : извлечение данных из разрозненных источников, их трансформация и загрузка в хранилище администрирование данных и хранилища извлечение данных из хранилища, аналитическая обработка и представление данных конечным пользователям 13

Основные требования к хранилищам данных поддержка высокой скорости получения данных из хранилища поддержка внутренней непротиворечивости данных ; возможность получения и сравнения так называемых срезов данных (slice and dice) наличие удобных утилит просмотра данных в хранилище полнота и достоверность хранимых данных поддержка качественного процесса пополнения данных 14 Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», John Wiley & Sons, 2000

OLAP Системы поддержки принятия решений предоставляют пользователю агрегатные данные для различных выборок из исходного набора в удобном для восприятия и анализа виде Агрегатные функции образуют многомерный ( и, следовательно, нереляционный ) набор данных ( называемый гиперкубом или метакубом ), оси которого содержат параметры, а ячейки зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации 15

OLAP Благодаря такой модели данных пользователи могут : формулировать сложные запросы генерировать отчеты получать подмножества данных OLAP это ключевой компонент организации хранилищ данных 16

OLAP: Тест FASMI FASMI – Fast Analysis of Shared Multidimensional Information Быстрый анализ разделяемой многомерной информации Fast : ответ на запрос в течение 1-20 с Analysis : любой сложный логический и статистический анализ для бизнес – приложений Shared : защищенный многопользовательский доступ Multidimensional: многомерное представление данных включая иерархии Information : большое количество данных и информации 17

Как реализовать OLAP? OLAP- функциональность может быть реализована различными способами, начиная с простейших средств анализа данных в офисных приложениях и заканчивая распределенными аналитическими системами, основанными на серверных продуктах 18

Развитие хранилищ данных обусловлено созданием развитого ПО оперативного анализа данных и нерегламентированных запросов пользователей появлением новых типов БД на основе многомерной модели и параллельной обработки запросов, которые опирались на достижения в области параллельных компьютеров появлением ПО промежуточного слоя, обеспечившие связь между разнотипными БД резким снижением стоимости хранения информации 19

Использование транзакционных и аналитических систем 20 Аналитические системы Транзакционные системы Руководство Аппарат управления Бизнес-аналитики Менеджеры Сотрудники

Расхождения в требованиях к хранению данных в БД и ХД 21 Мягкие требования к производительности БД Чувствительны к производительности БД и поэтому предъявляют к ним жесткие требования Совершенно иной цикл разработки систем Строятся на основе обычного цикла разработки систем Требования к способам дальнейшей обработки не имеют первостепенного значения Требования к способам дальнейшей обработки выясняются заранее Не корректируются, если введены в Хранилище Могут корректироваться Представляют значения на указанное время Точны в момент доступа Обобщены либо очищеныДетализированы Данные для принятия решенийТрадиционные данные, хранимые в БД

Расхождения в требованиях к хранению данных в БД и ХД 22 Поддерживают периодический анализ Поддерживают ежедневные операции Массивы данных широко используются в процессе обработки Массивы данных редко используются в процессе обработки Гибкая структураСтатическая структура, произвольное содержание Данные избыточныДанные не избыточны Контролируется целостность подмножества данных Контролируется целостность всех данных Относительная доступностьВысокая степень доступности Ориентированы на анализОриентированы на приложения Управляются аналитическими запросами Управляются транзакциями Обрабатывается множество элементов данных за один запрос Обрабатывается один элемент данных за один запрос

Различия между ХД и оперативными системами Системы хранилищ данныхОперативные системы Используются руководством Используются работниками «переднего края» Стратегическое значениеТактическое значение Поддерживают стратегические направления развития бизнеса Поддерживают повседневную деятельность Используются для интерактивного анализаИспользуются для обработки транзакций Предметно-ориентированныеОриентированны на приложения Хранят исторические данныеХранят только текущие данные Непредсказуемые запросыПредсказуемые запросы 23

Вывод OLAP это надстройка над OLТP и использует транзакционные системы в качестве источников данных 24 OLTP OLAP OLTP

Области применения хранилищ данных Анализ рисков Финансовый анализ Анализ случаев мошенничества Маркетинг взаимоотношений Управление активами Анализ стереотипов поведения клиентов 25

Общие свойства хранилищ ориентированность на предметную область или ряд предметных областей интегрированность зависимость от времени ( поддержка хронологии ) постоянство 26

Ориентированность на предметную область Приложения всегда оперируют функциями, такими, например, как открытие сделки, кредитование, выписка накладной, зачисление на счет и т. д. Хранилище данных организовано вокруг фактов и предметов, таких, как сделка, сумма кредита, покупатель, поставщик, продукт и т. д. 27

Интегрированность Проявляется в : в согласованности имен, в согласованности единиц измерения переменных, в согласованности структур данных, в согласованности физических атрибутов данных и др. Причины рассогласования : наличие множества средств разработки существование множества способов построения приложения 28

Зависимость от времени Все данные в хранилище в определенный момент времени совместны ( непротиворечивы ) Оперативные приложения ориентированы на короткий временной промежуток, а аналитические – на большие промежутки ( год, десятилетие и т. д.) Структура хранилища включает – явно или неявно – элемент времени Данные, однажды корректно в хранилище записанные, не могут быть обновлены 29

Постоянство В оперативной среде операции обновления, добавления, удаления и изменения производятся над записями регулярно Базовые манипуляции с данными хранилища ограничены начальной загрузкой данных и доступом к ним На уровне проектирования хранилища данных отпадает необходимость в поддержке механизмов, обеспечивающих корректность обновлений В хранилище данных не нужны функции оперативного резервного копирования и восстановления, обеспечения целостность данных, механизмы разрешения конфликтов и тупиковых ситуаций 30

Спасибо за внимание ! 31