Хранилища данных. Лекция 4. Выбор метода реализации Антон Викторович Кудинов, доцент кафедры ВТ.

Презентация:



Advertisements
Похожие презентации
Проекты ONLINE Ведение проектов в распределённом режиме, с участием заказчиков, исполнителей и соисполнителей Назначение.
Advertisements

Г. Москва, тел.: +7 (495) , Internet: Слайды курса «Администрирование работы на сервере.
Администрирование информационных систем Лекция 4. Система управления базами данных.
Разработка модуля построения отчетов в единой информационной системе КузГТУ Научный руководитель: ст. преподаватель кафедры ВТ и ИТ Лу Павел Цзуйлянович.
ПРОЕКТ ОТКРЫТАЯ МЕДИЦИНА ТМ:Аналитик. 2 Назначение системы АИС ТМ:Аналитик Обработка Управление Интеграция данных, отражающих различные аспекты деятельности.
Учебный курс Объектно-ориентированный анализ и программирование Лекция 4 Трансформация логической модели в программный код Лекции читает кандидат технических.
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
SQL-Solutions Sybase Data Warehouse Program. SQL-Solutions Распределенный анализ Централизованный сбор данных Функции хранилищ данных Собирание данных.
OLAP и OLTP системы OLTP – оперативная транзакционная обработка данных OLAP – оперативная аналитическая обработка данных.
Практический опыт построения системы централизованного мониторинга ИБ в банковской организации на базе решений Oracle Информационная безопасность для компаний.
Системы отчетности и аналитики Cognos OLAP/BI. Демонстрация функциональных возможностей аналитической системы Cognos.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
БД (администрирование) 1 Базы данных (администрирование) Аблов Игорь Васильевич Кафедра информационных технологий.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Администрирование информационных систем и сетей Лекция 6. Администрирование сервера БД Основные сведения о MS SQL Server.
Анализ данных и интеграция информационных систем Станислав Чистяков Старший Консультант 5 апреля 2011 года, гостиница «Золотое кольцо»
НАЧАТЬ ТЕСТ по КИТ2 Разработчики: Оскерко В.С., доцент, к.э.н. Панько Н.Г., студентка ДФФ-1, 2-й курс 2011 г.
Обзор продуктов и технологий Кобер Екатерина Региональный представитель Северо-Запад.
Информационные системы. Базы данных. Информационная система – любая система обработки информации (шир)
Учебный курс Технологии и средства разработки корпоративных систем Лекция 1 Открытые системы. Клиент и сервер Лекции читает кандидат технических наук,
Транксрипт:

Хранилища данных. Лекция 4. Выбор метода реализации Антон Викторович Кудинов, доцент кафедры ВТ

Содержание Две группы аналитических платформ Обзор рынка BI Продукция Microsoft Продукция Sybase Продукция Oracle 2

Две группы аналитических платформ Платформы первой группы ориентированы на работу с выделенными источниками данных - хранилищами и витринами данных, которые специально сформированы для аналитической обработки, что выражается и в особых структурах и моделях данных этих источников ( Microsoft, Hyperion Solutions, « старая » Oracle ). Платформы второй группы ориентированы на работу с более широким кругом источников ( Business Objects, Cognos, Microstrategy ) 3

Рынок BI в 2006 г. 4

Microsoft SQL Server 2008 Analyses Services 5

История 1996 – покупка программной технологии OLAP у израильской компании Panorama Software 1998 – выпуск OLAP Services как часть SQL Server – выпуск Analysis Services 2000 (+ Data Mining) 2005 – выпуск Analysis Services – выпуск Analysis Services

Структура MS SQL Server

Основные функции SSAS OLAP – позволяет пользователям проектировать, реализовывать и управлять многомерными структурами, которые содержат данные, агрегированные из других источников ( реляционных БД ) Data Mining – позволяет пользователям проектировать, реализовывать и визуализировать модели добычи знаний, реализованные на основе данных из других источников, используя набор промышленно - стандартизированных алгоритмов анализа 8

Серверная архитектура Analysis Services Серверной компонентой SSAS является приложение msmdsrv.exe, которое работает как служба Windows Можно запускать несколько экземпляров, каждый будет работать как отдельная служба Компоненты приложения : модули безопасности XML for Analysis (XMLA) процессор запросов несколько других компонентов 9

Функции серверной компоненты парсинг запросов от пользователя управление метаданными управление транзакциями выполнение вычислений хранение данных измерений и ячеек создание агрегатов управление выполнением запросов кэширование объектов управление серверными ресурсами 10

Клиентская архитектура Языки запросов : SQL Multidimensional Expressions (MDX) Data Mining Extensions (DMX) Analysis Services Scripting Language (ASSL) 11

Unified Dimension Model позволяет обращаться к данным нескольких кубов Analysis Services в одном запросе 12

Объекты SSAS SSAS содержит объекты БД и сборки ( Assemblies ): БД содержат источники данных ( data sources ), представления источников данных ( data source views ), кубы ( cubes ), меры ( measures ), группы мер ( measure groups ), измерения (dimensions), атрибуты ( attributes ), иерархии ( hierarchies ), структуры и модели для добычи знаний ( mining structures and models) и роли ( roles ) Сборки содержат пользовательские функции, расширяющие встроенные возможности языков Multidimensional Expressions (MDX) и Data Mining Extensions (DMX) 13

Объекты SSAS Data Source – настройки соединения с источником данных Data Source View – определение метаданных, логическая модель схемы данных, в терминах UDM, сохраняемая в формате XML Cube – набор мер и измерений. Часто используется как синоним UDM. Содержит также описания : Calculation – вычисляемый показатель KPI (Key performance indicator) Actions – клиентская команда, сохраненная на сервере Partitions – средство физического разделения больших кубов при хранении Perspective – подмножество куба, скрывающее его сложную структуру для бизнес - пользователей Cube translation – представление имен в кубе на другом языке 14

Объекты SSAS Структуры добычи знаний Структуры Data Mining – определяет область данных, для которых строится модель. Может содержать несколько моделей, настроенных на одну область данных. Основной элемент – столбцы, содержащие метаданные : тип данных, тип содержимого, порядок сборки и т. д. Модели Data Mining – определяют алгоритм добычи знаний, применяемый к данным конкретной структуры Data Mining Роли ( roles) - используются подсистемой безопасности. Разделяются на серверные роли и роли БД 15

Отличительные особенности Нет дополнительной платы Тесная интеграция с Office, SharePoint, Reporting & Integrating Services Инструмент разработки MS Visual Studio - Business Intelligence Development Studio Инструмент управления - SQL Server Management Studio 16

Встроенные алгоритмы добычи знаний Алгоритм взаимосвязей Алгоритм кластеризации Алгоритм дерева принятия решений Алгоритм линейной регрессии Алгоритм логистической регрессии Упрощенный алгоритм Байеса Алгоритм нейронной сети Алгоритм кластеризации последовательностей Алгоритм временных рядов 17

Sybase Adaptive Server IQ 18

Архитектура 19 PowerDesigner® WarehouseArchitect СУБД Sybase Adaptive Server IQ Multiplex Sybase Warehouse Studio Warehouse Control Center Infomaker Sybase PowerStage REPOSITORY

СУБД Sybase Adaptive Server IQ Multiplex использует особый, ориентированный на столбцы, метод хранения данных скорость выполнения запросов в 10 – 100 раз выше, чем для традиционных реляционных СУБД наименьшие расходы на содержание из всех серверов систем поддержки принятия решений 20

Sybase Warehouse Studio Warehouse Architect - CASE- средство проектирования хранилища Warehouse Control Center средство управления метаданными и администрирования хранилища Infomaker генератор отчетов Sybase PowerStage – ETL-инструмент 21

Продукция Oracle « старая » аналитическая платформа ( ныне Oracle Business Intelligence Suite Standard Edition ) новая платформа Oracle Business Intelligence Suite Enterprise Edition 22

Oracle Business Intelligence Suite Standard Edition 23

Структура 24 Oracle9i Oracle Express ETL OLAP Services Data Warehouses REPOSYTORY Oracle Reports Application Server JDeveloper BI JavaBeans Database Data Mining Oracle Warehouse Builder Data Warehouses Method (DWM) Server

Компонент Data Warehouses объединяет те возможности сервера Oracle, которые предназначены для построения и эффективного использования хранилищ данных Особенности : параллельная обработка запросов эффективные битовые (bitmap) индексы специализированные алгоритмы выполнения запросов, такие как хэш - соединения (hash joins) возможность секционирования данных (partitioning) технология управления суммарными данными на основе материализованных представлений (materialized views) 25

Специальные функции Анализируя статистику работы системы, СУБД рекомендует администратору необходимые агрегаты, автоматически их создает и периодически обновляет. Затем при выполнении запросов с агрегированием система автоматически переписывает их таким образом, чтобы они обращались к суммарным данным, хранящимся в материализованных представлениях. Такой подход резко, иногда на несколько порядков, повышает производительность хранилища данных для конечных пользователей. 26

ETL компонент расширение стандартных средств СУБД Oracle дополнительными командами и средствами, полезными для задач сбора и преобразования данных, например : внешние таблицы автоматическая фиксация изменения данных ( change data capture ) табличные функции одновременный ввод и корректировка данных ввод данных в несколько таблиц 27

Опция OLAP Services позволяет хранить и обрабатывать многомерную информацию на том же сервере баз данных, где находится реляционное хранилище ( по функциям OLAP Services = МСУБД OracleExpress ). Средства OLAP Services поддерживают в полном объеме основной язык сервера Express, а для существующих баз данных Express обеспечивается их миграция в СУБД Oracle 28

Опция DataMining Классификационные модели Деревья решений Наивный Байесовский классификатор Адаптивная Байесовская сеть Метод опорных векторов Регрессионные модели Метод опорных векторов Поиск существенных атрибутов Метод минимальной длины описания Кластеризация Иерархический алгоритм k- средних Иерархический алгоритм с неизвестным число кластеров Поиск ассоциаций Априорный алгоритм Выделение признаков Алгоритм сингулярной декомпозиции Выделение аномальных выбросов 29

Интегрированная CASE- среда Oracle Warehouse Builder позволяет : проектировать, создавать и администрировать хранилища и витрины данных разрабатывать и генерировать процедуры извлечения, преобразования и загрузки данных из различных источников эффективно управлять метаданными в основе – стандарт Common Warehouse Model 30

Поддержка аналитических задач стандартная отчетность – OracleReports нерегламентированные запросы – OracleDiscoverer сложный многомерный анализ – опция OLAP Services вместе с Jdeveloper и BI JavaBeans или OracleExpress data mining - опция OracleDataMining публикация в Web - с помощью сервера приложений Oracle9i ApplicationServer 31

Data Warehouse Method (DWM) оригинальная методология выполнения проекта по созданию и сопровождению информационно - аналитических систем. Является частью общего подхода Oracle к проектированию и реализации различных проектов. 32

Oracle Business Intelligence Suite Enterprise Edition 33

Архитектура 34 В целом вся платформа Oracle BI SuiteEE построена на SOA (Service Oriented Architecture)

Oracle BI Server аналитический сервер приложений ( business intelligence application server ) поддерживает интерфейсы к реляционным и многомерным базам ( ODBC, OCI, MDX, CLI ), к плоским файлам, XML - документам, таблицам MS Excel, базам данных SAP R /3 и mySAP, Oracle e - Business Suite, JD Edwards Enterprise One, Peoplesoft Enterprise, Oracle Siebel CRM и др. выполняет роль интегратора централизованно хранит метаданные об источниках данных и бизнес - объектах в своем репозитории, доступном всем инструментам платформы 35

Oracle BI Web предоставляет интерфейсы для всех компонент системы, используемых для визуализации данных. Отвечает за : авторизацию пользователей и персонализацию интерфейса для них генерацию логических запросов к аналитическому серверу хранение и администрирование метаданных ( Web - каталог ) для отчетов и интерактивных панелей осуществляет дополнительную пост - обработку данных 36

Oracle Delivers Server проактивная составляющая в платформе. Позволяет : задавать модели для выявления проблем фильтровать данные в соответствии с заданными правилами уведомлять пользователей по множеству каналов, включая электронную почту и SMS давать возможность пользователям принимать решение в ответ на оповещение Основные функции : создание и подписки на уведомления автоматическое оповещение и планировщики администрирование каналов и учетных записей доставки 37

Клиентские приложения BI Answers - инструмент для выполнения произвольных ( ad hoc ) запросов и анализа BI Interactive Dashboard - интерактивные информационные Web - панели, отображающие персонализированную информацию BI Publisher - масштабируемое средство формирования регламентированных отчетов в разных форматах на основе данных из множества источников и их рассылки по различным каналам BI Briefing Books - средство создания и просмотра « мгновенных снимков » информационных панелей 38

Клиентские приложения (2) BI Disconnected Analytics - средство доступа пользователей к возможностям BI Answers и BI Interactive Dashboard при работе в режиме оффлайн, предусматривает полную и инкрементальную синхронизацию данных мобильной среды с корпоративными источниками данных BI Office Plug - In - инструмент работы с аналитическим сервером через такие приложения как MS Word, Excel и Powerpoint BI Delivers - механизм распространения по различным каналам сообщений о событиях 39

Клиентские приложения (3) Все клиентские приложения реализованы в « чистой » Web - среде, на основе HTML, DHTML, JavaScript - пользователю не придется выполнять загрузку какого - либо клиента, использовать программные расширения, элементы управления на базе ActiveX или Java апплеты. Это позволяет пользователям работать с системой, откуда угодно для этого необходимо лишь иметь Web - браузер 40

Метаданные ( Enterprise Semantic Model ) 41

Спасибо за внимание ! 42