УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИЙ DQS, MDS, SSIS, проект «Barcelona» Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft.

Презентация:



Advertisements
Похожие презентации
Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow
Advertisements

SQL Server 2012 Master Data Services Иван Косяков Архитектор программных систем, MTC
9:30 Приветственный кофе 10:00 Ключевой доклад 11:45 Аппаратные решения HP для платформы Microsoft BI Аппаратные решения HP для платформы Microsoft BI.
Причины проблем с НСИ Нет единого источника правды, несоответствия справочников, несколько владельцев записи в справочнике Нет функции совместного управления.
Максим Войцеховский Консультант по бизнес решениям Microsoft Россия.
Введение в Business Intelligence или как делать репорты красиво и быстро. Александр Иванов
Афанасьева С.В.. Data Mining (Интеллектуальный анализ данных) - это технология выявления скрытых взаимосвязей внутри больших баз данных. Является службой.
Концепция BI-портала на платформе Microsoft SharePoint Server.
Экспресс-обзор Microsoft BI 2010 Иван Косяков Архитектор (SQL/BI), MTC Moscow Лидер Russian Business Intelligence User Group (PASS Chapter)
Анализ данных и интеграция информационных систем Станислав Чистяков Старший Консультант 5 апреля 2011 года, гостиница «Золотое кольцо»
Премиум-версии: SQL Server 2008 R2 Parallel Data Warehouse SQL Server 2008 R2 Datacenter Основные версии: SQL Server 2008 R2 Enterprise SQL Server 2008.
Модуль 4 Коллективная бизнес аналитика. План модуля Что такое коллективная бизнес аналитика Средства BI в SharePoint 2010 Демонстрация коллективной бизнес.
Авторское право © BIT Impulse. Все права защищены. Инструмент для бизнес-анализа Система бизнес-аналитики
Системы автоматизации бюджетного планирования. Общая характеристика Организация справочных данных Организация расчетов Организация ввода данных Интеграция.
Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow.
Конференция «Платформа 2011» Онлайн-выставка решений партнеров.
> > Департамент Microsoft бизнес-приложений Константин Майоров Руководитель отдела Microsoft Office Решения.
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Cognos 8.2 BI Как облегчить жизнь IT-специалисту Ведешин Андрей ведущий консультант, Компания Robertson & Blums Corporation-Russia.
Платформа бизнес-аналитики Microsoft. Технологии, инструменты. Жданович Виталий +375 (17)
Транксрипт:

УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИЙ DQS, MDS, SSIS, проект «Barcelona» Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft

Содержание Введение Возможности MDS и DQS в SQL Server 2012 Методы выявления дублей и ошибок SSIS и совместное использование с DQS/MDS Проект «Barcelona» Заключение

v v Введение в EIM Иван Косяков Microsoft

Потребность в достоверных данных Увеличение эффективности Уменьшение затрат Увеличение доходов и прибыльности Уменьшение производительности Неудовлетворенность клиентов Несоответствие стандартам Уменьшение доходов и прибыльности Решения Некорректные и/или неполные данные Достоверные корректные данные Решения

Базовые компоненты аналитических решений Достоверные корректные данные Бизнес- пользователи Анализ данных Организация хранилищ данных Знания Управление

Постановка задачи Источники ХД ERP CRM HRMS Автоматизация загрузки данных из источников, управление загрузкой Автоматическая корректировка новых данных, управление правилами корректировки Сопоставление со справочной информацией, управление справочниками Анализ данных в различных источниках информации, отслеживание преобразований, управление изменениями

Компоненты Microsoft BI Бизнес-пользователи Достоверные данные Бизнес-аналитика Хранилища данных Знания Управление Microsoft Office Data Quality Services Master Data Services SQL Server Integration Services SQL Server Database Engine Fast Track Data Warehouse Parallel Data Warehouse SQL Server Analysis Services SQL Server Reporting Services SharePoint PowerPivot Power View Enterprise Information Management

v v Возможности MDS и DQS в SQL Server 2012 Голубицкий Евгений Руководитель проектов практики Интеграционных и НСИ решений

Проблемы Novartis Данные в различных форматах Разные названия продуктов и территорий Загрузка данных занимает много времени Ошибки во время преобразования данных 9

Система анализа и планирования в компании Novartis Вторичные продажиУправление скидками и прогнозамиКуб для оперативной аналитики

Архитектура решения для Novartis SSIS

Архитектура решения для Novartis SSAS

Роль MDS в ИТ инфраструктуре Novartis Наполнение справочниковНастройка справочниковДанные для аналитики 13

Неудобный интерфейс Отсутствует группировка сущностей Отсутствует модуль согласования Недостатки MDS 2008 R2

Интерфейс MDS 2008 R2

Интерфейс MDS

Быстрее 28 сек 11 сек MDS 2008 R2 MDS

Надстройка MDS 2012 для Excel 2010

Data Quality Service Массовая очистка данныхБаза знаний и мэппингПравила валидации

v v Демонстрация Data Quality Services

v v Алгоритмы определения дубликатов и ошибок в DQS Максим Гончаров, Microsoft

Выявление дубликатов Для выявления дубликатов мы задаем: Пороговое значение похожести записей Список столбцов, которые должны совпадать Список столбцов, которые мы анализируем на похожесть Весовые коэффициенту учета похожести каждого отдельного атрибута Алгоритм работает так: Сравниваются только те пары записей, у которых совпадают обязательные атрибуты Определяются степени похожести между парами атрибутов Определяется степень похожести пары записей усреднением степеней похожести пар атрибутов с весами Если степень похожести больше порога – сохраняем как дубль.

Выявление дубликатов Как DQS определяется степень похожести между строками? Популярные метрики: Hamming distance. Описывает «расстояние» между двумя строками одинаковой длины и является числом позиций в строках, в которых стоят разные значения. d H ( , ) = 2 Levenshtein distance. Минимальное число элементарных операций (вставка, удаление, замена одного символа), необходимые для приведения одной строки в другую. Иногда перестановка двух соседних символов считается также одной элементарной операцией. d L ("kitten", "sitting" is) = 3 kitten sitten (замена 's' на 'k') sitten sittin (замена 'i' на 'e') sittin sitting (добавление 'g' в конце) Jaccard index. Отношения числа одинаковых символов в двух строках к общему числу символов.

Выявление дубликатов Реализация в DQS: Levenshtein distance SELECT [internal_core].[CalculateEditDistanceScore](N'abc', N'acb', 0, 100, 1) 0,66 SELECT [internal_core].[CalculateEditDistanceScore](N'abc', N'acb', 0, 100, 0) 0,33

Выявление синтаксических ошибок Алгоритм «Анна Каренина» (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему): Если запись встречается часто, то скорее всего она правильно написана Если запись уникальна, но похожа на часто встречающуюся запись, то скорее всего она ошибочна.

v v Интеграционные проекты Integration Services + MDS/DQS, проект Barcelona Иван Косяков Microsoft

Большее удобство использовани я Улучшенное размещение, конфигурирован ие и управление SSIS Server Новая модель проекта для объединения пакетов и размещения (.ispac) Поддержка параметров (упрощение конфигурирования) Возможность использовать SSIS для диагностики работы SSIS Журналирование Отчетность Улучшения в SSIS 2012 Интерфейс Начальное обучение Продуктивность ETL-разработки Разделяемые менеджеры подсоединений Ключевые запросы пользователей Отмена операций (Undo) Новый формат пакетов Гибкий порядок авторства

Полностью интегрированное EIM-решение

v v Демонстрация Примеры EIM-пакетов в SSIS с использованием MDS/DQS

v v Проект «Barcelona» Иван Косяков Microsoft

Исследовать, связать и вывести поток данных SQL SSIS Плоский файл File, implied columnsPackages, data flows, connection managers, columns, etc. Servers, databases, tables, views, columns, sprocs, etc.

v v Демонстрация Исследование метаданных с помощью проекта Barcelona

Project Barcelona Архитектура API запросов к графу метаданных, аннотирования SQL IS Share Point Share Point Excel Сборщики сторонних разработчиков Сторонние интерфейсы и приложения для вертикальных решений Интерфейс администратора Интерфейс информационного эксперта Интерфейс DBA/IT Pro Интерфейс DBA/IT Pro API анализа собранных данных (crawler) Сервер индексирования Другие сборщики Microsoft

v v Заключение Иван Косяков Microsoft

Фазы процесса управления информацией Enterprise Information Management (EIM) Лидирующий инструмент ETL и интеграции данных Очистка и сопоставление данных, основанные на знаниях Обнаружение происхождения и связей между объектами Project Barcelona Integration Services Master Data Services Data Quality Services Интуитивное решение для создания и управления НСИ

Сценарий интегрированного управления данными Источники данных Очистить, сопоставить DQS Очистить, сопоставить DQS Согласовать MDS Согласовать MDS Сопоставить, дедуплицировать DQS Сопоставить, дедуплицировать DQS Извлечь SSIS Извлечь SSIS Опубликовать SSIS Опубликовать SSIS Обнаружить Barcelona Обнаружить Barcelona Инвентаризировать Barcelona Инвентаризировать Barcelona

Ресурсы Официальные ресурсы Русский сайт про SQL Server Microsoft BI на TechNet BI на Microsoft.com Books online for SQL Server 2012 Блог MicrosoftBI.ru Управление информацией организаций SQL Server 2008 R2 Master Data Services Новые возможности в SQL Server 2012 CTP3 для бизнес-аналитики