SQL Server 2012 Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow ivank@microsoft.comivank@microsoft.com,

Презентация:



Advertisements
Похожие презентации
SQL Server 2012 Master Data Services Иван Косяков Архитектор программных систем, MTC
Advertisements

Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow
УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ ОРГАНИЗАЦИЙ DQS, MDS, SSIS, проект «Barcelona» Иван Косяков, Microsoft Голубицкий Евгений, Навикон Максим Гончаров, Microsoft.
Причины проблем с НСИ Нет единого источника правды, несоответствия справочников, несколько владельцев записи в справочнике Нет функции совместного управления.
Максим Войцеховский Консультант по бизнес решениям Microsoft Россия.
Microsoft SQL Server Сервер Веб-службыВеб-службы Службы клиента Объекты приложения Провайдер метаданных Библиотека классов Уровень клиента Встроенное.
Deductor 5 – новые возможности. BaseGroup Labs Развитие системы Deductor активно применяется во многих проектах. Новый функционал, расширяющий возможности.
Экспресс-обзор Microsoft BI 2010 Иван Косяков Архитектор (SQL/BI), MTC Moscow Лидер Russian Business Intelligence User Group (PASS Chapter)
Введение в Business Intelligence или как делать репорты красиво и быстро. Александр Иванов
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Построение системы мониторинга информационной среды Грунау Андрей Борисович 20/02/08
Обзор SQL Server «Denali» Иван Косяков Архитектор программных систем, MTC
Администрирование информационных систем Лекция 4. Система управления базами данных.
«Облачные» решения для управления SIM-картами Разработано Dinstar Technologies.
Базы данных и технологии баз данных, использующие объектную модель или ее элементы.
Бизнес-аналитика Microsoft Косяков Иван Архитектор (SQL-BI), MTC Moscow.
Microsoft Office Power Point 2007 Программа Microsoft Office Power Point 2007 дает возможность пользователям быстро создавать эффектные динамические.
Люди уже больше лет визуализируют свои мысли.
TEKTON-Matrix Платформа для распределённых приложений.
Симпозиум 2008 Сергей Шутов, ДИМАС Борис Егоров, Интерсистемс Практика использования Zen и Прототип-6.
Транксрипт:

SQL Server 2012 Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow

Содержание Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение

Что такое качество данных? Представляет уровень пригодности данных для использования в работе Определяется, измеряется и управляется через метрики: точность непротиворечивость полнота наличие дубликатов своевременность Обеспечивается людьми + технологиями + процессами

Общие проблемы качества данных ХарактеристикаВопросПример ФорматУдовлетворяют ли данные непротиворечивым стандартам форматирования? Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д. Соответствие стандарту Элементы данных непротиворечиво определены и понятны? Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе НепротиворечивостьЗначения представляют одинаковое значение? Доходы всегда представлены в рублях, или иногда в долларах? ПолнотаПрисутствуют ли все необходимые данные? Имя 20% клиентов пустое, 50% индексов равны ТочностьНасколько точно данные представляют реальность или состояние источника данных? Поставщик помеченный как «Активный» перестал существовать 6 лет назад. ПригодностьНаходится ли значение в пределах допустимых значений? Значения зарплаты должны быть между 60, ,000 Наличие дубликатовПоявляется ли одно и то же значение несколько раз? John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек?

Концепция Data Quality Services (DQS) Сервисы основаны на базе знаний о качестве данных (Data Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных На основе знаний Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных Семантика (смысл) Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей Обнаружение знаний Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные Открытые и расширяемые Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности Простота использования

Data Quality Services Процесс обеспечения качества данных Построение Использование DQ-проекты Управление знаниями Сопоставление и де-дубликация Корректировка и стандартизация Управление знаниями Обнаружение знаний Исследование данных Подсоединение справочников Данные организации Справочные данные Облачные сервисы Встроенное профилиро- вание Нотифиации Улучшение Состояние База знаний

Сопоставление Справочные данные Архитектура DQS DQ-клиенты Интерфейс DQS DQ-сервер Хранилище DQ-проектов Склад обобщенных знаний Склад баз знаний DQ-движок Сторонние Склад доменов MS DQ Сервисы справочных данных Справочные наборы данных SSIS DQ -компонент Активные DQ-проекты Домены данных MS Локальные домены данных Опублико- ванные базы знаний Обнаружение знаний Профилирование и исследование данных Очистка Обнаружение знаний и управление Интерактивные DQ-проекты Исследование данных Будущие клиенты (Excel, SharePoint…) Azure Market Place Категоризованные справочные данные Категоризованные сервисы справочных данных Reference Data API (Browse, Get, Update…) Reference Data API (Browse, Get, Update…) RD Services API (Browse, Set, Validate…) RD Services API (Browse, Set, Validate…)

Data Quality Knowledge Base (DQKB) What the DQKB contains ? Data Domains Examples : , gender, sate Composite Data Domain Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country) Domain Knowledge PropertiesName, type ValuesCorrect, Errors, Synonyms Rules Validation, Standardization, Business 3rd party reference Matching Policy Rules that drive the Matching computation

Высоко-уровневые сценарии DQS Создание и управление базами знаний о качестве данных (Data Quality Knowledge Bases или DQKBs) Исследование и интеграция со сторонними справочными данными Управление знаниями и ссылочными данными Корректировка Удаление дубликатов Стандартизация данных Очистка и сопоставление Инструменты мониторинга и контроля качества DQ- процессов Администрирование

Управление знаниями DQS-сервер Внешние знания – ссылочные сервисы и наборы данных Пример данных источника + сопоставление (mapping) Автоматически обнаруженные значения и правила Одобренные пользователем значения доменов и правила Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д. База знаний Политика сопоставления и определение справочных данных

Интерактивная очистка DQS-сервер Сервисы ссылочных данных НеправильныеНеправильные Корректные записи Исправленные записи Предлагаемые исправления Источник + сопоставление Значения/правила Определения справочных данных Политика сопоставления База знаний

Interactive Cleansing – Scenario Before: After: NameGenderStreetHouse NumberZip codeCityStateDate of Birth John DoeMale60th streat45 New York 08/12/64 Jane DoeMaleJonathan ln PoughkeepsyNY21-dec-1954 CompletenessAccuracyConformityConsistency NameGenderStreetHouse Number Zip code CityStateDate of Birth John DoeMaleE 60th St45W10022New YorkNY 08/12/64 Jane DoeFemaleJonathan Lane PoughkeepsieNY12/21/54

Значения/правила Определения справочных данных Политика сопоставления Пакетная очистка с помощью SSIS Source + Mapping Data correction Component SSIS-пакет Destination DQS-сервер Ссылочные сервисы данных Поток данных SSIS База знаний НеправильныеНеправильные Корректные записи Исправленные записи Предлагаемые исправления

Сопоставление Процесс сопоставления : 1.Тренировка 2.Сопоставление 3.Авто-подтверждение 4.Слияние/наследование DQS -сервер База знаний Источник + сопоставление Значения/правила Определения справочных данных Политика сопоставления

Сценарий сопоставления Before: After: NameAddressPostal CodeCityState John Smith 545 S Valley View Drive # AnytownNew York Margaret & John smith 545 Valley View ave unit AnytownNew York Maggie Smith 545 S Valley View Dr AnytownNew York John Smith545 Valley Drive St.34253NY NameAddressPostal CodeCityStateCluster John Smith 545 S Valley View Drive # AnytownNew York1 Margaret & John smith 545 Valley View ave unit AnytownNew York1 Maggie Smith 545 S Valley View Dr AnytownNew York1 John Smith545 Valley Drive St.34253NY 2

Производительность и удобство Для офисных пользователей Авто-обнаружение знаний Просты в использовании Большая база знаний Постоянное улучшение и расширение знаний Повторное использование Основаны на знаниях Заключение – характеристики DQS