SQL Server 2012 Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow
Содержание Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS Заключение
Что такое качество данных? Представляет уровень пригодности данных для использования в работе Определяется, измеряется и управляется через метрики: точность непротиворечивость полнота наличие дубликатов своевременность Обеспечивается людьми + технологиями + процессами
Общие проблемы качества данных ХарактеристикаВопросПример ФорматУдовлетворяют ли данные непротиворечивым стандартам форматирования? Варианты телефонных номеров: xxxxxxxxxx, +x (xxx) xxx-xxxx, 1.xxx.xxx.xxxx, и т.д. Соответствие стандарту Элементы данных непротиворечиво определены и понятны? Пол = M, F, U в одной системе и Код пола = 0, 1, 2 в другой системе НепротиворечивостьЗначения представляют одинаковое значение? Доходы всегда представлены в рублях, или иногда в долларах? ПолнотаПрисутствуют ли все необходимые данные? Имя 20% клиентов пустое, 50% индексов равны ТочностьНасколько точно данные представляют реальность или состояние источника данных? Поставщик помеченный как «Активный» перестал существовать 6 лет назад. ПригодностьНаходится ли значение в пределах допустимых значений? Значения зарплаты должны быть между 60, ,000 Наличие дубликатовПоявляется ли одно и то же значение несколько раз? John Ryan и Jack Ryan присутствуют в системе – это один и тот же человек?
Концепция Data Quality Services (DQS) Сервисы основаны на базе знаний о качестве данных (Data Quality Knowledge Base, DQKB), которая повторно используется для множества улучшений качества данных На основе знаний Данные сопоставляются с доменами данных, которые отражают семантику (смысл) данных Семантика (смысл) Дополнительные знания обнаруживаются через примеры данных и корректировки пользователей Обнаружение знаний Сервисы поддерживают использование знаний, сгенерированных сторонними компаниями, предоставляющими справочные данные Открытые и расширяемые Сервисы предоставляют удобный интерфейс, разработанный с целью увеличения производительности Простота использования
Data Quality Services Процесс обеспечения качества данных Построение Использование DQ-проекты Управление знаниями Сопоставление и де-дубликация Корректировка и стандартизация Управление знаниями Обнаружение знаний Исследование данных Подсоединение справочников Данные организации Справочные данные Облачные сервисы Встроенное профилиро- вание Нотифиации Улучшение Состояние База знаний
Сопоставление Справочные данные Архитектура DQS DQ-клиенты Интерфейс DQS DQ-сервер Хранилище DQ-проектов Склад обобщенных знаний Склад баз знаний DQ-движок Сторонние Склад доменов MS DQ Сервисы справочных данных Справочные наборы данных SSIS DQ -компонент Активные DQ-проекты Домены данных MS Локальные домены данных Опублико- ванные базы знаний Обнаружение знаний Профилирование и исследование данных Очистка Обнаружение знаний и управление Интерактивные DQ-проекты Исследование данных Будущие клиенты (Excel, SharePoint…) Azure Market Place Категоризованные справочные данные Категоризованные сервисы справочных данных Reference Data API (Browse, Get, Update…) Reference Data API (Browse, Get, Update…) RD Services API (Browse, Set, Validate…) RD Services API (Browse, Set, Validate…)
Data Quality Knowledge Base (DQKB) What the DQKB contains ? Data Domains Examples : , gender, sate Composite Data Domain Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country) Domain Knowledge PropertiesName, type ValuesCorrect, Errors, Synonyms Rules Validation, Standardization, Business 3rd party reference Matching Policy Rules that drive the Matching computation
Высоко-уровневые сценарии DQS Создание и управление базами знаний о качестве данных (Data Quality Knowledge Bases или DQKBs) Исследование и интеграция со сторонними справочными данными Управление знаниями и ссылочными данными Корректировка Удаление дубликатов Стандартизация данных Очистка и сопоставление Инструменты мониторинга и контроля качества DQ- процессов Администрирование
Управление знаниями DQS-сервер Внешние знания – ссылочные сервисы и наборы данных Пример данных источника + сопоставление (mapping) Автоматически обнаруженные значения и правила Одобренные пользователем значения доменов и правила Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д. База знаний Политика сопоставления и определение справочных данных
Интерактивная очистка DQS-сервер Сервисы ссылочных данных НеправильныеНеправильные Корректные записи Исправленные записи Предлагаемые исправления Источник + сопоставление Значения/правила Определения справочных данных Политика сопоставления База знаний
Interactive Cleansing – Scenario Before: After: NameGenderStreetHouse NumberZip codeCityStateDate of Birth John DoeMale60th streat45 New York 08/12/64 Jane DoeMaleJonathan ln PoughkeepsyNY21-dec-1954 CompletenessAccuracyConformityConsistency NameGenderStreetHouse Number Zip code CityStateDate of Birth John DoeMaleE 60th St45W10022New YorkNY 08/12/64 Jane DoeFemaleJonathan Lane PoughkeepsieNY12/21/54
Значения/правила Определения справочных данных Политика сопоставления Пакетная очистка с помощью SSIS Source + Mapping Data correction Component SSIS-пакет Destination DQS-сервер Ссылочные сервисы данных Поток данных SSIS База знаний НеправильныеНеправильные Корректные записи Исправленные записи Предлагаемые исправления
Сопоставление Процесс сопоставления : 1.Тренировка 2.Сопоставление 3.Авто-подтверждение 4.Слияние/наследование DQS -сервер База знаний Источник + сопоставление Значения/правила Определения справочных данных Политика сопоставления
Сценарий сопоставления Before: After: NameAddressPostal CodeCityState John Smith 545 S Valley View Drive # AnytownNew York Margaret & John smith 545 Valley View ave unit AnytownNew York Maggie Smith 545 S Valley View Dr AnytownNew York John Smith545 Valley Drive St.34253NY NameAddressPostal CodeCityStateCluster John Smith 545 S Valley View Drive # AnytownNew York1 Margaret & John smith 545 Valley View ave unit AnytownNew York1 Maggie Smith 545 S Valley View Dr AnytownNew York1 John Smith545 Valley Drive St.34253NY 2
Производительность и удобство Для офисных пользователей Авто-обнаружение знаний Просты в использовании Большая база знаний Постоянное улучшение и расширение знаний Повторное использование Основаны на знаниях Заключение – характеристики DQS