Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемbasegroup.ru
1 Качество персональных данных
2 BaseGroup Labs Персональные данные – это… Персональными данными называется любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу, в том числе его: фамилия, имя, отчество; год, месяц, дата и место рождения; адрес; семейное, социальное и имущественное положения; образование и профессия; доходы и другая информация.
3 BaseGroup Labs Ценность для компании Дальновидные компании тратят много усилий и средств на сбор персональной информации о своих клиентах. Персональная информация о клиентах с позиции компании – это: стратегия развития бизнеса; извлечение конкурентной выгоды; увеличение прибыли; уменьшение оттока клиентов; привлечение новых клиентов.
4 BaseGroup Labs Текущее положение дел На сегодняшний день по исследованиям Gartner Group 70% ведущих компаний не имеют единого представления о своих клиентах, но большинство из них в своих ближайших планах хотели бы получить его благодаря реализации проектов по интеграции и повышению качества данных. В небольших компаниях данная тема чаще всего вообще игнорируется.
5 BaseGroup Labs Проблема качества данных По утверждению аналитиков и пользователей баз данных, процесс предобработки информации может занять до 80% всего процесса анализа данных. ФамилияИмяОтчество Дата рождения Домашний телефон Город ИвановСергейИлич Суздаль PetrovMax2 /06/ АлеевМихаилИгоревич3 мая 1975 (495) г. Москва СережаИванов МалковаЕленаИвановна-нетПенза
6 BaseGroup Labs Причина возникновения проблемы Проблемы: ручной ввод, ошибки сканирования… Данные лежат в разных системах Нет первичной очистки данных Нет тиражируемости знаний Неоптимальная структура хранения Отсутствие мониторинга Использование Хранение Ввод
7 BaseGroup Labs Типичные виды ошибок Существует шесть типичных ошибок, которые «загрязняют» данные: 1.Опечатки в данных 2.Неполнота данных 3.Несоответствие форматов 4.Неправдоподобие данных 5.Дублирование данных 6.Противоречивость данных.
8 BaseGroup Labs Виды ошибок: опечатки Опечатка ошибка в тексте, появляющаяся обычно из-за невнимательности при наборе. Причина возникновения Неправильное название улиц Правильное название улиц Орфографическая ошибкаАлейнаяАллейная Орфо-фонетическая ошибкаМОГЭЗМОГЭС Ошибка сканированияЗубкова3убкова Ошибка при наборе с клавиатуры ЕсенинавЕсенина Ошибка при смене раскладки клавиатуры Садовая
9 BaseGroup Labs Виды ошибок: неполнота данных Неполнота данных возникает вследствие того, что информация в полях не заполнена вообще или заполнена частично. Причина отсутствияПолеПример Конфиденциальность информации Паспортные данные - Человеческий фактор (спешка, лень и т.п.) Адрес ул. Ак. Королева, 1, 6 Незнание информацииИндексXXX Изменение форматов данных Дата рождения
10 BaseGroup Labs Виды ошибок: несоответствие форматов Несоответствие форматов данных связано с тем, что однотипные данные в одном и том же поле записываются по-разному. Тип ошибкиТелефон Нет кода страны(4912) Не указан код города Не выделен добавочный номер+7 (4912) (12) 2 номера в одном поле240977,
11 BaseGroup Labs Виды ошибок: неправдоподобие Неправдоподобные значения – данные, резко отличающиеся от наиболее вероятных, например среднестатистических значений по всей выборке. Тип ошибкиЗначение Не соответствует матожиданию Зарплата менеджера в несколько раз превышает среднее значение по региону Выход за границы диапазона Стаж работы 90 лет Не подтверждается статистикой При возрасте в 20 лет указано звание «Доктор технических наук»
12 BaseGroup Labs Виды ошибок: дубликаты Дубликатами называют несколько записей, которые по существу подразумевают один и тот же объект. База данныхКомпанияГородДиректорТелефон ERPОАО«Луч»ТулуповМихаил +7 (495) CRMЛучТулупов М БухгалтерияЛуч, ОАО СайтТулуповМихаил
13 BaseGroup Labs Виды ошибок: противоречия Противоречия – ситуация, при которой значения нескольких полей или записей в базе данных не соответствуют друг другу. Пример противоречийПоле 1Поле 2 ФИО не соответствует полуКиселев АлександрЖенский Город не соответствует коду городского телефона Рязань +7 (495) Возраст не соответствует дню рождения 41 год Адрес не соответствует индексу г. Рязань, ул. Есенина, д. 1, кв
14 BaseGroup Labs Решение проблемы Качественные персональные данные можно обеспечить при реализации целого комплекса мер: Наличие регламента – формализация требований к качеству данных Контроль при вводе – выявление наиболее очевидных ошибок: пропуски, форматы, типы данных… Проверка при загрузке в базу – обеспечение целостности информации: дубликаты, противоречия, неправдоподобие… Регулярный мониторинг – выявление ошибок, заметных только при сравнении новых данных с уже существующими.
15 BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.