Качество персональных данных. BaseGroup Labs Персональные данные – это… Персональными данными называется любая информация, относящаяся к определенному.

Презентация:



Advertisements
Похожие презентации
Особенности Data Mining проектов. BaseGroup Labs Отличие от стандартного проекта В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов.
Advertisements

Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Deductor 5 – эволюция платформы. BaseGroup Labs Причины изменений Deductor изменялся под влиянием требований, возникающих при его применения в реальных.
Анализ больших объемов данных. BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется.
Data Mining – инструмент оптимизации работы с клиентами.
Обнаружение нетривиальных аномалий методами Data Mining.
E-learning – дистанционное обучение. BaseGroup Labs Что такое дистанционное обучение? Дистанционное обучение (ДО) – это способ организации учебного процесса.
Противодействие мошенничеству в розничной торговле.
BaseGroup Labs и вузы-партнеры: промежуточные итоги Николай Паклин.
Data Mining – подготовка данных. BaseGroup Labs Последовательность работы Гипотеза, предположение Сбор и систематизация данных Подбор модели Тестирование,
Методы очистки и обогащения персональных данных. BaseGroup Labs Проблема Некачественный анализ Невозможность проведения анализа! Неполная информация Разрозненные.
Промышленное прогнозирование. BaseGroup Labs Постановка задачи Прогнозированием можно назвать любой способ предсказать значения одной переменной в зависимости.
Оптимизация товарных запасов: от прогнозов к финансовой выгоде.
Deductor Inventory Stock Optimization. BaseGroup Labs Важность проблемы Большая часть финансовых средств торговой организации сосредоточена на складе,
Оценка кредитоспособности физических лиц. BaseGroup Labs Составные части системы Система оценки рисков кредитования состоит из 2-х блоков: Скоринговая.
BaseGroup Labs: профиль компании. BaseGroup Labs BaseGroup Labs – вендор Создание: 1995 год Головной офис в Рязани Занимаемся интересными проектами: НЕ.
Deductor 5 – новые возможности. BaseGroup Labs Развитие системы Deductor активно применяется во многих проектах. Новый функционал, расширяющий возможности.
Анализ данных в деятельности предприятия.
Маркетинг банковских продуктов и услуг. BaseGroup Labs Вектор развития По мере насыщения финансового рынка, борьба за каждого клиента становится более.
Транксрипт:

Качество персональных данных

BaseGroup Labs Персональные данные – это… Персональными данными называется любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу, в том числе его: фамилия, имя, отчество; год, месяц, дата и место рождения; адрес; семейное, социальное и имущественное положения; образование и профессия; доходы и другая информация.

BaseGroup Labs Ценность для компании Дальновидные компании тратят много усилий и средств на сбор персональной информации о своих клиентах. Персональная информация о клиентах с позиции компании – это: стратегия развития бизнеса; извлечение конкурентной выгоды; увеличение прибыли; уменьшение оттока клиентов; привлечение новых клиентов.

BaseGroup Labs Текущее положение дел На сегодняшний день по исследованиям Gartner Group 70% ведущих компаний не имеют единого представления о своих клиентах, но большинство из них в своих ближайших планах хотели бы получить его благодаря реализации проектов по интеграции и повышению качества данных. В небольших компаниях данная тема чаще всего вообще игнорируется.

BaseGroup Labs Проблема качества данных По утверждению аналитиков и пользователей баз данных, процесс предобработки информации может занять до 80% всего процесса анализа данных. ФамилияИмяОтчество Дата рождения Домашний телефон Город ИвановСергейИлич Суздаль PetrovMax2 /06/ АлеевМихаилИгоревич3 мая 1975 (495) г. Москва СережаИванов МалковаЕленаИвановна-нетПенза

BaseGroup Labs Причина возникновения проблемы Проблемы: ручной ввод, ошибки сканирования… Данные лежат в разных системах Нет первичной очистки данных Нет тиражируемости знаний Неоптимальная структура хранения Отсутствие мониторинга Использование Хранение Ввод

BaseGroup Labs Типичные виды ошибок Существует шесть типичных ошибок, которые «загрязняют» данные: 1.Опечатки в данных 2.Неполнота данных 3.Несоответствие форматов 4.Неправдоподобие данных 5.Дублирование данных 6.Противоречивость данных.

BaseGroup Labs Виды ошибок: опечатки Опечатка ошибка в тексте, появляющаяся обычно из-за невнимательности при наборе. Причина возникновения Неправильное название улиц Правильное название улиц Орфографическая ошибкаАлейнаяАллейная Орфо-фонетическая ошибкаМОГЭЗМОГЭС Ошибка сканированияЗубкова3убкова Ошибка при наборе с клавиатуры ЕсенинавЕсенина Ошибка при смене раскладки клавиатуры Садовая

BaseGroup Labs Виды ошибок: неполнота данных Неполнота данных возникает вследствие того, что информация в полях не заполнена вообще или заполнена частично. Причина отсутствияПолеПример Конфиденциальность информации Паспортные данные - Человеческий фактор (спешка, лень и т.п.) Адрес ул. Ак. Королева, 1, 6 Незнание информацииИндексXXX Изменение форматов данных Дата рождения

BaseGroup Labs Виды ошибок: несоответствие форматов Несоответствие форматов данных связано с тем, что однотипные данные в одном и том же поле записываются по-разному. Тип ошибкиТелефон Нет кода страны(4912) Не указан код города Не выделен добавочный номер+7 (4912) (12) 2 номера в одном поле240977,

BaseGroup Labs Виды ошибок: неправдоподобие Неправдоподобные значения – данные, резко отличающиеся от наиболее вероятных, например среднестатистических значений по всей выборке. Тип ошибкиЗначение Не соответствует матожиданию Зарплата менеджера в несколько раз превышает среднее значение по региону Выход за границы диапазона Стаж работы 90 лет Не подтверждается статистикой При возрасте в 20 лет указано звание «Доктор технических наук»

BaseGroup Labs Виды ошибок: дубликаты Дубликатами называют несколько записей, которые по существу подразумевают один и тот же объект. База данныхКомпанияГородДиректорТелефон ERPОАО«Луч»ТулуповМихаил +7 (495) CRMЛучТулупов М БухгалтерияЛуч, ОАО СайтТулуповМихаил

BaseGroup Labs Виды ошибок: противоречия Противоречия – ситуация, при которой значения нескольких полей или записей в базе данных не соответствуют друг другу. Пример противоречийПоле 1Поле 2 ФИО не соответствует полуКиселев АлександрЖенский Город не соответствует коду городского телефона Рязань +7 (495) Возраст не соответствует дню рождения 41 год Адрес не соответствует индексу г. Рязань, ул. Есенина, д. 1, кв

BaseGroup Labs Решение проблемы Качественные персональные данные можно обеспечить при реализации целого комплекса мер: Наличие регламента – формализация требований к качеству данных Контроль при вводе – выявление наиболее очевидных ошибок: пропуски, форматы, типы данных… Проверка при загрузке в базу – обеспечение целостности информации: дубликаты, противоречия, неправдоподобие… Регулярный мониторинг – выявление ошибок, заметных только при сравнении новых данных с уже существующими.

BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru