Методы очистки и обогащения персональных данных. BaseGroup Labs Проблема Некачественный анализ Невозможность проведения анализа! Неполная информация Разрозненные.

Презентация:



Advertisements
Похожие презентации
Deductor в банковской аналитике. BaseGroup Labs Банковская аналитика Банковская аналитика охватывает большой спектр вопросов от консолидации и визуализации.
Advertisements

Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Особенности Data Mining проектов. BaseGroup Labs Отличие от стандартного проекта В большинстве случаев Data Mining проекты не оправдывают ожидания клиентов.
Data Mining – инструмент оптимизации работы с клиентами.
Анализ больших объемов данных. BaseGroup Labs Обработка больших объемов данных Во многих компаниях, особенно в розничных торговых сетях, аккумулируется.
Анализ бизнес информации – основные принципы. BaseGroup Labs Последовательность работы Сбор и систематизация данных Построение модели, объясняющей имеющиеся.
Data Mining – подготовка данных. BaseGroup Labs Последовательность работы Гипотеза, предположение Сбор и систематизация данных Подбор модели Тестирование,
Качество персональных данных. BaseGroup Labs Персональные данные – это… Персональными данными называется любая информация, относящаяся к определенному.
Обнаружение нетривиальных аномалий методами Data Mining.
Промышленное прогнозирование. BaseGroup Labs Постановка задачи Прогнозированием можно назвать любой способ предсказать значения одной переменной в зависимости.
Противодействие мошенничеству в розничной торговле.
Deductor 5 – новые возможности. BaseGroup Labs Развитие системы Deductor активно применяется во многих проектах. Новый функционал, расширяющий возможности.
E-learning – дистанционное обучение. BaseGroup Labs Что такое дистанционное обучение? Дистанционное обучение (ДО) – это способ организации учебного процесса.
Deductor – принципы работы. BaseGroup Labs Назначение системы Deductor является платформой, ориентированной на решение задач анализа самого широкого спектра:
Deductor – аналитическая платформа. BaseGroup Labs Назначение системы Deductor 5 является платформой, ориентированной на решение задач анализа любых структурированных.
Анализ данных в деятельности предприятия.
Оценка кредитоспособности физических лиц. BaseGroup Labs Составные части системы Система оценки рисков кредитования состоит из 2-х блоков: Скоринговая.
Маркетинг банковских продуктов и услуг. BaseGroup Labs Вектор развития По мере насыщения финансового рынка, борьба за каждого клиента становится более.
Методы построения скоринговых моделей. BaseGroup Labs Постановка задачи оценки рисков Любая проблема оценки рисков сводится к решению двух задач: Отнесение.
Deductor Inventory Stock Optimization. BaseGroup Labs Важность проблемы Большая часть финансовых средств торговой организации сосредоточена на складе,
Транксрипт:

Методы очистки и обогащения персональных данных

BaseGroup Labs Проблема Некачественный анализ Невозможность проведения анализа! Неполная информация Разрозненные источники Данные с ошибками

BaseGroup Labs Решение СтандартизацияОчистка и контрольОбогащение «Грязные» данные Качественные данные Комплекс мер по улучшению качества данных

BaseGroup Labs Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому формату данных. Задачи: Нормализация баз данных с целью удаления избыточности: разбиение на несколько таблиц, выделение первичных ключей… Разбор строк на атомарные объекты: разделение поля «ФИО» на значения «Фамилия», «Имя», «Отчество», разбор адреса по КЛАДР… Унификация представления: преобразование номеров телефонов к стандартному виду +7 (ХХХ) ХХХХХХХ…

BaseGroup Labs Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения. Значение Иван Петрович Сидоров, студент 5 курса РГРТУ, кафедра «ЭВМ» НазваниеЗначение ИмяИван ОтчествоПетрович ФамилияСидоров ВузРГРТУ КафедраЭВМ Курс5

BaseGroup Labs Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных. Стандартизированный адрес Индекс Область062Рязанская область Район018Сасовский район Код населённого пункта051п. Кустаревка Код улицы0700ул. Кооперативная Исходный адрес Пос. Кустаревка, Ул. Кооперативная Информация из КЛАДР Пос. Кустаревка Ул. Кооперативная

BaseGroup Labs Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны: находить в строке подстроки, удовлетворяющие заданному шаблону: поиск жителей, прописанных в Москве… извлекать из строки фрагменты, с заданным стандартом написания: выделение почтового индекса или года рождения… изменять в строке подстроки, соответствующие шаблону: удаление нечисловых символов из паспортных данных или телефона… проверять, соответствует ли строка заданному шаблону: проверка корректности …

BaseGroup Labs Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи: n Оценка достоверности информации n Выявление ошибочных и подозрительных данных: аномалий, дубликатов, противоречий… n Исправление выявленных ошибок

BaseGroup Labs Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных. Имя Количество человек ЖенМуж Александр2080 Жанна955 Наргиз928 Хамзат-оглы397 Юлия991 ИмяПол АлександрМужской ЖаннаЖенский НаргизЖенский Хамзат-оглыМужской ЮлияЖенский

BaseGroup Labs Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО, ОГРН… ИНН Контрольные числа 47 ИНН введен с ошибкой Контрольные числа не совпадают

BaseGroup Labs Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности… Игорь Имена из словаря Расстояние Левенштейна Игнатий5 Игорь2 Измаил5 Изот3 …… Словарь имен Игроь

BaseGroup Labs Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов. Стратегия поиска 1: совпадение паспортных данных Стратегия поиска 1: совпадение паспортных данных Стратегия поиска 2: совпадение ФИО + адрес + дата рождения Стратегия поиска 2: совпадение ФИО + адрес + дата рождения Стратегия поиска 3: совпадение ФИО + телефон Стратегия поиска 3: совпадение ФИО + телефон Стратегия поиска 4: совпадение ИНН Стратегия поиска 4: совпадение ИНН

BaseGroup Labs Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил очистки на контролируемые поля Способы замены: индексирование слов по их звучанию, кодирование… Проверка по статистическим значениям: по доверительному интервалу, средним значениям… Кластерный анализ: проверка написания значения с учетом попадания его в кластер…

BaseGroup Labs Обогащение: понятие Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с точки зрения решения той или иной аналитической задачи. Задачи: Интеграция данных из множества источников Выявление связей между объектами Заполнение пропусков

BaseGroup Labs Обогащение: интеграция с источниками Осуществляется сбор информации из различных внутренних и внешних источников: CRM-системы, БКИ, социальные сети, статистические службы… Данные о месте работы Образование, интересы… Профиль клиента Информация о займах Информация о предпочтениях, вкусах… История взаимоотношений Анкета

BaseGroup Labs Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними. Обогащение: анализ связей 21 год Студент МГУ ? Анализ друзей в социальной сети 21 год Студент МГУ 22 года Аспирант МГУ 25 год Выпускник МГУ Друзья в социальной сети

BaseGroup Labs Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений признаков объектов. ПризнакОбъект 1Объект 2 ФамилияИванов ГородРязаньг. Рязань Место работы ООО «Русь» ДолжностьДиректор Иванов Сидоров Иванов Петров Воробьев Ивакин

BaseGroup Labs Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов: Реорганизация самих данных: введение кодировок, признаков состояний объектов, подразделение их на категории… Нечеткий поиск: восстановление пропусков с помощью нечетких запросов… Анализ источников данных: рейтингование источников данных по достоверности…

BaseGroup Labs Резюме Качество персональных данных является проблемой, значительно снижающей результативность анализа. Принимать обоснованные решения можно, только базируясь на полных и достоверных сведениях. Применение специализированных инструментов и методов позволяет превратить собираемые в учетных системах данные в ценную информацию, используемую в процессе принятия решений.

BaseGroup Labs Результат Повышение информационной насыщенности Отсутствие ошибок, опечаток, дублей… Стандартизованное представление данных Пригодность для дальнейшего анализа Качественные данные

BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru