Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемbasegroup.ru
1 Методы очистки и обогащения персональных данных
2 BaseGroup Labs Проблема Некачественный анализ Невозможность проведения анализа! Неполная информация Разрозненные источники Данные с ошибками
3 BaseGroup Labs Решение СтандартизацияОчистка и контрольОбогащение «Грязные» данные Качественные данные Комплекс мер по улучшению качества данных
4 BaseGroup Labs Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому формату данных. Задачи: Нормализация баз данных с целью удаления избыточности: разбиение на несколько таблиц, выделение первичных ключей… Разбор строк на атомарные объекты: разделение поля «ФИО» на значения «Фамилия», «Имя», «Отчество», разбор адреса по КЛАДР… Унификация представления: преобразование номеров телефонов к стандартному виду +7 (ХХХ) ХХХХХХХ…
5 BaseGroup Labs Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения. Значение Иван Петрович Сидоров, студент 5 курса РГРТУ, кафедра «ЭВМ» НазваниеЗначение ИмяИван ОтчествоПетрович ФамилияСидоров ВузРГРТУ КафедраЭВМ Курс5
6 BaseGroup Labs Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных. Стандартизированный адрес Индекс Область062Рязанская область Район018Сасовский район Код населённого пункта051п. Кустаревка Код улицы0700ул. Кооперативная Исходный адрес Пос. Кустаревка, Ул. Кооперативная Информация из КЛАДР Пос. Кустаревка Ул. Кооперативная
7 BaseGroup Labs Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны: находить в строке подстроки, удовлетворяющие заданному шаблону: поиск жителей, прописанных в Москве… извлекать из строки фрагменты, с заданным стандартом написания: выделение почтового индекса или года рождения… изменять в строке подстроки, соответствующие шаблону: удаление нечисловых символов из паспортных данных или телефона… проверять, соответствует ли строка заданному шаблону: проверка корректности …
8 BaseGroup Labs Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи: n Оценка достоверности информации n Выявление ошибочных и подозрительных данных: аномалий, дубликатов, противоречий… n Исправление выявленных ошибок
9 BaseGroup Labs Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных. Имя Количество человек ЖенМуж Александр2080 Жанна955 Наргиз928 Хамзат-оглы397 Юлия991 ИмяПол АлександрМужской ЖаннаЖенский НаргизЖенский Хамзат-оглыМужской ЮлияЖенский
10 BaseGroup Labs Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО, ОГРН… ИНН Контрольные числа 47 ИНН введен с ошибкой Контрольные числа не совпадают
11 BaseGroup Labs Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности… Игорь Имена из словаря Расстояние Левенштейна Игнатий5 Игорь2 Измаил5 Изот3 …… Словарь имен Игроь
12 BaseGroup Labs Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов. Стратегия поиска 1: совпадение паспортных данных Стратегия поиска 1: совпадение паспортных данных Стратегия поиска 2: совпадение ФИО + адрес + дата рождения Стратегия поиска 2: совпадение ФИО + адрес + дата рождения Стратегия поиска 3: совпадение ФИО + телефон Стратегия поиска 3: совпадение ФИО + телефон Стратегия поиска 4: совпадение ИНН Стратегия поиска 4: совпадение ИНН
13 BaseGroup Labs Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил очистки на контролируемые поля Способы замены: индексирование слов по их звучанию, кодирование… Проверка по статистическим значениям: по доверительному интервалу, средним значениям… Кластерный анализ: проверка написания значения с учетом попадания его в кластер…
14 BaseGroup Labs Обогащение: понятие Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с точки зрения решения той или иной аналитической задачи. Задачи: Интеграция данных из множества источников Выявление связей между объектами Заполнение пропусков
15 BaseGroup Labs Обогащение: интеграция с источниками Осуществляется сбор информации из различных внутренних и внешних источников: CRM-системы, БКИ, социальные сети, статистические службы… Данные о месте работы Образование, интересы… Профиль клиента Информация о займах Информация о предпочтениях, вкусах… История взаимоотношений Анкета
16 BaseGroup Labs Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними. Обогащение: анализ связей 21 год Студент МГУ ? Анализ друзей в социальной сети 21 год Студент МГУ 22 года Аспирант МГУ 25 год Выпускник МГУ Друзья в социальной сети
17 BaseGroup Labs Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений признаков объектов. ПризнакОбъект 1Объект 2 ФамилияИванов ГородРязаньг. Рязань Место работы ООО «Русь» ДолжностьДиректор Иванов Сидоров Иванов Петров Воробьев Ивакин
18 BaseGroup Labs Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов: Реорганизация самих данных: введение кодировок, признаков состояний объектов, подразделение их на категории… Нечеткий поиск: восстановление пропусков с помощью нечетких запросов… Анализ источников данных: рейтингование источников данных по достоверности…
19 BaseGroup Labs Резюме Качество персональных данных является проблемой, значительно снижающей результативность анализа. Принимать обоснованные решения можно, только базируясь на полных и достоверных сведениях. Применение специализированных инструментов и методов позволяет превратить собираемые в учетных системах данные в ценную информацию, используемую в процессе принятия решений.
20 BaseGroup Labs Результат Повышение информационной насыщенности Отсутствие ошибок, опечаток, дублей… Стандартизованное представление данных Пригодность для дальнейшего анализа Качественные данные
21 BaseGroup Labs BaseGroup Labs – профессиональный поставщик Data Warehouse, OLAP, KDD, Data Mining решений и инструментов. Web-сайт: Образование: edu.basegroup.ruedu.basegroup.ru
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.