Алёна Владимировна СУВОРОВА, м.н.с. Лаборатория ТиМПИ, СПИИРАН 1 МОДЕЛИРОВАНИЕ СОЦИАЛЬНО- ЗНАЧИМОГО ПОВЕДЕНИЯ РЕСПОНДЕНТОВ ПО ДАННЫМ О ЕГО ОСОБЫХ ЭПИЗОДАХ
План доклада Постановка проблемы Исходные данные Вероятностный подход к оцениванию интенсивности По последним эпизодам По рекордным интервалам Обработка неполных и неточных данных Обобщенная модель Применение вероятностных графических моделей Описание модели Преимущества подхода Расширение модели Разработанное программное обеспечение Гранты и проекты 2
Постановка проблемы Эпидемиология Медицина Рискованное поведение Социо-инженерные атаки Манипулирование оператором Угрозообразующее поведение 3
Исходные данные Прямые измерения Дневниковый метод Круглосуточный мониторинг Самоотчеты респондентов Прямые вопросы Лайкерт-шкалы Опросы об эпизодах поведения 4 Способ получения исходных данных
Опросы об эпизодах поведения 5 Способ получения исходных данных «Когда в последний раз Вы делали …?» Последние эпизоды поведения «Каким был минимальный интервал между эпизодами… за последние 6 месяцев?» «Каким был максимальный интервал между эпизодами… за последние 6 месяцев?» Рекордные интервалы стабильность воспроизведения количественные значения ответы выражены на естественном языке
Цель исследований развитие методологии представления, агрегирования и обработки данных и знаний (полученных из самоотчетов респондентов) в условиях информационного дефицита для последующего формирования и расчета косвенных оценок интенсивности социально- значимого поведения. 6
Вероятностный подход Поведение рассматривается как случайный процесс некоторого класса – Пуассоновский процесс k число последовательных событий, которые вспомнил респондент, а T тот период времени, за который эти эпизоды произошли, λ интенсивность. – Модификации пуассоновского процесса – Эмпирические распределения 7 Эпизоды поведения время
По последним эпизодам Оценка методом максимального правдоподобия (пуассоновский процесс) 8 k число последовательных событий, которые вспомнил респондент, а T тот период времени, за который эти эпизоды произошли Момент интервью Последние эпизоды Период T
Последний интервал Неявно делается предположение, что момент интервью является эпизодом поведения Возникновение систематической ошибки Рассмотрены несколько подходов, позволяющих избежать такого предположения – модификация функции правдоподобия – коррекция вероятностного распределения для длины последнего интервала – рассмотрение распределения особого вида 9
С учетом исправленной вероятности вычисление оценки интенсивности методом максимального правдоподобия сводится к решению уравнения Уравнение имеет единственное решение Знаменатель раскладывается в ряд: Значение интенсивности можно найти с помощью численных методов Коррекция 10
Численные эксперименты Таблица. Сравнение оценок интенсивности
Длина интервала между последним эпизодом и моментом интервью имеет следующее распределение (принадлежащее к классу бета- простых распределений) Бета-распределение 12 чем длиннее интервал между эпизодами, тем более вероятно, что момент интервью попадет в этот (более длинный) интервал Наблюдение где К нормирующая константа, σ, η параметры, характеризующие интенсивность. Функция правдоподобия имеет вид:.
Максимальный и минимальный интервалы между эпизодами рискованного поведения за заданный период времени рассматриваются как члены вариационного ряда, что позволяет воспользоваться аппаратом теории рекордов Плотности распределения соответствующих порядковых статистик и их сочетаний имеют вид Оценка интенсивности вычисляется методом максимального правдоподобия По рекордным интервалам 13
Неполнота и неточность ответов Высказывания на естественном языке Влияние единиц измерения – «семь дней назад» vs «неделю назад» Рандомизация неопределенности ответа 14
Обработка неопределенности 15 Момент интервью Полученный ответ «неделю назад» Длина интервала «семь дней» Веса точек
Обобщенная модель Предложен подход к построению модели, учитывающей одновременно данные о последних эпизодах поведения и сведения о рекордных интервалах Поведение рассматривается как пуассоновской процесс Метод максимального правдоподобия для оценки интенсивности поведения 16
Функция правдоподобия 17
Следующий этап Исследовать аспекты сходимости ряда Развить процедуры и методы вычисления полученного выражения Добавить обработку неточности исходных данных Развить процедуры поиска экстремума Необходимо 18 Рассмотрение в качестве модели поведения других случайных процессов потребует повторения всех шагов
Альтернативный подход Задачу об оценке интенсивности социально- значимого поведения удобно свести через ряд промежуточных шагов к разработке особой вероятностной графической модели класса байесовских сетей доверия 19
Описание модели 20
Формальная спецификация 21
Преимущества Использование существующего алгоритмического аппарата Свободно распространяемый программный инструментарий для проведения вычислительных экспериментов и для применения в практических целях 22
Расширение модели 23
Расширение модели Влияние внешних факторов Вычисление относительных оценок Оценивание эффективности превенций Мониторинг и прогнозирование 24
Программный комплекс: по последним эпизодам 25
Программный комплекс: по рекордным интервалам 26
Гранты и проекты «Alcohol and HIV Risk Reduction in St. Petersburg, R.F.» (субконтракт M13A11589 (А06995) с Йельским университетом, США) Проект «Модели и алгоритмы анализа сверхкоротких неточных временных рядов на основе гранулярных данных и знаний» (Грант Правительства Санкт-Петербурга) «Развитие теории алгебраических байесовских сетей и родственных им логико-вероятностных графических моделей систем знаний с неопределенностью» (Грант РФФИ на 2012–2014 гг., проект а) 27
Алёна Владимировна СУВОРОВА, м.н.с. Лаборатория ТиМПИ, СПИИРАН 28 МОДЕЛИРОВАНИЕ СОЦИАЛЬНО- ЗНАЧИМОГО ПОВЕДЕНИЯ РЕСПОНДЕНТОВ ПО ДАННЫМ О ЕГО ОСОБЫХ ЭПИЗОДАХ