Линейное и нелинейное распознавание признаков неблагоприятных метео- и геомагнитных условий в отношении заболеванием инфарктом миокарда и гипертонической.

Презентация:



Advertisements
Похожие презентации
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Advertisements

С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Модель - случайная величина. Случайная величина (СВ) - это величина, которая в результате опыта может принять то или иное значение, причем заранее не.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
Полный дифференциал функции нескольких переменных Лекция 2.
Графический метод решения задач математического программирования 1. Общий вид задачи математического программирования Z = F(X) >min Z = F(X) >min g i (x.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Понятие о методах Монте-Карло. Расчет интегралов 2.5. Расчет интегралов методом Монте-Карло.
Анализ данных Лекция 5 Методы построения математических функций.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
ГРАНИЦЫ ДИФРАКЦИОННЫХ ПРИБЛИЖЕНИЙ. ДИСТАНЦИЯ РЭЛЕЯ Результат дифракции монохроматического излучения на каком-либо препятствии зависит не от абсолютных.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Транксрипт:

Линейное и нелинейное распознавание признаков неблагоприятных метео- и геомагнитных условий в отношении заболеванием инфарктом миокарда и гипертонической болезнью Ожередов В.А. 1/2, Бреус Т.К. 1, Гурфинкель Ю.И. 3, Ревич Б.А. 4, Митрофанова Т.А. 5 Т.А.Зенченко 1/6 1 ИКИ РАН, Москва, 2 SiA Technology, Москва, 3 Центральная Клиническая Больница 1 ОАО РосЖелДор, Москва; 3 Центральная Клиническая Больница 1 ОАО РосЖелДор, Москва; 4 Институт Народнохозяйственного Прогнозирования РАН, Москва; 5 ИЗМИРАН, Троицк, Московская Область 6 Институт теоретической и экспериментальной биофизики РАН Семинар «Методы исследования нелинейных электромагнитных явлений в сложных системах и их применение в медицине», Таруса, 8-10 Мая, 2009

Состояние вопроса и постановка задачи 1.Как известно, погодные условия и геомагнитная активность влияют на здоровье людей. Примеры: 2003 год, Франция, Италия; от сильной жары погибло от до человек гг, Москва, Россия; сильные магнитные бури с АА>60 привели к инфарктам миокарда из и 7% инсультов из Вопрос своевременного обнаружения опасных погодных условий по - прежнему остается весьма актуальным. 3. Известные до настоящего времени способы обнаружения погодных воздействий на человека [ Б. Ревич, Д. Шапошников, Т.Зенченко, Ю. Гурфинкель, Виллорези, Т.К. Бреус, Ф. Халберг] основывались на модели с постоянными характеристиками влияния погодной среды на организм, тогда как в реальности последний производит фильтрацию факторов по принципу winner takes it all. 4. Наша цель – на основе теории распознавания образов выявить потенциально опасные для здоровья области погодных параметров, при вхождении в которые погодные факторы получают наибольшее влияние из всех остальных.

Особенности модели распознавания применительно к задаче с инфарктами миокарда Сущность распознавания образов заключается в разделении параметрического пространства на подообласти, соответствующие разным ситуациям. Алгоритм разделения пространства требуется обучить. Обучение происходит по параметрам, полученным в уже известных ситуациях. Каждая ситуация принадлежит к известному классу. Пример: наша задача разделить пространство параметров погодных условий (температура – давление) на две области: 1) люди заболевают инфарктом миокарда при изменении погоды – один известный класс; 2) люди не реагируют на изменение погоды – второй известный класс. Материалы: База данных по ежедневным заболеваниям инфарктами миокарда в 2 клиниках Москвы измерений. База данных по гипертонической болезни – 8 чел. (680 ежесуточных измерений АД утром и вечером, Москва, РКНЦ им.Л.Мясникова) Измерения давления, температуры, и К-индекса за эти дни – классифицированные нами образы – всего 2800 и 680 образов. Образы, используемые в обучении, называются прецедентами. прецедентами.

Особенности модели распознавания применительно к нашей задаче (продолжение) Самым непараметрическим способом разделения является линейный. Q-мерное пространство делит гиперплоскость наделенную Q+1 параметром (исключение – Q=1 там 1 параметр). Это наименьшее число параметров, определяющих форму сепаратрисы. Поэтому мы используем его. Выпуклая оболочка – минимальное по включению выпуклое множество, содержащее прецеденты (данные по инфарктам миокарда). Устойчивость алгоритма линейного распознавания доказана для непересекающихся (в крайнем случае – частично пересекающихся) выпуклых оболочек. В нашем случае оболочки перекрываются полностью (см. рис.1), и центры обоих множеств почти совпадают. Причины полного перекрытия и близости центров – это то, что погодные факторы являются не основными агентами, действующими на заболеваемость инфарктами. Тем не менее – справа от сепаратрисы крестиков в два раза больше чем кружков, т.е. мы добиваемся достаточно эффективного разделения пространства признаков, и таким образом выделяем область максимальной температуры и скачка давления, которые приводят к возникновению инфарктов. Рис.1. Разделение (черная линия – сепаратриса) параметрического пространства масимальной температуры (за день) и скачка давления (по отношению к предыдущему дню). Крестики отражают ситуацию, когда в день измерения были инфаркты. Кружки – когда их не было. Черный и серый кресты – центры множеств кружков и крестиков соответственно.

Метод 1 Традиционные методы линейного разделения встречаются с необходимостью прямого перерасчета целевого функционала (баланс ошибок первого и второго рода) по всему множеству точек. К ошибкам первого рода относятся те, когда мы принимаем «плохой день» (с заболеванием ИМ) за обычный. К ошибкам второго рода относятся дни, когда мы принимаем «хорошие» условия (нет заболеваний ИМ) за плохие (заболевания есть). Этот функционал не будет гладким, и поиск его оптимальной величины потребует бесконечно большого времени. По этой причине мы вводим гладкий функционал, связанный с верхним пределом взвешенной суммы ошибок первого и второго рода. Процедура поиска его оптимального значения завершается за конечное время.

Оценки эффективности разделения и статистической достоверности

Результаты оценок эффективности и статистической достоверности Возьмем пары параметров погоды, дающих наиболее сильный вклад в эффект заболеваемости инфарктом миокарда. Рис.1 показывает разделение пространства признаков T макс и P. Рис.2 показывает статистику и эффективность разделения для разных соотношений вкладов ошибок первого и второго рода. Статистика это количество измерений принадлежащих «плохой» области. Эффективность это соотношение количеств «плохих» и «хороших» измерений соответственно в «плохой» области. Рис.2 Серыми цифрами показаны значения соотношения между ошибками первого и второго рода, принятыми для конечного распознавания, исходя из компромисса статистики и эффективности (λ).

Разделение в пространстве скачков давления Р и К-индекса Очевидно что K и P дают 13% статистики из 2800 случаев, т.е. 380 случаев, принадлежащих «плохой» области. Эта цифра максимальна среди исследованных нами пар. Ранние исследования давали такую же цифру 13% для Москвы за 3 года (из инфарктов миокарда) [Бреус, Раппопорт 2003]. Рис.3

Метод 2 Fig.4. Верхний график: Схематическое представление оценки импакт – фактора в случае двумерной картины для индивидуальных параметров. Черные точки – «плохие» измерения, когда были ИМ, белые точки соответствуют нормальной ситуации (нет ИМ). Черная линия – сепаратриса, приблизительно разделяющая нормальные и «плохие» измерения. На нижнем графике показан относительный вклад факторов космической и обычной погоды. Как можно видеть проекция вектора W (перпендикуляра к сепаратрисе) на ось p2 заметно больше проекции на ось p1. Таким образом, мы получаем относительные вклады каждого из 7 факторов (P, P, K – индекс, K, Tмакс, Tсредн, T), принимающего участие в формировании космической и обычной погоды. (см. рис.4 нижняя часть). Очевидно, что скачки атмосферного давления P, температура и скачки K играют главную роль в формировании «плохих» условий. Рис.4

Относительный вклад каждого из рассмотренных факторов погоды Таблица получена подсчетом квадратов проекций единичной нормали к сепаратрисе на оси параметров погоды при разделении в пространстве всех факторов одновременно (см. Рис.4, нижний график). Соотношение между вкладами факторов считается суммированием по параметрам, относящимся к одному и тому же фактору. Итого получаем: Т : K : Р = 26%, 20% и 34% : :, или T : K : P = 5 : 4 : 7 T : K : P = 5 : 4 : 7 Основной вклад вносит обычная погода. Общий вклад от геомагнитной активности составляет 20%. PPKK T макс T средн T

Заключение по инфарктам миркарда, Одновременные скачки индекса геомагнитной активности K и атмосферного давленияР приводят 13% заболеваний из 2800 случаев, т.е. 380 случаев, принадлежащих к области погодных условий, приводящих к катастрофам. Эта цифра максимальна среди исследованных нами пар метео и гемагнитных параметров. Ранние исследования давали такую же цифру для Москвы за 3 года (из инфарктов миокарда) [12]. Соотношение между вкладами факторов, просуммированных по исследованным параметрам, относящимся к одному и тому же фактору, приводят к следующему: T : K : P = 9 : 4 : 7 T : K : P = 9 : 4 : 7 Таким образом, в возникновение инфарктов основной вклад вносят изменения обычной погоды, главным образом, атмоферная температура. Общий вклад геомагнитной активности составляет 20% в те дни, когда возрастает число инфарктов. Из предыдущих работ известно, что основное влияние геомагнитные факторы оказывают на сосудистый тонус, и неспецифическая реакция на ГМА подобна реакции на метео-факторы (Бреус, Баевский и др. 1998). Поэтому в случае комбинированного действия геомагнитной активности на фоне, например, пониженных температур (холодовые волны) эффективность воздействия возрастает.

Концепция нечетких ассоциаций в нелинейной теории принятия решений Сущность распознавания образов заключается в разделении параметрического пространства на подообласти, соответствующие разным ситуациям. Алгоритм разделения пространства требуется обучить. Обучение происходит по параметрам, полученным в уже известных ситуациях. Каждая ситуация принадлежит к известному классу.

Причины и необходимость использования нелинейного разделения (достоинства и недостатки) Недостаточная эффективность линейного разделения при сильном пересечении Недостаточная эффективность линейного разделения при сильном пересечении выпуклых оболочек прецедентов Достоинства: Отсутствие жестких ограничений на модель генерации прецедентов. Хорошая эффективность разделения. Недостатки: Состоятельность оценок плотностей резко падает с ростом размерности. Разделение пространства признаков в случае непересечения (а) и пересечения (б) выпуклых оболочек прецедентов

Топологическая дифференциация прецедентов Прецедент – вектор из компонентов признаков ситуации и отклика Главный вопрос – насколько прогнозируемая ситуация близка к обучающим прецедентам и как количественно определяется понятие «БЛИЗКА»? «Ближайшие» (внутри эллипса на рис. внизу) к прогнозируемой ситуации прецеденты имеют большее влияние на прогнозирующий алгоритм, нежели более дальние – топологическая дифференциация

Нечеткая vs Четкая ассоциация Оптимизация алгоритма (нахождение «подгоночных» параметров топологической дифференциации) при прогнозировании / распознавании осуществляется по определенному критерию качества. Зависимость критерия качества от «подгоночных» параметров – функционал качества. Система обнаружения максимума должна чувствовать градиент функционала качества для выявления точки оптимальных параметров Для этого фукционал качества должен быть гладким Функционал качества получается гладким при нечетких ассоциациях (более далекие прецеденты меньше участвуют в процессе обучения) и негладким при четких (внутри дифференцирующего контура прецеденты в равной степени участвуют в обучении и перестают участвовать вообще вне его)

Нечеткая ассоциация и гладкость функционалов качества а) Четкая ассоциация (концепция «ближайшего соседа») б) Нечеткая ассоциация а) б)

Двухклассовая модель генерации прецедентов В обучении принимают участие рандомизированно отобранные из базы данных прецеденты обоих классов Рандомизация выбора гарантирует независимость обучающей выборки в совокупности Расположение обучающих прецедентов в пространстве признаков

Алгоритм рандомизации выбора (стохастический отбор без возвращения)

Оптимизация положения критического множества при заданных плотностях распределения: простая гипотеза против простой альтернативы

Многоядерная аппроксимация плотности

Результат рандомизированного выбора обучающих и экзаменационных прецедентов по данныим гипертонической болезни (680 прецедентов) Результат рандомизированного выбора обучающих и экзаменационных прецедентов по данныим гипертонической болезни (680 прецедентов)

Сигмоидная индикатриса нечеткой ассоциации, кривые ошибок I и II рода и критическая область для возникновения гипертонических кризов по по данныим гипертонической болезни (680 прецедентов)