Институт общей генетики им. Н.И. Вавилова РАН 5. Анализ зависимостей Рубанович А.В. Биостатистика.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Корреляция Примеры 1. Менеджер интересуется, зависит ли объем продаж в этом месяце от объема рекламы в этом же периоде? 2. Преподаватель хочет выяснить,
Лекция 10 Временные ряды в эконометрических исследованиях.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Общая теория статистики Регрессионно- корреляционный анализ.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Лекция 8 Временные ряды в эконометрических исследованиях.
Институт общей генетики им. Н.И. Вавилова РАН 2. Первичный обзор данных Рубанович А.В. Биостатистика.
Российский университет дружбы народов Кафедра экономико-математического моделирования В.И. Дихтяр ФИНАНСОВЫЙ МЕНЕДЖМЕНТ Раздел 2.Инвестиционные решения.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Математические методы оценки взаимосвязи
Анализ связи между атрибутивными признаками. Взаимосвязь между атрибутивными признаками анализируют­ся посредством таблиц взаимной сопряженности. Они.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
Основы корреляционного и регрессионного анализа. План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной.
Транксрипт:

Институт общей генетики им. Н.И. Вавилова РАН 5. Анализ зависимостей Рубанович А.В. Биостатистика

Чем мы занимались на предыдущем занятии? Мы припомнили, что такое критерий «хи-квадрат» и для каких целей его можно использовать Таковых мы определили три: - проверка согласования данных с ожидаемым распределением - проверка независимости 2 признаков - проверка однородности совокупности выборок В основном методами сравнения дискретных распределений, например теоретического с экспериментальным Пора перейти к рассмотрению характеристик степени сопряженности признаков

Регрессионный анализ Вернемся к количественным признакам и для нашего учебного файла построим зависимость веса от роста Ясно, что существует тенденция: чем больше рост, тем больше вес человека. Можно попытаться выразить эту зависимость линейным уравнением: y = a + bx, где в x – рост, y – вес человека. Вопрос в том, как провести эту прямую. РостВес …… Среднее Ясно, что д. б. Но каков наклон?

Регрессионный анализ Строгий ответ но этот вопрос дает xy x1x1 y1y1 x2x2 y2y2 …… xnxn ynyn Метод наименьших квадратов Гаусса Запоминать не нужно, но постарайтесь прочувствовать: если x и y не связаны, то Если x и y независимы, то, откуда b = 0

Уравнение линейной регрессии Свободный член a = Наклон линейной регрессии b = =НАКЛОН(массив y; массив x) =ОТРЕЗОК(массив y; массив x) В статье указываем: Вес = -2,9 + 0,5 Рост Уравнение регрессии можно использовать для прогнозов: При росте 220 прогноз веса = -2,9 + 0,5 220 = Теперь мы можем нарисовать:

Уравнение линейной регрессии Построение средствами Строим график «Мастером диаграмм», Excel Мастер диаграмм / Точечная / Ряды Диаграмма / Линия тренда а затем добавляем линию тренда:

Уравнение линейной регрессии Ошибки коэффициентов уравнения WinStat / Stattistics / Regression / Multiple a b Значим только наклон b

Обобщения Регрессия может быть: WinStat / Stattistics / Regression / Multiple многомерной: y = a + b 1 x 1 + b 2 x 2 нелинейной: y = a + b 1 x+ b 2 x 2 WinStat / Stattistics / Regression / Polynomial

Корреляционный анализ Коэффициент корреляции – самый удобный и популярный показатель сопряженности количественных признаков Свойства: -1 r 1 r = 0 при отсутствии линейной связи между признаками r = 1 при линейной положительной связи между признаками r = -1 при линейной отрицательной связи между признаками Карл Пирсон r 2 - доля изменчивости признака y, которая определяется признаком x (коэффициент детерминации)

Корреляционный анализ r = 1 r = -1 r = 0.8 r = -0.8 r = 0

Упражняемся … Для файла «Примеры» посчитаем корреляцию между весом и ростом =КОРРЕЛ(массив 1; массив 2) Чему равна корреляция оценок по физике и физкультуре 0.6 Физика Физку льтура Физика Физку льтура Физика Физку льтура r=1, a=0, b=1r=1, a=1, b=1r=0, a=5, b=0

Корреляционный матрица Bird-view обзор взаимосвязей между признаками WinStat / Stattistics / Correlations / Pearson

Важные предупреждения Наличие корреляции не является указанием на причинно - следственные связи! Например, систолическое давление у преподавателей КазГУ наверняка коррелирует с их зарплатой. Но не означает, что подвышенное давление приводит к повышению зарплаты! Отсутствие корреляции означает отсутствие линейной связи. Но связь может быть нелинейной, причем такой, что r = 0. r = 0 Неоднородность выборки может привести к парадоксальным выводам!

Неоднородные выборки Октябрь Сентябрь Август Температура в комнате, о С Расход энергии, кВт/день 025 Температура на даче в зависимости от расхода электроэнергии Отрицательная корреляция между температурой и расходом энергии!

r = 0.6 Неоднородные выборки Не следует считать корреляции для таких случаев: r = -0.6 При работе с неоднородными данными возникают невероятные ситуации. Всегда ищите страты! Стратификация – разбиение выборки на страты, т.е на группы, объединенные неким признаком (время проведения опыта, возраст, образование, национальность, курение и т.д.) Этот признак может быть незримым конфаундером, т.е. признаком, создающим ложный эффект за счет неоднородности выборки

Неоднородные выборки Октябрь Сентябрь Август Температура в комнате, о С Расход энергии, кВт/день 025 Отрицательная корреляция между температурой и расходом энергии! Осторожно, страты! Признак-конфаундер – время года

При объединении гетерогенных выборок возможно все! Эффект может: Появиться Исчезнуть Приобрести противоположное направление! Чем чревато объединение выборок? Осторожно, страты! У студентов РУДН 70% высоко полиморфных SNP «ассоциированы» с успеваемостью (p

Парадокс Симпсона (1951) 5 мальчиков 5 девочек МехматПоступили 3 из 4 (75%)Поступили 1 из 1 (100%) БиофакПоступили 0 из 1 (0%)Поступили 1 из 4 (25%) Всего3 из 5 (60%)2 из 5 (40%) < < > 10 выпускников (5 мальчиков и 5 девочек) поступают в КазГУ: Первые сообщения о парадоксе: Карл Пирсон (1899), Джордж Юле (1903) Мальчики поступали хуже девочек Мальчики поступали лучше девочек!

Это не статистка! Это геометрия … Опыт 1 (контроль) Опыт 1 (больные) Опыт 2 (больные) Опыт 2 (контроль) Число лиц с эффектом Объем выборки 0 Опыты 1+2 (больные) Опыты 1+2 (контроль) Наклон равен частоте лиц с наблюдаемым эффектом (в данном случае 3/100) В обоих экспериментах среди больных частота лиц с эффектом выше, чем в контроле Объединяем данные двух экспериментов… После слияния выборок частота лиц с эффектом в контроле выше!

Контрольная группа 100 Нет аберраций Экспонированная группа аберраций Сравнение двух групп по частотам аберраций # людей# метафаз# аберрацийЧастота Контроль Экспонированные «1 из 100» против «0 из 100»: p=0.5 (one-tailed Fisher) «6 на » против «0 на » Сравнение индивидуальных частот аберраций по тесту Манна-Уитни : p=0.317 Анализируем по 100 метафаз на человека Многие исследователи, определяя групповую частоту аберраций, складывают все аберрации в группе и делят на общее число просмотренных метафаз По частоте людей с аберрациями: По частоте аберраций: При одинаковом числе просмотренных метафаз значимость отличий зависит только от числа аберраций: 0 от 6 1 от 9 2 от : p=0.014 (one-tailed Fisher)

Показатели степени сопряженности признаков r - коэффициент корреляции Для количественных признаков: Для качественных признаков: OR - отношение шансов

Здоровые Control Больные Case D M ab cd Носители маркера Свободны от маркера И снова таблица сопряженности 2 2 Сопряженность качественных признаков Случаи, когда маркер не сработал Случаи, когда маркер сработал Отношение шансов (Odd Ratio):

Упражняемся … 10 здоровых 10 больных D M ЗдоровыеБольные Носители маркера Свободны от маркера Заодно посчитаем значимость: р = 0.02

Свойства показателя OR OR = 1 - нет эффекта (маркер не сопряжен с заболеванием) OR >> 1 - сильный эффект, сильная положительная ассоциация (маркер сопряжен с заболеванием) OR

Шанс (odd) Частота (доля) Отношение шансов (Odd Ratio) Отношение рисков (Risk Ratio) Всегда OR RR. OR RR при p 0, p 1 < 0.1 Сумма a+ba+b c+dc+d Отношение шансов и относительный риск D M ab cd ЗдоровыеБольные Носители маркера Свободны от маркера Частоты р1=a/(a+b)р1=a/(a+b) р 0 =c/(c+d) Шансы a / b c / d Вероятность и шанс – в чем разница? Карточный термин: вероятность выиграть к вероятности проиграть

FAQ: почему OR, а не RR ? ПогиблиВыжили Частота гибели Частота выживания Облучение Контроль По смертности: отношение рисков RR = 0.05/0.01=5 По выживаемости: отношение рисков RR = 0.99/0.95=1.04 Отношение шансов в любом случае равно OR = 5 99/95 1 =5.21 Отношение рисков наглядно, но не симметрично Но главная причина не в этом. Дело в том, что в ассоциативных генетических исследованиях берут выборки больных и здоровых (т.н. «case-control»). В этом случае непосредственно оценить RR невозможно Напомню, всегда OR RR

Молодые Больные50 из 150 (33.3%) Здоровые1 из 51 (2%) OR=25 Повышенное давление у больных диабетом: Пожилые 50 из 51 (98%) 100 из 150 (66.7%) Все вместе 100 из 201 (49.8%) 101 из 201 (49.8%) OR=25OR=0.98 Парадокс Симпсона при использовании OR + OR=25 OR=0.98 !!! Если бы мы игнорировали стратификацию по возрасту, то обнаружили, что у здоровых повышенное давление бывает чаще, чем у диабетиков Осторожно, страты!

На сегодня это все Прикиньте с помощью 2 – соотношение мальчиков и девочек в вашей группе отличается значимо от 1:1 ? Напоследок хочу посоветовать: Пристально рассматривайте свою выборку. Ищите страты! Неоднородная выборка – источник фальшивых открытий и упущенных возможностей! Классифицируйте своих знакомых на 4 группы: красивый умный, красивый неумный, некрасивый умный, некрасивый неумный. Постройте таблицу 2х2 и посчитайте OR, 2, p. Как по вашим данным связаны красота и ум?