Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемvigg.ru
1 Институт общей генетики им. Н.И. Вавилова РАН 5. Анализ зависимостей Рубанович А.В. Биостатистика
2 Чем мы занимались на предыдущем занятии? Мы припомнили, что такое критерий «хи-квадрат» и для каких целей его можно использовать Таковых мы определили три: - проверка согласования данных с ожидаемым распределением - проверка независимости 2 признаков - проверка однородности совокупности выборок В основном методами сравнения дискретных распределений, например теоретического с экспериментальным Пора перейти к рассмотрению характеристик степени сопряженности признаков
3 Регрессионный анализ Вернемся к количественным признакам и для нашего учебного файла построим зависимость веса от роста Ясно, что существует тенденция: чем больше рост, тем больше вес человека. Можно попытаться выразить эту зависимость линейным уравнением: y = a + bx, где в x – рост, y – вес человека. Вопрос в том, как провести эту прямую. РостВес …… Среднее Ясно, что д. б. Но каков наклон?
4 Регрессионный анализ Строгий ответ но этот вопрос дает xy x1x1 y1y1 x2x2 y2y2 …… xnxn ynyn Метод наименьших квадратов Гаусса Запоминать не нужно, но постарайтесь прочувствовать: если x и y не связаны, то Если x и y независимы, то, откуда b = 0
5 Уравнение линейной регрессии Свободный член a = Наклон линейной регрессии b = =НАКЛОН(массив y; массив x) =ОТРЕЗОК(массив y; массив x) В статье указываем: Вес = -2,9 + 0,5 Рост Уравнение регрессии можно использовать для прогнозов: При росте 220 прогноз веса = -2,9 + 0,5 220 = Теперь мы можем нарисовать:
6 Уравнение линейной регрессии Построение средствами Строим график «Мастером диаграмм», Excel Мастер диаграмм / Точечная / Ряды Диаграмма / Линия тренда а затем добавляем линию тренда:
7 Уравнение линейной регрессии Ошибки коэффициентов уравнения WinStat / Stattistics / Regression / Multiple a b Значим только наклон b
8 Обобщения Регрессия может быть: WinStat / Stattistics / Regression / Multiple многомерной: y = a + b 1 x 1 + b 2 x 2 нелинейной: y = a + b 1 x+ b 2 x 2 WinStat / Stattistics / Regression / Polynomial
9 Корреляционный анализ Коэффициент корреляции – самый удобный и популярный показатель сопряженности количественных признаков Свойства: -1 r 1 r = 0 при отсутствии линейной связи между признаками r = 1 при линейной положительной связи между признаками r = -1 при линейной отрицательной связи между признаками Карл Пирсон r 2 - доля изменчивости признака y, которая определяется признаком x (коэффициент детерминации)
10 Корреляционный анализ r = 1 r = -1 r = 0.8 r = -0.8 r = 0
11 Упражняемся … Для файла «Примеры» посчитаем корреляцию между весом и ростом =КОРРЕЛ(массив 1; массив 2) Чему равна корреляция оценок по физике и физкультуре 0.6 Физика Физку льтура Физика Физку льтура Физика Физку льтура r=1, a=0, b=1r=1, a=1, b=1r=0, a=5, b=0
12 Корреляционный матрица Bird-view обзор взаимосвязей между признаками WinStat / Stattistics / Correlations / Pearson
13 Важные предупреждения Наличие корреляции не является указанием на причинно - следственные связи! Например, систолическое давление у преподавателей КазГУ наверняка коррелирует с их зарплатой. Но не означает, что подвышенное давление приводит к повышению зарплаты! Отсутствие корреляции означает отсутствие линейной связи. Но связь может быть нелинейной, причем такой, что r = 0. r = 0 Неоднородность выборки может привести к парадоксальным выводам!
14 Неоднородные выборки Октябрь Сентябрь Август Температура в комнате, о С Расход энергии, кВт/день 025 Температура на даче в зависимости от расхода электроэнергии Отрицательная корреляция между температурой и расходом энергии!
15 r = 0.6 Неоднородные выборки Не следует считать корреляции для таких случаев: r = -0.6 При работе с неоднородными данными возникают невероятные ситуации. Всегда ищите страты! Стратификация – разбиение выборки на страты, т.е на группы, объединенные неким признаком (время проведения опыта, возраст, образование, национальность, курение и т.д.) Этот признак может быть незримым конфаундером, т.е. признаком, создающим ложный эффект за счет неоднородности выборки
16 Неоднородные выборки Октябрь Сентябрь Август Температура в комнате, о С Расход энергии, кВт/день 025 Отрицательная корреляция между температурой и расходом энергии! Осторожно, страты! Признак-конфаундер – время года
17 При объединении гетерогенных выборок возможно все! Эффект может: Появиться Исчезнуть Приобрести противоположное направление! Чем чревато объединение выборок? Осторожно, страты! У студентов РУДН 70% высоко полиморфных SNP «ассоциированы» с успеваемостью (p
18 Парадокс Симпсона (1951) 5 мальчиков 5 девочек МехматПоступили 3 из 4 (75%)Поступили 1 из 1 (100%) БиофакПоступили 0 из 1 (0%)Поступили 1 из 4 (25%) Всего3 из 5 (60%)2 из 5 (40%) < < > 10 выпускников (5 мальчиков и 5 девочек) поступают в КазГУ: Первые сообщения о парадоксе: Карл Пирсон (1899), Джордж Юле (1903) Мальчики поступали хуже девочек Мальчики поступали лучше девочек!
19 Это не статистка! Это геометрия … Опыт 1 (контроль) Опыт 1 (больные) Опыт 2 (больные) Опыт 2 (контроль) Число лиц с эффектом Объем выборки 0 Опыты 1+2 (больные) Опыты 1+2 (контроль) Наклон равен частоте лиц с наблюдаемым эффектом (в данном случае 3/100) В обоих экспериментах среди больных частота лиц с эффектом выше, чем в контроле Объединяем данные двух экспериментов… После слияния выборок частота лиц с эффектом в контроле выше!
20 Контрольная группа 100 Нет аберраций Экспонированная группа аберраций Сравнение двух групп по частотам аберраций # людей# метафаз# аберрацийЧастота Контроль Экспонированные «1 из 100» против «0 из 100»: p=0.5 (one-tailed Fisher) «6 на » против «0 на » Сравнение индивидуальных частот аберраций по тесту Манна-Уитни : p=0.317 Анализируем по 100 метафаз на человека Многие исследователи, определяя групповую частоту аберраций, складывают все аберрации в группе и делят на общее число просмотренных метафаз По частоте людей с аберрациями: По частоте аберраций: При одинаковом числе просмотренных метафаз значимость отличий зависит только от числа аберраций: 0 от 6 1 от 9 2 от : p=0.014 (one-tailed Fisher)
21 Показатели степени сопряженности признаков r - коэффициент корреляции Для количественных признаков: Для качественных признаков: OR - отношение шансов
22 Здоровые Control Больные Case D M ab cd Носители маркера Свободны от маркера И снова таблица сопряженности 2 2 Сопряженность качественных признаков Случаи, когда маркер не сработал Случаи, когда маркер сработал Отношение шансов (Odd Ratio):
23 Упражняемся … 10 здоровых 10 больных D M ЗдоровыеБольные Носители маркера Свободны от маркера Заодно посчитаем значимость: р = 0.02
24 Свойства показателя OR OR = 1 - нет эффекта (маркер не сопряжен с заболеванием) OR >> 1 - сильный эффект, сильная положительная ассоциация (маркер сопряжен с заболеванием) OR
25 Шанс (odd) Частота (доля) Отношение шансов (Odd Ratio) Отношение рисков (Risk Ratio) Всегда OR RR. OR RR при p 0, p 1 < 0.1 Сумма a+ba+b c+dc+d Отношение шансов и относительный риск D M ab cd ЗдоровыеБольные Носители маркера Свободны от маркера Частоты р1=a/(a+b)р1=a/(a+b) р 0 =c/(c+d) Шансы a / b c / d Вероятность и шанс – в чем разница? Карточный термин: вероятность выиграть к вероятности проиграть
26 FAQ: почему OR, а не RR ? ПогиблиВыжили Частота гибели Частота выживания Облучение Контроль По смертности: отношение рисков RR = 0.05/0.01=5 По выживаемости: отношение рисков RR = 0.99/0.95=1.04 Отношение шансов в любом случае равно OR = 5 99/95 1 =5.21 Отношение рисков наглядно, но не симметрично Но главная причина не в этом. Дело в том, что в ассоциативных генетических исследованиях берут выборки больных и здоровых (т.н. «case-control»). В этом случае непосредственно оценить RR невозможно Напомню, всегда OR RR
27 Молодые Больные50 из 150 (33.3%) Здоровые1 из 51 (2%) OR=25 Повышенное давление у больных диабетом: Пожилые 50 из 51 (98%) 100 из 150 (66.7%) Все вместе 100 из 201 (49.8%) 101 из 201 (49.8%) OR=25OR=0.98 Парадокс Симпсона при использовании OR + OR=25 OR=0.98 !!! Если бы мы игнорировали стратификацию по возрасту, то обнаружили, что у здоровых повышенное давление бывает чаще, чем у диабетиков Осторожно, страты!
28 На сегодня это все Прикиньте с помощью 2 – соотношение мальчиков и девочек в вашей группе отличается значимо от 1:1 ? Напоследок хочу посоветовать: Пристально рассматривайте свою выборку. Ищите страты! Неоднородная выборка – источник фальшивых открытий и упущенных возможностей! Классифицируйте своих знакомых на 4 группы: красивый умный, красивый неумный, некрасивый умный, некрасивый неумный. Постройте таблицу 2х2 и посчитайте OR, 2, p. Как по вашим данным связаны красота и ум?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.