ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН rubanovich@vigg.ru тел. (499) 132-8958.

Презентация:



Advertisements
Похожие презентации
Институт общей генетики им. Н.И. Вавилова РАН Статистика множественных сравнений в ассоциативных исследованиях полиморфизма ДНК: Кошмар Бонферрони Рубанович.
Advertisements

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Институт общей генетики им. Н.И. Вавилова РАН 2. Первичный обзор данных Рубанович А.В. Биостатистика.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Институт общей генетики им. Н.И. Вавилова РАН 3. Анализ количественных признаков Рубанович А.В. Биостатистика.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Проверка гипотезы осуществляется с помощью критериев статистической оценки различий. ФОРМУЛИРОВАНИЕ ГИПОТЕЗЫ - систематизация предположения исследователя.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
Точный критерий Фишера Алтынбеков Қ. Қ. Спортивная медицина. Ризедентура.
1 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПЛАТА ASVABC S 1 ПЛАТА = S + 3 ASVABC + u Геометрическая интерпретация множественной регрессионной модели с.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Урок 1 - раздел генетики, занимающийся изучением закономерностей наследования признаков, генетической структуры и динамики популяций.
Модель: Y = X + u Нулевая гипотеза: Альтернативная гипотеза: ПРОВЕРКА ГИПОТЕЗ СВЯЗАННЫХ С КОЭФФИЦИЕНТАМИ РЕГРЕССИИ Проверка нулевой гипотезы, что.
Транксрипт:

ОСНОВЫ БИОСТАТИСТИКИ Александр Владимирович Рубанович зав. лаб. экологической генетики ИОГен РАН тел. (499)

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Темы для обсуждения

Выявление ассоциаций «генотип-фенотип»: минимальный набор действий Фенотип - качественный признак (например: «здоровый - больной», «русский - татарин») Фенотип - количественный признак (например: вес, содержание кальция, частота аберраций) Вычисляем OR; значимость по точному тесту Фишера Вычисляем средние значения признака для разных генотипов; значимость по критерию Манна-Уитни Кроме этого в обоих случаях можно строить различные регрессионные модели: Зависимая переменная – признак (фенотип), независимыми переменные – генотипы. Например так: A/A - 0, A/T - 1, T/T - 2

OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к заболеванию путем сопоставлений частот генотипов у больных и здоровых) OR – количественная мера предрасположенности (Odd Ratio) Группа больных Контроль (здоровые) - генотип, указывающий на предрасположенность к заболевания OR = ______________________ Р больные (1- Р контроль ) Р контроль (1- Р больные ) Р больные Р контроль >> OR>1 – генотип связан с болезнью OR=1 – нет связи между генотипом и болезнью OR

Soft для вычисления OR и проведения матаисследований WinPepi Portal (2010) - computer programs for epidemiologists Free! 30 дней

Статистический анализ сопряженности генотипов и количественных признаков Частота аберраций хромосом A/GA/GG/GG/GA/AA/A + Рецессивная модель + Доминантная модель Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) Гомозигота по мажорному аллелю Гомозигота по минорному аллелю Обычно стараются рассмотреть две группы

Частота аберраций на 100 клеток Частота, % 6060 Сравнение частот генотипов для групп с низким (или высоким) значением признака Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) >6 Частота аберраций на 100 клеток Частота, %, Группа людей с нулевым уровнем аберраций A/A A/G G/G A/A A/G G/G Статистический анализ сопряженности генотипов и количественных признаков Далее вычисляется OR и значимость по точному критерию Фишера. В данном примере риск возникновения аберраций у носителей минорного аллеля G равен OR=2,1 и р=0,015

Сравнение частот генотипов для групп с низким (или высоким) значением признака Логистическая и пуассоновская регрессии р – частота аберраций x i – генотип i-го локуса а i – коэф. регрессии Нелинейные многомерные регрессии, реализованные в пакетах Statistica и SPSS Для логиcтической регрессии a i =ln(OR i ) Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту (не по Стьюденту!) Статистический анализ сопряженности генотипов и количественных признаков Зависимая переменная – признак (р), независимыми переменные – генотипы (x i ). Например так: A/A - 0, A/T - 1, T/T - 2

X. Sole, E. Guino, J. Valls, R. Iniesta1, V. Moreno (2006) Soft для работы с генотипами и гаплотипами WinStat for Excel Free!

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Темы для обсуждения

Чуть-чуть об ошибках статистических тестов Ошибка I рода ( ) Вероятность отвергнуть правильную нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие Ошибка II рода ( ) Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие Мощность теста = 1- Ошибка II рода = Вероятность правильно отвергнуть нулевую гипотезу Вероятность не упустить открытие Нулевая гипотеза – обычно предположение об отсутствии различий = 2 выборки из одной генеральной совокупности Традиционно биолог ориентирован на контроль ошибки I рода (через уровень значимости), т.е. на гарантии отсутствия ложных открытий, … и при этом мало заботится о возможности упустить открытие (ошибка II рода)

От чего зависят ошибки статистических тестов? От размаха реально существующих отличий и разброса данных От объемов выборок Ошибки I и II рода однозначно не связаны. В целом ошибка II рода растет при уменьшении ошибки I рода С увеличением объема выборки мощность теста (вероятность не упустить открытие) всегда возрастает Крайний случай: «критерий» св. Фомы Неверующего (0033) Ошибка I рода = 0 Ошибка II рода = 1 Ошибка I рода (вероятность фальшивого открытия) слабо зависит от объемов выборок, если они сравнимы по величине

Число событий в контроле Минимальное число событий в опыте при значимом отличии от контроля Стьюдент 2Фишер Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и контроле одинаковы Если в контроле нет мутаций, то при значимости отличий в опыте их должно быть больше 5 независимо от объемов выборок (100 или 1000)

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Темы для обсуждения

Проверка однородности материала и вычисление OR для нескольких выборок Объем выборки Число мутаций Частота N1N1N1N1 n1n1n1n1 p1p1p1p1 N2N2N2N2 n2n2n2n2 p2p2p2p2 ….….…. NkNkNkNk nknknknk pkpkpkpk Выборки можно объединять, если Можно ли объединить k независимых выборок и оценить частоту как Индекс рассеяния для биномиальных выборок Mantel-Haenszel test

Вычисление OR для совокупности выборок Значимость гетерогенности выборок

Объединение выборок с незначимыми эффектами Если ассоциации нет, то случаи «больше-меньше» должны появляться с вероятностью ½ Только в 3 выборках из 18 частота гетерозигот w/d у HIV + выше, чем у HIV - Вероятность выпадения 3 (и менее) орлов в 18 бросаниях монеты равна Если это принять за 4-ое превышение, то р=0.015 Монета достоверно несимметрична! Гетерозиготы w/d чаще встречаются среди HIV - Но какое OR?

Mantel-Haenszel test with WinPepi: результаты Мета-анализORRR = f + / f - f = f - - f + Mantel-Haenszel оценка0.87 (1.15) Unadjusted оценка (по всем данным) %-довер. интервал Значимость гетерогенности (р) Число «null»-статей (OR=1) для ликвидации значимости 72- Значимость корреляции объемов выборок и эффектов (д.б. > 0.1 ) (Regression asymmetry test, Egger) (Adjusted rank correlation, Begg&Mazumdar): Итоговая значимость различий (Fishers two-tailed) Протективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок Объединение выборок и метаисследования Учет множественности сравнений Темы для обсуждения

Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипами Как это бывает? Наблюдаем появление фальшивых ассоциаций OR p Ген Выборка 1 Выборка 2 Больные Здоровые 1 Должно быть OR=1 Значимо! 234 Сразу 3 локуса «ассоциированы» с заболеваемостью! Частоты минорых аллелей (в среднем 0.1)

Как избежать фальшивых открытий? Правило Карло Бонферрони (1935): При проведение m независимых статистических тестов значимы только те результаты, для которых False Discovery Rate control: FDR - контроль Permutation test (компьютерная перестановка лэйблов «case-control»)

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки Бонферрони Вероятность пропустить ген с OR=2.7 на выборках 100 (case) и 100 (control) При 100 сравнениях ради того, чтобы гарантировать отсутствие хотя бы одного ложного результата, мы упускаем 88% открытий! При m=100 ошибка равна В отдельном тесте вероятность упустить открытие равна 0.2 При 5 сравнениях упускаем 50% открытий

Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini, Hochberg (1995) Вероятность хотя бы одного фальшивого открытия < Уровня значимости Ошибка I рода < 0.05 Средняя доля фальшивых открытий < Выбранный уровень Традиционный принцип заменяется на 105 статей в базе

Коррекция Bonferroni 0,005 Пример: множественные сравнения по 10 тестам Коррекция по FDR 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 Тестpipi 10,001 20, ,01 40,015 50,02 60,04 70,3 80,5 90,6 100,8 Значимые различия без поправок на множественность Располагаем тесты в порядке увелечения p Поправка Бонферрони оставляет значимым лишь первое сравнение В первой клетке как у Бонферрони, во второй клетке вдвое больше, втрое больше и т.д …. Для 6-ого теста p больше этого значения Значимые различия после коррекции по FDR И это все!!!

Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму: Что делать, если FDR не помогает? В исходной базе данных делаем случайную перестановку В исходной базе данных делаем случайную перестановку лейблов лейблов case-control Вычисляем заново p-уровни для каждого гена ( p ) Вычисляем заново p-уровни для каждого гена ( p perm ) Повторяем процедуру раз (минимум 10000), фиксируя Повторяем процедуру N раз (минимум 10000), фиксируя случаи, когда p меньше исходного значения p случаи, когда p perm меньше исходного значения p Вычисляем откорректированное p Вычисляем откорректированное p как Тем самым мы отказываемся от попыток вычислить значимость различий. Вместо этого мы ее «измеряем» экспериментально, разыгрывая ситуацию на компьютере Точный тест Фишера – это тоже permutation test, только реализованный аналитически (р вычисляется по формулам комбинаторной теории вероятностей)

SNP Частота минорного аллеля ORp Case (100)Control (100) ,60, ,70, ,80, ,90, ,00, ,00, ,80, ,80, ,30, ,00,911 Значимо без коррекции на множественность p` 0,000 0,010 0,007 0,025 0,109 0,098 0,058 0,067 0,476 1,000 Permutation test применительно к данным об ассоциации заболеваемости с 10 SNP Переставляем отметки «case-control» раз. В результате получаем коррекцию p Значимо по Бонферрони Значимо по FDR Indulgentia Но так бывает не всегда Совсем маленькая программка