Институт общей генетики им. Н.И. Вавилова РАН 3. Анализ количественных признаков Рубанович А.В. Биостатистика.

Презентация:



Advertisements
Похожие презентации
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Advertisements

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
Дисперсионный анализ Врач-ординатор: Чайкисов Ю.С. Иркутский Государственный Медицинский Университет Кафедра Факультетской терапии Иркутск 2007 г.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
СРС На тему : « Сравнение средних значений признаков по критерию Стьюдента : Критерий Стьюдента для независимых выборок. Критерий Стьюдента для связанных.
Статистическая гипотеза. Нулевая гипотеза Кошкарова М.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Институт общей генетики им. Н.И. Вавилова РАН 2. Первичный обзор данных Рубанович А.В. Биостатистика.
Статистические гипотезы Лекция 2.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Проверка статистических гипотез 1.Формулировка задачи. Термины и определения. 2.Схема проверки статистической гипотезы. 3.Мощность критерия. 4.Проверка.
Проверка гипотезы о значимости выборочного коэффициента коррелляции.
Проверка статистических гипотез Лекция 7 (продолжение) 1.
Проверка статистических гипотез Лекция 20. План лекции: 1.Проверка статистических гипотез. 2.Критерии асимметрии и эксцесса. 3.Критерий Пирсона.
Транксрипт:

Институт общей генетики им. Н.И. Вавилова РАН 3. Анализ количественных признаков Рубанович А.В. Биостатистика

Чем мы занимались на предыдущем занятии? Мы вспомнили общепринятые методы описания и представления данных На примере качественных признаков (данных о частотах) познакомились с принципами построения и проверки статистических гипотез Поговорили о вероятностях возможных ошибок, возникающих при использовании всякого статистического теста При этом мы сознательно не затрагивали ряд традиционных для статистики тем: сравнение средних, критерий Стьюдента и т.д. Отчасти потому, что вы об этом наверняка наслышаны, но в основном из методических соображений

Сравнение средних Перейдем, наконец, к задаче о сравнении средних для двух выборок. Например, рост в выборках «М» и «Ж» Нулевая гипотеза состоит в предположении, что обе выборки изъяты из одной генеральной совокупности (т.е. различий нет): Н0:Н0:Н1:Н1:(двусторонний тест) Дальше надо предложить способ оценить вероятность ошибки I рода

Сравнение средних Вильям Стьюдент (Госсет) ( ) Работал на пивоваренном заводе Гиннесса Опубликовал «распределение Стьюдента» в 1908 г. На прошлом занятии мы рассмотрели достаточно универсальный способ построения статистических критериев: Z – статистика, т.е. Есть надежда, что эта величина имеет нормальное распределение со средним 0 и дисперсией 1. Так оно и есть, но только при больших объемах выборок!, т.е. разность средних, деленная на стандартное отклонение этой разности. Для не очень больших выборок распределение величины следует распределению Стьюдента. Это распределение случайной величины, равной, где все i - нормальны k – число степеней свободы

Сравнение средних Распределение Стьюдента очень похоже на нормальное, но имеет большую дисперсию: D(t) = k/(k-2) > 1 При k становится нормальным Excel умеет вычислять «хвосты» распределения Стьюдента: = СТЬЮДРАСП(2; 100; 1) 2 означает, что тест двусторонний 0.024

Сравнение средних Сравнение выборочного среднего с известным числом Сравнение двух зависимых выборок Сравнение двух выборочных средних для независимых выборок Для каждой особи проводят 2 однотипных замера: - до и после приема лекарства, - в этом году и в прошлом году и т.д. Возможно раного объема 3 варианта использования теста Стьюдента:

Упражняемся … 15 октября 2011 г. президент Д. Медведев сообщил, что средняя продолжительность жизни в РФ составляет 69 лет В этом месяце в районном морге побывало 100 клиентов, и получена другая оценка: 62 3 года. Отличается ли эта оценка от средней по стране? = СТЬЮДРАСП((69-62)/3; 100; 2) Р = Вычисляем величину Вывод: нулевая гипотеза отвергается. Вероятность того, что при этом отвергли правильную нулевую гипотезу равна (ошибка I рода). Выборка по данным районного морга не соответствует среднему по стране. Различия статистически значимы. 2 означает, что тест двусторонний Эта запись означает, что наша величина имеет распределение Стьюдента с n-1 степенями свободы Никогда не пишите, что различия достоверны! Достоверно это то, что происходит с вероятностью 1 В данном примере среднее для одной выборки сравнивалось с заранее известной величиной. Это так называемый одновыборочный тест (мы это уже делали: помните 470 из 1000?)

Сравнение средних в случае зависимых выборок Это простой случай. Вычисляется t-статистика и вес хвостов распределения Стьюдента с n 1 +n 2 -2 степенями свободы. Можно ни о чем этом не думать и использовать =ТТЕСТ(массив1; массив2; 2; 1) 2 означает, что тест двусторонний 1 означает, что выборки зависимы Для независимых выборок все несколько сложнее…

Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации: 1 = 2, т.е. изменчивость данных в обеих выборках одинакова 1 2, т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется. Тогда все просто: вычисляется статистика Не будем расписывать, как это делается, а запустим Excel =ТТЕСТ(массив1; массив2; 2; 2) 2 означает, что тест двусторонний = Надо сказать, что Excel не проверяет статистическую значимость 1 2, Более адекватно поступает WinStat в случае независимых выборок

Сравнение средних При сравнении средних двух независимых выборок возможны 2 ситуации: 1 = 2, т.е. изменчивость данных в обеих выборках одинакова 1 2, т.е. изменчивость данных в выборках неодинакова, и эти различия статистически значимы. Тогда вычисляется объединенная дисперсия для двух выборок. Число степеней свободы тоже модифицируется. Тогда все просто: вычисляется статистика Не будем расписывать, как это делается, а запустим Excel =ТТЕСТ(массив1; массив2; 2; 2) 2 означает, что тест двусторонний = Надо сказать, что Excel не проверяет статистическую значимость 1 2, Более адекватно поступает WinStat в случае независимых выборок

Упражняемся… Оценка Число учеников (из 100) ФизикаФизкультура Чему равны стандартные отклонения и ошибки самих оценок (SD и SE)? Средняя оценка по физике = 3.4. Дисперсия = 0.64 Средняя оценка по физкультуре = 4.6. Дисперсия = 0.44 По физкультуре: 4.6±0.1 По физике: 3.4±0.1 Можно записать так 3.40±0.08, но не так 3.4±0.08 Считаем t-статистику: = СТЬЮДРАСП(11,3; 100-2; 2) Значимо! Р =

Сравнение средних С помощью Дисперсии выборок значимо не различаются ???

Сравнение дисперсий Р. Фишер построил критерий (односторонний) для сравнения дисперсий (F-тест) и вычислил функцию распределения соответствующей статистики. (большая на меньшую), Не путайте статистику (критерий) Фишера с точным тестом Фишера! =ФТЕСТ(массив1; массив2) =FРАСП(1,5;100;100) В Excel имеется функция, вычисляющая это распределение Можно также сравнить дисперсии двух выборок Н 0 : 1 = 2 против Н 1 : 1 < 2

Сравнение дисперсий Рассмотрим набор k выборок: СреднееДисперсия Выборка 1 Выборка 2 ………. … … Выборка k Все выборки Дисперсионный анализ (ANOVA) – сравнение нескольких выборок Ничего, кроме школьной алгебры! Средняя дисперсия Дисперсия средних Межвыборочная изменчивость Внутривыборочная изменчивость Р. Фишер показал, что т.е. дисперсию объединенной выборки можно разложить на сумму средней дисперсии внутри выборок ( ) и межвыборочную дисперсию ( ): Факториальная изменчивость Остаточная изменчивость Статистика (при k = 2 все сведется к критерию Стьюдента) Н0:Н0: Н 1 : хотя бы одно среднее отличается

Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций хромосом для носителей различных генотипов по локусу GSTP1 Упражняемся…

Сравнение нескольких выборок Для нашей учебной базы данных сравним частоты аберраций хромосом для носителей различных генотипов по локусу GSTP1 Упражняемся… Межгрупповая дисперсия в 12 раз выше, чем внутригрупповая Можно обойтись пакетом «Анализ данных» в Excel

Важное предупреждение В противном случае можно получить совершенно абсурдный результат: t-тест (Стьюдента) F-тест (Фишера) Дисперсионный анализ только для нормально распределенных данных! Фирма 1Фирма В какой фирме зарплата выше? =ТТЕСТ(массив1; массив2; 2; 3) Эти средние значимо не различаются по тесту Стьюдента! Р = На этом примере видно, что в ряде случаев надо сравнивать не сами данные, а их порядковые ранги (номера в последовательности) Средние

Ранговые статистики Фирма 1Фирма Фирма 1Фирма ДанныеРанги =ТТЕСТ(массив1; массив2; 2; 2) Другое дело! Хотя и это некорректно… Средние

Ранговые критерии =БИНОМРАСП(1;8;0,5;1) 1 минус из 8 Ранговые критерии являются непараметрическими, т.е. такими, которые не зависят от характера распределения данных. В частности они нечувствительны к выбросам отдельных точек Самый простой тест – критерий знаков для пары зависимых выборок ПлацебоЛекарство Различия значимы по одностороннему тесту (но не по двустороннему!) Приводит ли лекарство к увеличению систолического давления? Разность

Ранговые критерии Для сравнения 2 независимых выборок используется тест Манна – Уитни, который основан на вычислении суммы рангов для каждой из выборок Как всегда Н 0 : выборки взяты из одной генеральной совокупности. Упражняемся … В нашем файле смотрим сопряженность заболевания с частотой аберраций Видим различия средних: Проверяем значимость различий по Стьюденту: Различия значимы по Стьюденту (независимо от условия равенства дисперсий ) Но что там с нормальностью?

Проверяем нормальность … Строим гистограммы распределений аберраций для больных и здоровых: Какая уж тут нормальностью! Проверяем значимость различий по Стьюденту: Различия значимы по Стьюденту (независимо от условия равенства дисперсий ) Необходимо использовать непараметрический тест Манна-Уитни Незначимо! Попробуем все это воспроизвести:

Что значит «незначимо»? Допустим мы не обнаружили статистическую значимость различий, о чем с грустью сообщаем в публикации. Достаточно ли этого? НЕТ! Мы должны продемонстрировать, что объемы наших выборок достаточны, чтобы обнаружить эффект, если он существует. Мощность (чувствительность) используемых тестов должна быть не ниже 80% (тогда упускаем не более 20% открытий) Только в этом случае незначимые различия можно рассматривать как отрицательный результат

Что значит «незначимо»? Мощность всего 29% ! Compare2/ Numerical observations/ Normal distributin/mean value Тогда по тесту Стьюдента различия незначимы и Р = Проверим мощность данного теста Compare2/ Power/ Comparison of means Size A Size B – 100 DETECT a difference 2 Чтобы выйти на мощность 80% объемы выборок должны быть 400 и 400 Compare2/ Sample size/ Means nSESD Выборка Выборка Допустим, что для 2 выборок имеем: О чем мы обязаны сообщить в публикации (правда биологи этого почти никогда не делают) т.е. доля упущенных открытий более 70% !

На сегодня это все Проверяйте характер распределения сравниваемых величин. Или хотя бы стройте гистограммы распределений – для себя. Напоследок хочу посоветовать: Поставьте на свой компьютер WinStat и постройте пример использования дисперсионного анализа На всякий случай проверяйте значимость различий параметрическими и непараметрическими методами. Оценивай мощность теста в случае получения незначимых результатов