Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемanderson.zakadum.ru
1 Качественные признаки Тема занятия
2 Вероятности и доли Доля (proportion) – это отношение количества представителей выборки, обладающих признаком, к общему объему выборки 0 p 1
3 Вероятности и доли Вероятность (probability) получить из выборки или популяции человека, обладающего признаком X, равна доле этого признака в выборке (популяции). Proportion = Probability
4 Законы взаимодействия вероятностей 1. Правило сложения вероятностей 2. Правило перемножения вероятностей 3. Закон биномиального распределения
5 Правило сложения вероятностей Вероятность того, что произойдет одно из нескольких независимых событий, равна сумме вероятностей каждого отдельного события.
6 Пример Доля людей в популяции с группой крови I(0) составляет 36%, а доля голубоглазых людей – 28%. Какова вероятность, что у случайно взятого человека группа крови будет или первая группа крови, или голубые глаза? p = 0,36 + 0,28 = 0,64
7 Правило умножения вероятностей Вероятность того, что произойдет сразу два и более независимых события, равна произведению вероятностей каждого отдельного события.
8 Пример Пожизненный риск заболевания раком легких составляет 3%, а заболевания шизофренией – 0,1%. Каков пожизненный риск заболеть одновременно шизофренией и раком легких? p = 0,03 x 0,001 = 0,00003
9 Биномиальное распределение Процесс Бернулли (Bernoulli process) – это испытание, в котором возможно получение только двух результатов – «успех» или «неудача». Вероятность получения «успеха» в каждом отдельном испытании равна доле «успехов» в популяции.
10 Биномиальное распределение Вероятность получения «успеха» в серии из нескольких испытаний подчиняется биномиальному распределению вероятностей. Биномиальное распределение – это вероятность получить точно r «успехов» из N испытаний при популяционной доле «успехов», равной π.
11 Биномиальное распределение Пример: Есть две монеты: 1)настоящая, для которой вероятности выбросить «орла» или «решку» равны между собой и равны 0,5. 2)Фальшивая, для которой вероятность выбросить «орла» составляет всего 0,3. Вы видите два биномиальных распределения – результаты 6 бросков каждой монеты.
12 Условия использования биномиального распределения Признаки должны быть: 1)Дихотомическими – иметь только два значения (1 и 0, «да» и «нет» и т.п.) 2) Взаимно исключающимися 3) Независимыми 4) Выбранными случайно
13 Пример использования биномиального распределения Генетическое консультирование Если вероятность рождения ребенка с идиотией Тея-Сакса составляет у данной пары родителей 25%, то вероятность того, что ни один из двух рожденных последовательно детей не будет страдать этим расстройством, составляет 0,56 (см. график).
14 Ограничение биномиального распределения Биномиальное распределение дискретно: поскольку количество испытаний может быть только целым числом, вероятность принимает строго определенные значения. При увеличении числа испытаний биномиальное распределение становится практически идентичным нормальному.
15 Двусторонний тестОдносторонний тест N α
16 Расчеты с качественными признаками Для количественных данных используется критерий Стьюдента, который при объеме выборки выше 100 человек можно заменить z- критерием, так как распределения t и z становятся идентичными. Аналогично для качественных признаков используются различные критерии в зависимости от объема выборки, числа выборок и числа различных значений признаков.
17 Критерий z для одной выборки Условия применения критерия: 1.Выборка больше 30 человек. 2.Случайная выборка из генеральной совокупности 3.Нулевая гипотеза: доля в популяции не отличается от заранее заданной доли.
18 Расчет критерия z p – это наблюдаемая в выборке доля. n – объем выборки (> 30). π – ожидаемая доля в популяции. Нулевая гипотеза: p = π Доверительный интервал для доли: ДИ=p±zs p
19 Расчет z для одной выборки - пример Допустим, исследователи изучают новое антацидное средство в группе из 100 пациентов. У 9 пациентов из ста на фоне приема препарата появились жалобы на головокружение и сонливость. Приемлемой была принята частота осложнений, равная 15%. Требуется доказать, что частота осложнений в популяции не больше 15%.
20 Расчет z для одной выборки - пример Нулевая гипотеза: p > π Альтернативная гипотеза: p π 1. p = 9/100 = 0.09 SE = z = ( ) / = z < z крит., следовательно, нулевая гипотеза принята % доверительный интервал для p: 0,09 - 1,96x0,0357 p 0,09 + 1,96x0, p 0,16 Доверительный интервал содержит 0,15. Следовательно, популяционная доля не меньше 0,15.
21 Биномиальный тест для одной выборки При небольшом объеме выборки даже поправка Йейтса на непрерывность не может ликвидировать различий биномиального и нормального распределений, поэтому критерием z пользоваться невозможно. В такой ситуации используются дискретные критические значения самого биномиального распределения.
22 Критерий z для двух выборок Условия применения: 1.Выборки объемом более 30 человек. 2.np и n(1-p) в обеих выборках должны быть больше 5 (другими словами, признак должен быть не менее, чем у 5 человек в каждой выборке). 3.Выборки случайные 4.Выборки независимые
23 Расчет двухвыборочного критерия z p – это наблюдаемая в выборке доля. n – объем выборки (> 30). π – ожидаемая доля в популяции. Нулевая гипотеза: p = π Доверительный интервал для доли: ДИ= (p 1 -p 2 ) ± zs p
24 Расчет z для двух выборок - пример Исследуется смертность от сосудистых осложнений на фоне приема двух антиангинальных препаратов – один из них является широко распространенным, проверенным средством, а другой – экспериментальный. В группе из 100 человек, получавших старый препарат, за год умерло 7 человек. В группе из 90 человек, получавших новый препарат, за год умерло 5 человек. Достоверны ли различия в смертности?
25 Расчет z для двух выборок - пример Нулевая гипотеза: p1 = p2 Альтернативная гипотеза: p1 p2 1. p1 = 7/100 = 0.07; p2 = 5/90 = 0,055 SE = z = (| | ) / = z < z крит., следовательно, нулевая гипотеза принята 2. 95% доверительный интервал для разности долей: 0, ,96x0,035 (p1-p2) 0, ,96x0, p Доверительный интервал содержит 0. Следовательно, различий между группами нет.
26 Точный тест Фишера для двух выборок Точный тест Фишера применяется, когда нарушается второе условие использования критерия z – то есть признак наблюдается менее, чем у 5 человек в выборке. Тест Фишера основан на гипергеометрическом распределении и является полным аналогом биномиального теста, только для двух выборок. Выборки при использовании теста Фишера должны быть независимыми и случайными.
27 Доверительные интервалы для долей Доверительный интервал (confidence interval) для доли – это диапазон значений, в пределах которого с заданной вероятностью (обычно 95%) находится истинная популяционная доля. Для достаточно больших выборок распределение выборочных долей можно считать нормальным. Тогда: Доверительный интервал для доли: ДИ=p±zs p
28 Доверительные интервалы для долей Доверительные интервалы для долей, рассчитанные выше, являются лишь приблизительными. Точные доверительные интервалы рассчитываются, исходя из биномиального распределения. Вручную их можно определить по специальным номограммам, а на практике – в компьютерных статистических пакетах. Доверительные интервалы должны в обязательном порядке указываться для всех переменных при описании данных.
29 Доверительные интервалы для долей Пример: Исследователь указывает, что он исследовал 10 больных до и после лечения. Затем в таблице мы увидим, что до лечения боли в животе были у 70%, а после лечения – лишь у 20%. Данные выглядят очень убедительно - различия составляют 50%!. Теперь укажем доверительные интервалы: - До лечения - 70% (35% - 93%), после лечения - 20% (25% - 56%). Доверительные интервалы даже перекрываются! Поэтому проверим значимость различий: различия действительно значимы (p=0.02). Применение доверительных интервалов показывает, какой диапазон значений может принимать показатель в популяции, а не в конкретной выборке.
30 Доверительные интервалы для долей График без доверительных интервалов – дает представление только о выборке, изученной исследователем.
31 Доверительные интервалы для долей Тот же график, но уже с границами доверительных интервалов – диапазон, который могут принимать истинные значения в популяции.
32 Распределение хи-квадрат Распределение хи-квадрат является теоретическим распределением (наряду с нормальным, биномиальным, F- распределением и т.п.) В отличие от нормального и биномиального, это распределение не встречается в естественных процессах, а, как и распределение F, является результатом сравнения экспериментального и расчетного значений.
33 Область применения распределения хи-квадрат Тесты согласия (goodness-of-fit): соответствует ли данные в выборке какой-либо вероятностной модели? Тесты на гомогенность (равенство) (homogeneity): являются ли обе выборки выборками из одного (неизвестного) распределения? Тесты на связь (association) или независимость (independence): существует ли связь между двумя и более переменными или же они независимы?
34 Распределение хи-квадрат Распределение не симметрично, оно существенно смещено вправо. Распределение имеет разную форму в зависимости от степени свободы (вычисляется по- разному в зависимости от конкретного приложения).
35 Распределение хи-квадрат Распределение хи-квадрат определяется исключительно значением степени свободы. Среднее значение распределения равно числу степеней свободы (df). Стандартное отклонение равно 2 x df. С увеличением степени свободы распределение становится все симметричнее.
36 Распределение хи-квадрат Примеры: При df=4 нижние 2,5% распределения отсекаются значением, равным 0,4844 При df=15 верхние 5% распределения отсекаются значением, равным 24,9958
37 Использование хи-квадрат для проверки гипотез в одной выборке Сравнение доли в выборке с предполагаемой популяционной при помощи критерия хи-квадрат очень напоминает использование критерия z. Число степеней свободы для одной выборки и двух вариантов исходов (дихотомический признак) равно 1.
38 Использование хи-квадрат для проверки гипотез в одной выборке Пример: в отдаленной сельской местности изучена выборка из 100 человек, среди них 62 женщины и 38 мужчин. Исследователей интересует вопрос, достоверно ли отличаются данные показатели от 50%, предполагаемых для популяции? Наблюдаемые числа: 62 и 38 Ожидаемые числа: 50 и 50
39 Использование хи-квадрат для проверки гипотез в одной выборке Поправка ½ (поправка Йейтса на непрерывность) вводится лишь когда число степеней свободы равно 1 из-за того, что экспериментальное распределение дискретно (как и биномиальное), а хи-квадрат – непрерывно. Значение 5,29 при 1 степени свободы соответствует вероятности около 0,024, что меньше критического значения. Нулевая гипотеза отвергается, отличие от 50% есть.
40 Использование хи-квадрат для проверки гипотез в двух выборках Логика проверки гипотезы аналогична: Значения заносятся в таблицу 2x2: +-Всего Выборка Выборка Всего
41 Использование хи-квадрат для проверки гипотез в двух выборках Рассчитываются ожидаемые значения при предположении, что доли в выборках равны: +-Всего Выборка 1 37,562,5100 Выборка 2 37,562,5100 Всего
42 Использование хи-квадрат для проверки гипотез в двух выборках Далее рассчитывается критерий хи-квадрат по аналогичной формуле. Число степеней свободы для таблицы 2x2 равно 1. При df = 1 это значение соответствует вероятности 0,041. Следовательно, различия есть.
43 Полиномиальные таблицы и хи- квадрат Хи-квадрат можно использовать не только для сравнения дихотомических данных, но и для сравнения номинальных данных с несколькими категориями. Наиболее типичное применение такого критерия в биологии – это менделирующие признаки, для которых известно теоретическое распределение вероятностей. Возьмем классический пример Менделя с горохом и рассмотрим его с точки зрения хи-квадрат.
44 Полиномиальные таблицы и хи- квадрат Исследователь оценивает горошину по двум параметрам: цвет (желтый или зеленый) и поверхность (гладкая или бугристая). Соответственно, он получил 4 комбинации: Желтый гладкий – 315 Желтый бугристый – 101 Зеленый гладкий – 108 Зеленый бугристый - 32
45 Полиномиальные таблицы и хи- квадрат Если признаки действительно менделирующие и независимые, причем желтый и гладкий – доминантные, а зеленый и бугристый – рецессивные, распределение их должно соответствовать 9:3:3:1, то есть ожидаются числа: Желтый гладкий – 313 Желтый бугристый – 104 Зеленый гладкий – 104 Зеленый бугристый – 35 Нулевая гипотеза выглядит так: (9/16) x p1 = (3/16) x p2 = (3/16) x p3 = (1/16) x p4
46 Полиномиальные таблицы и хи- квадрат В данном случае число степеней свободы равно количеству категорий минус единица, то есть df = 4 – 1 = 3 Поправку Йейтса на непрерывность делать не надо, и статистика хи-квадрат становится совсем простой: Критическое значение существенно больше (7,815), поэтому достоверных отличий от распределения Менделя нет.
47 Критерий согласия на основе хи-квадрат В предыдущем примере мы сравнили распределение долей по категориям с теоретическим распределением. Это напрямую приводит нас к критерию согласия на основе хи-квадрат: если мы разобьем количественный признак на много категорий, и подсчитаем частотное распределение по этим категориям (иными словами, сгуппированное частотное распределение), то его можно будет прямо сравнить с теоретическим нормальным распределением!
48 Критерий согласия на основе хи-квадрат Основным недостатком критерия согласия на основе хи-квадрат является этап перевода распределения количественного признака в категориальную форму. При этом часть информации о распределении теряется, поэтому хи-квадрат – не самый чувствительный критерий нормальности. Но с помощью критерия согласия на основе хи-квадрат можно сравнить выборочное распределение с любым теоретическим.
49 Таблицы сопряженности Таблицы сопряженности (contingency tables) или кросстабуляция (cross tabulation, cross-tables) – это метод оценки различных взаимодействий между качественными (номинальными и категориальными данными).
50 Таблицы сопряженности BВсего A 12…c 1y11y12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum Общий вид таблицы сопряженности
51 Таблицы сопряженности Вариант 1: A – фактор (определяется исследователем), B – отклик или исход. В этом случае таблица рассматривается как набор из r выборок объема R1… Rr, в которых возможны варианты отклика B. Вопрос, который задает исследователь: Является ли распределение отклика (B) равномерным при разных значениях A?
52 Таблицы сопряженности Вариант 1 – пример: A – это раса (исследователь выбрал этот фактор) B – частота гастрита B у разных рас (это тот исход, который исследователь изучает). Если распределение равномерно относительно А, значит, частота гастрита у всех рас: С1/Sum= y11/R1 = y21/R2 = yr1/Rr
53 Таблицы сопряженности BВсего A 12…c 1y11y12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum
54 Таблицы сопряженности Вариант 1 – пример: С1/Sum= y11/R1 = y21/R2 = yr1/Rr Отсюда получаем, что ожидаемое число в конкретной ячейке y11=R1 x (C1/Sum) Или в общей случае E = Rr x Cc /Sum Где Rr – сумма значений по данной строке (объем одной выборки) Сс – сумма значений по данному столбцу Sum – общая сумма значений в таблице
55 Таблицы сопряженности BВсего A 12…c 1Ey12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum
56 Таблицы сопряженности Вариант 2: A и B - отклики или исходы. В этом случае таблица рассматривается как одна выборка размера Sum, в которой изучаются две переменные. Вопрос, который задает исследователь: Зависит ли распределение А от распределения B? Или: независимо ли А от B?
57 Таблицы сопряженности Вариант 2 – пример: A – это заболеваемость раком легких B – это заболеваемость шизофренией Нулевая гипотеза заключается в том, что рак легких и шизофрения – это независимые заболевания, и одно заболевание никак не влияет на вероятность заболеть другим.
58 Таблицы сопряженности Вариант 2 – пример: Как вы помните, в этом случае вероятность для отдельного человека получить сразу оба заболевания равна произведению вероятностей. При независимости признаков для признака А вероятность составляет: R1/Sum При независимости признаков для признака B вероятность составляет: C1/Sum
59 Таблицы сопряженности Вариант 2 – пример: Тогда вероятность заболеть обоими заболеваниями сразу составляет: p = (R1/Sum) x (C1/Sum) Чтобы перевести вероятность в число человек в выборке, ее надо домножить на объем выборки (это Sum), то есть y11 = (R1/Sum) x (C1/Sum) x Sum y11 = (R1 x C1) / Sum
60 Таблицы сопряженности BВсего A 12…c 1Ey12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum
61 Таблицы сопряженности Вариант 2 – пример: В оставшихся ячейках (для таблицы 2 x 2) аналогично получается вероятность: 1)Получить заболевание A и не получить заболевание B 2) Получить заболевание B и не получить заболевание A 3) Не получить заболевание A и не получить заболевание B
62 Таблицы сопряженности Итог по двум вариантам: Если вы заметили, в итоге в обоих вариантах мы получили E = (Rr x Cc) / Sum Это значение подставляется в формулу для хи- квадрат с df = (r-1)(c-1) Поправка Йейтса используется только при df=1
63 Критерий хи-квадрат в таблицах сопряженности Общие условия: 1.При таблицах 2 x 2 ожидаемые числа в каждой ячейке не должны быть меньше 5. 2.При таблицах r x c количество ячеек с ожидаемыми числами меньше 5 не должно быть больше 20%. 3.При невыполнении первых двух условий используется точный тест Фишера, который, однако, полностью не заменяет хи-квадрат.
64 Таблицы сопряженности На основе теста хи-квадрат и таблиц сопряженности для номинальных и порядковых данных разработаны многочисленные меры связанности (коэффициенты корреляции, конкордантности, согласия, сопряженности).
65 Таблицы сопряженности Таблицы сопряженности одновременно являются математической базой для латинского квадрата в эпидемиологии. Они являются математическим обоснованием для: -Чувствительности -Специфичности -Относительного риска -Отношения шансов -Отношения правдоподобия -и т. п.
66 Таблицы сопряженности Логарифмическое преобразование таблиц сопряженности служит основой для вычисления доверительных интервалов всех эпидемиологических показателей «латинского квадрата». Кроме того, на основе хи-квадрат существует тест Мантеля-Гензеля, позволяющий сравнивать несколько отношений шансов.
67 Таблицы сопряженности Расширение таблиц сопряженности до трех- и более измерений привело к появлению лог-линейного анализа – мощного инструмента для оценки множественных взаимодействий между различными типами переменных. Лог-линейный анализ напрямую связан с многофакторным дисперсионным анализом.
68 Таблицы сопряженности и хи- квадрат Таким образом, мы будем возвращаться к таблицам сопряженности и статистике хи- квадрат на протяжении всего оставшегося курса. Данная тема является ключевой в понимании дальнейшего материала.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.