Качественные признаки Тема занятия.

Презентация:



Advertisements
Похожие презентации
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Advertisements

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Критерий согласия. Практический пример применения критерия согласия. Закон Менделя. Выполнила: студентка 346гр ОМ Ламежанова Зарина Проверила: Такуадина.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Точный критерий Фишера Алтынбеков Қ. Қ. Спортивная медицина. Ризедентура.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Проверка статистических гипотез Лекция 7 (продолжение) 1.
Проверка статистических гипотез Лекция 20. План лекции: 1.Проверка статистических гипотез. 2.Критерии асимметрии и эксцесса. 3.Критерий Пирсона.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Статистические гипотезы Лекция 2.
Транксрипт:

Качественные признаки Тема занятия

Вероятности и доли Доля (proportion) – это отношение количества представителей выборки, обладающих признаком, к общему объему выборки 0 p 1

Вероятности и доли Вероятность (probability) получить из выборки или популяции человека, обладающего признаком X, равна доле этого признака в выборке (популяции). Proportion = Probability

Законы взаимодействия вероятностей 1. Правило сложения вероятностей 2. Правило перемножения вероятностей 3. Закон биномиального распределения

Правило сложения вероятностей Вероятность того, что произойдет одно из нескольких независимых событий, равна сумме вероятностей каждого отдельного события.

Пример Доля людей в популяции с группой крови I(0) составляет 36%, а доля голубоглазых людей – 28%. Какова вероятность, что у случайно взятого человека группа крови будет или первая группа крови, или голубые глаза? p = 0,36 + 0,28 = 0,64

Правило умножения вероятностей Вероятность того, что произойдет сразу два и более независимых события, равна произведению вероятностей каждого отдельного события.

Пример Пожизненный риск заболевания раком легких составляет 3%, а заболевания шизофренией – 0,1%. Каков пожизненный риск заболеть одновременно шизофренией и раком легких? p = 0,03 x 0,001 = 0,00003

Биномиальное распределение Процесс Бернулли (Bernoulli process) – это испытание, в котором возможно получение только двух результатов – «успех» или «неудача». Вероятность получения «успеха» в каждом отдельном испытании равна доле «успехов» в популяции.

Биномиальное распределение Вероятность получения «успеха» в серии из нескольких испытаний подчиняется биномиальному распределению вероятностей. Биномиальное распределение – это вероятность получить точно r «успехов» из N испытаний при популяционной доле «успехов», равной π.

Биномиальное распределение Пример: Есть две монеты: 1)настоящая, для которой вероятности выбросить «орла» или «решку» равны между собой и равны 0,5. 2)Фальшивая, для которой вероятность выбросить «орла» составляет всего 0,3. Вы видите два биномиальных распределения – результаты 6 бросков каждой монеты.

Условия использования биномиального распределения Признаки должны быть: 1)Дихотомическими – иметь только два значения (1 и 0, «да» и «нет» и т.п.) 2) Взаимно исключающимися 3) Независимыми 4) Выбранными случайно

Пример использования биномиального распределения Генетическое консультирование Если вероятность рождения ребенка с идиотией Тея-Сакса составляет у данной пары родителей 25%, то вероятность того, что ни один из двух рожденных последовательно детей не будет страдать этим расстройством, составляет 0,56 (см. график).

Ограничение биномиального распределения Биномиальное распределение дискретно: поскольку количество испытаний может быть только целым числом, вероятность принимает строго определенные значения. При увеличении числа испытаний биномиальное распределение становится практически идентичным нормальному.

Двусторонний тестОдносторонний тест N α

Расчеты с качественными признаками Для количественных данных используется критерий Стьюдента, который при объеме выборки выше 100 человек можно заменить z- критерием, так как распределения t и z становятся идентичными. Аналогично для качественных признаков используются различные критерии в зависимости от объема выборки, числа выборок и числа различных значений признаков.

Критерий z для одной выборки Условия применения критерия: 1.Выборка больше 30 человек. 2.Случайная выборка из генеральной совокупности 3.Нулевая гипотеза: доля в популяции не отличается от заранее заданной доли.

Расчет критерия z p – это наблюдаемая в выборке доля. n – объем выборки (> 30). π – ожидаемая доля в популяции. Нулевая гипотеза: p = π Доверительный интервал для доли: ДИ=p±zs p

Расчет z для одной выборки - пример Допустим, исследователи изучают новое антацидное средство в группе из 100 пациентов. У 9 пациентов из ста на фоне приема препарата появились жалобы на головокружение и сонливость. Приемлемой была принята частота осложнений, равная 15%. Требуется доказать, что частота осложнений в популяции не больше 15%.

Расчет z для одной выборки - пример Нулевая гипотеза: p > π Альтернативная гипотеза: p π 1. p = 9/100 = 0.09 SE = z = ( ) / = z < z крит., следовательно, нулевая гипотеза принята % доверительный интервал для p: 0,09 - 1,96x0,0357 p 0,09 + 1,96x0, p 0,16 Доверительный интервал содержит 0,15. Следовательно, популяционная доля не меньше 0,15.

Биномиальный тест для одной выборки При небольшом объеме выборки даже поправка Йейтса на непрерывность не может ликвидировать различий биномиального и нормального распределений, поэтому критерием z пользоваться невозможно. В такой ситуации используются дискретные критические значения самого биномиального распределения.

Критерий z для двух выборок Условия применения: 1.Выборки объемом более 30 человек. 2.np и n(1-p) в обеих выборках должны быть больше 5 (другими словами, признак должен быть не менее, чем у 5 человек в каждой выборке). 3.Выборки случайные 4.Выборки независимые

Расчет двухвыборочного критерия z p – это наблюдаемая в выборке доля. n – объем выборки (> 30). π – ожидаемая доля в популяции. Нулевая гипотеза: p = π Доверительный интервал для доли: ДИ= (p 1 -p 2 ) ± zs p

Расчет z для двух выборок - пример Исследуется смертность от сосудистых осложнений на фоне приема двух антиангинальных препаратов – один из них является широко распространенным, проверенным средством, а другой – экспериментальный. В группе из 100 человек, получавших старый препарат, за год умерло 7 человек. В группе из 90 человек, получавших новый препарат, за год умерло 5 человек. Достоверны ли различия в смертности?

Расчет z для двух выборок - пример Нулевая гипотеза: p1 = p2 Альтернативная гипотеза: p1 p2 1. p1 = 7/100 = 0.07; p2 = 5/90 = 0,055 SE = z = (| | ) / = z < z крит., следовательно, нулевая гипотеза принята 2. 95% доверительный интервал для разности долей: 0, ,96x0,035 (p1-p2) 0, ,96x0, p Доверительный интервал содержит 0. Следовательно, различий между группами нет.

Точный тест Фишера для двух выборок Точный тест Фишера применяется, когда нарушается второе условие использования критерия z – то есть признак наблюдается менее, чем у 5 человек в выборке. Тест Фишера основан на гипергеометрическом распределении и является полным аналогом биномиального теста, только для двух выборок. Выборки при использовании теста Фишера должны быть независимыми и случайными.

Доверительные интервалы для долей Доверительный интервал (confidence interval) для доли – это диапазон значений, в пределах которого с заданной вероятностью (обычно 95%) находится истинная популяционная доля. Для достаточно больших выборок распределение выборочных долей можно считать нормальным. Тогда: Доверительный интервал для доли: ДИ=p±zs p

Доверительные интервалы для долей Доверительные интервалы для долей, рассчитанные выше, являются лишь приблизительными. Точные доверительные интервалы рассчитываются, исходя из биномиального распределения. Вручную их можно определить по специальным номограммам, а на практике – в компьютерных статистических пакетах. Доверительные интервалы должны в обязательном порядке указываться для всех переменных при описании данных.

Доверительные интервалы для долей Пример: Исследователь указывает, что он исследовал 10 больных до и после лечения. Затем в таблице мы увидим, что до лечения боли в животе были у 70%, а после лечения – лишь у 20%. Данные выглядят очень убедительно - различия составляют 50%!. Теперь укажем доверительные интервалы: - До лечения - 70% (35% - 93%), после лечения - 20% (25% - 56%). Доверительные интервалы даже перекрываются! Поэтому проверим значимость различий: различия действительно значимы (p=0.02). Применение доверительных интервалов показывает, какой диапазон значений может принимать показатель в популяции, а не в конкретной выборке.

Доверительные интервалы для долей График без доверительных интервалов – дает представление только о выборке, изученной исследователем.

Доверительные интервалы для долей Тот же график, но уже с границами доверительных интервалов – диапазон, который могут принимать истинные значения в популяции.

Распределение хи-квадрат Распределение хи-квадрат является теоретическим распределением (наряду с нормальным, биномиальным, F- распределением и т.п.) В отличие от нормального и биномиального, это распределение не встречается в естественных процессах, а, как и распределение F, является результатом сравнения экспериментального и расчетного значений.

Область применения распределения хи-квадрат Тесты согласия (goodness-of-fit): соответствует ли данные в выборке какой-либо вероятностной модели? Тесты на гомогенность (равенство) (homogeneity): являются ли обе выборки выборками из одного (неизвестного) распределения? Тесты на связь (association) или независимость (independence): существует ли связь между двумя и более переменными или же они независимы?

Распределение хи-квадрат Распределение не симметрично, оно существенно смещено вправо. Распределение имеет разную форму в зависимости от степени свободы (вычисляется по- разному в зависимости от конкретного приложения).

Распределение хи-квадрат Распределение хи-квадрат определяется исключительно значением степени свободы. Среднее значение распределения равно числу степеней свободы (df). Стандартное отклонение равно 2 x df. С увеличением степени свободы распределение становится все симметричнее.

Распределение хи-квадрат Примеры: При df=4 нижние 2,5% распределения отсекаются значением, равным 0,4844 При df=15 верхние 5% распределения отсекаются значением, равным 24,9958

Использование хи-квадрат для проверки гипотез в одной выборке Сравнение доли в выборке с предполагаемой популяционной при помощи критерия хи-квадрат очень напоминает использование критерия z. Число степеней свободы для одной выборки и двух вариантов исходов (дихотомический признак) равно 1.

Использование хи-квадрат для проверки гипотез в одной выборке Пример: в отдаленной сельской местности изучена выборка из 100 человек, среди них 62 женщины и 38 мужчин. Исследователей интересует вопрос, достоверно ли отличаются данные показатели от 50%, предполагаемых для популяции? Наблюдаемые числа: 62 и 38 Ожидаемые числа: 50 и 50

Использование хи-квадрат для проверки гипотез в одной выборке Поправка ½ (поправка Йейтса на непрерывность) вводится лишь когда число степеней свободы равно 1 из-за того, что экспериментальное распределение дискретно (как и биномиальное), а хи-квадрат – непрерывно. Значение 5,29 при 1 степени свободы соответствует вероятности около 0,024, что меньше критического значения. Нулевая гипотеза отвергается, отличие от 50% есть.

Использование хи-квадрат для проверки гипотез в двух выборках Логика проверки гипотезы аналогична: Значения заносятся в таблицу 2x2: +-Всего Выборка Выборка Всего

Использование хи-квадрат для проверки гипотез в двух выборках Рассчитываются ожидаемые значения при предположении, что доли в выборках равны: +-Всего Выборка 1 37,562,5100 Выборка 2 37,562,5100 Всего

Использование хи-квадрат для проверки гипотез в двух выборках Далее рассчитывается критерий хи-квадрат по аналогичной формуле. Число степеней свободы для таблицы 2x2 равно 1. При df = 1 это значение соответствует вероятности 0,041. Следовательно, различия есть.

Полиномиальные таблицы и хи- квадрат Хи-квадрат можно использовать не только для сравнения дихотомических данных, но и для сравнения номинальных данных с несколькими категориями. Наиболее типичное применение такого критерия в биологии – это менделирующие признаки, для которых известно теоретическое распределение вероятностей. Возьмем классический пример Менделя с горохом и рассмотрим его с точки зрения хи-квадрат.

Полиномиальные таблицы и хи- квадрат Исследователь оценивает горошину по двум параметрам: цвет (желтый или зеленый) и поверхность (гладкая или бугристая). Соответственно, он получил 4 комбинации: Желтый гладкий – 315 Желтый бугристый – 101 Зеленый гладкий – 108 Зеленый бугристый - 32

Полиномиальные таблицы и хи- квадрат Если признаки действительно менделирующие и независимые, причем желтый и гладкий – доминантные, а зеленый и бугристый – рецессивные, распределение их должно соответствовать 9:3:3:1, то есть ожидаются числа: Желтый гладкий – 313 Желтый бугристый – 104 Зеленый гладкий – 104 Зеленый бугристый – 35 Нулевая гипотеза выглядит так: (9/16) x p1 = (3/16) x p2 = (3/16) x p3 = (1/16) x p4

Полиномиальные таблицы и хи- квадрат В данном случае число степеней свободы равно количеству категорий минус единица, то есть df = 4 – 1 = 3 Поправку Йейтса на непрерывность делать не надо, и статистика хи-квадрат становится совсем простой: Критическое значение существенно больше (7,815), поэтому достоверных отличий от распределения Менделя нет.

Критерий согласия на основе хи-квадрат В предыдущем примере мы сравнили распределение долей по категориям с теоретическим распределением. Это напрямую приводит нас к критерию согласия на основе хи-квадрат: если мы разобьем количественный признак на много категорий, и подсчитаем частотное распределение по этим категориям (иными словами, сгуппированное частотное распределение), то его можно будет прямо сравнить с теоретическим нормальным распределением!

Критерий согласия на основе хи-квадрат Основным недостатком критерия согласия на основе хи-квадрат является этап перевода распределения количественного признака в категориальную форму. При этом часть информации о распределении теряется, поэтому хи-квадрат – не самый чувствительный критерий нормальности. Но с помощью критерия согласия на основе хи-квадрат можно сравнить выборочное распределение с любым теоретическим.

Таблицы сопряженности Таблицы сопряженности (contingency tables) или кросстабуляция (cross tabulation, cross-tables) – это метод оценки различных взаимодействий между качественными (номинальными и категориальными данными).

Таблицы сопряженности BВсего A 12…c 1y11y12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum Общий вид таблицы сопряженности

Таблицы сопряженности Вариант 1: A – фактор (определяется исследователем), B – отклик или исход. В этом случае таблица рассматривается как набор из r выборок объема R1… Rr, в которых возможны варианты отклика B. Вопрос, который задает исследователь: Является ли распределение отклика (B) равномерным при разных значениях A?

Таблицы сопряженности Вариант 1 – пример: A – это раса (исследователь выбрал этот фактор) B – частота гастрита B у разных рас (это тот исход, который исследователь изучает). Если распределение равномерно относительно А, значит, частота гастрита у всех рас: С1/Sum= y11/R1 = y21/R2 = yr1/Rr

Таблицы сопряженности BВсего A 12…c 1y11y12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum

Таблицы сопряженности Вариант 1 – пример: С1/Sum= y11/R1 = y21/R2 = yr1/Rr Отсюда получаем, что ожидаемое число в конкретной ячейке y11=R1 x (C1/Sum) Или в общей случае E = Rr x Cc /Sum Где Rr – сумма значений по данной строке (объем одной выборки) Сс – сумма значений по данному столбцу Sum – общая сумма значений в таблице

Таблицы сопряженности BВсего A 12…c 1Ey12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum

Таблицы сопряженности Вариант 2: A и B - отклики или исходы. В этом случае таблица рассматривается как одна выборка размера Sum, в которой изучаются две переменные. Вопрос, который задает исследователь: Зависит ли распределение А от распределения B? Или: независимо ли А от B?

Таблицы сопряженности Вариант 2 – пример: A – это заболеваемость раком легких B – это заболеваемость шизофренией Нулевая гипотеза заключается в том, что рак легких и шизофрения – это независимые заболевания, и одно заболевание никак не влияет на вероятность заболеть другим.

Таблицы сопряженности Вариант 2 – пример: Как вы помните, в этом случае вероятность для отдельного человека получить сразу оба заболевания равна произведению вероятностей. При независимости признаков для признака А вероятность составляет: R1/Sum При независимости признаков для признака B вероятность составляет: C1/Sum

Таблицы сопряженности Вариант 2 – пример: Тогда вероятность заболеть обоими заболеваниями сразу составляет: p = (R1/Sum) x (C1/Sum) Чтобы перевести вероятность в число человек в выборке, ее надо домножить на объем выборки (это Sum), то есть y11 = (R1/Sum) x (C1/Sum) x Sum y11 = (R1 x C1) / Sum

Таблицы сопряженности BВсего A 12…c 1Ey12…у1cR1 2y21y22…у2c …………… ryr1yr2…уrcRr Всего С1С1С2С2СcСcSum

Таблицы сопряженности Вариант 2 – пример: В оставшихся ячейках (для таблицы 2 x 2) аналогично получается вероятность: 1)Получить заболевание A и не получить заболевание B 2) Получить заболевание B и не получить заболевание A 3) Не получить заболевание A и не получить заболевание B

Таблицы сопряженности Итог по двум вариантам: Если вы заметили, в итоге в обоих вариантах мы получили E = (Rr x Cc) / Sum Это значение подставляется в формулу для хи- квадрат с df = (r-1)(c-1) Поправка Йейтса используется только при df=1

Критерий хи-квадрат в таблицах сопряженности Общие условия: 1.При таблицах 2 x 2 ожидаемые числа в каждой ячейке не должны быть меньше 5. 2.При таблицах r x c количество ячеек с ожидаемыми числами меньше 5 не должно быть больше 20%. 3.При невыполнении первых двух условий используется точный тест Фишера, который, однако, полностью не заменяет хи-квадрат.

Таблицы сопряженности На основе теста хи-квадрат и таблиц сопряженности для номинальных и порядковых данных разработаны многочисленные меры связанности (коэффициенты корреляции, конкордантности, согласия, сопряженности).

Таблицы сопряженности Таблицы сопряженности одновременно являются математической базой для латинского квадрата в эпидемиологии. Они являются математическим обоснованием для: -Чувствительности -Специфичности -Относительного риска -Отношения шансов -Отношения правдоподобия -и т. п.

Таблицы сопряженности Логарифмическое преобразование таблиц сопряженности служит основой для вычисления доверительных интервалов всех эпидемиологических показателей «латинского квадрата». Кроме того, на основе хи-квадрат существует тест Мантеля-Гензеля, позволяющий сравнивать несколько отношений шансов.

Таблицы сопряженности Расширение таблиц сопряженности до трех- и более измерений привело к появлению лог-линейного анализа – мощного инструмента для оценки множественных взаимодействий между различными типами переменных. Лог-линейный анализ напрямую связан с многофакторным дисперсионным анализом.

Таблицы сопряженности и хи- квадрат Таким образом, мы будем возвращаться к таблицам сопряженности и статистике хи- квадрат на протяжении всего оставшегося курса. Данная тема является ключевой в понимании дальнейшего материала.