Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемinformatika.socio.msu.ru
1 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г. Тема 11. Критерий согласия и таблицы сопряженности Критерий согласия Проверка нормальности Таблицы сопряженности Проверка независимости признаков Проверка однородности Коэффициенты связи
2 2 Иванов О.В., 2004 Горошины Менделя Австрийский монах, Грегор Мендель ( ), изучал генетику, и его принципы являются основой для современной генетики. Мендель использовал свободное время, выращивая горох в монастыре. В одном из своих экспериментов он скрестил разные виды гороха – с гладкими желтыми горошинками и со сморщенными зелеными горошинками. Он заметил, что результаты были систематическими, то есть некоторые из них имели гладкие желтые горошины, другие – гладкие зеленые горошины, третьи – сморщенные желтые горошины, а четвертые – сморщенные зеленые горошины. Более того, после нескольких экспериментов процентное соотношение каждого вида оставалось практически неизменным. Мендель сформулировал свою теорию, основанную на предположении доминантных и рецессивных признаков, и попытался предсказать результат. Тогда он скрестил свой горох и исследовал 556 горошин следующего поколения. Наконец, он сравнил полученные им результаты с теоретическими результатами, что бы узнать, правдива ли теория. Для этого он использовал «простой» тест хи-квадрат, который мы сейчас рассмотрим. Источник: J.Hodges, Jr.D.Krech и R.Crutchfield, Stat Lab, An Empirical Introduction to Statistics (New York: McGraw-Hill, 1975), pp
3 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Критерий согласия
4 4 Иванов О.В., 2004 Пример. Вкусовые предпочтения Маркетолог хочет узнать, какому из пяти вкусов нового напитка отдают предпочтение покупатели. Ниже приведены данные, полученные из опроса 100 человек: Если нет каких-либо особых вкусовых предпочтений, то каждый вид напитка покупают с одинаковой частотой. В таком случае каждая частота должна быть равна 100/5 = 20, то есть приблизительно по 20 человек выберут каждый вид сока. ВишняКлубникаАпельсинЛаймВиноград ВишняКлубникаАпельсинЛаймВиноград Наблюдаем Ожидаем
5 5 Иванов О.В., 2004 Наблюдаемые и ожидаемые частоты Наблюдаемые частоты - частоты полученные по выборке. Ожидаемые частоты - частоты, полученные путем вычисления на основе теоретических представлений о предполагаемом распределении. ВишняКлубникаАпельсинЛаймВиноград Наблюдаемые частоты Ожидаемые частоты
6 6 Иванов О.В., 2004 Что проверяет критерий согласия Критерий согласия позволяет выяснить, насколько согласуются между собой наблюдаемые частоты и ожидаемые, иными словами, существенны или нет различия между ними. Гипотезы для примера с предпочтениями запишутся так: Н 0 : У покупателей нет предпочтений по поводу вкусов сока. Н 1 : У покупателей есть предпочтения. Необходимые условия 1. Выборка случайна. 2. Наблюдаемая частота должна быть не меньше 5.
7 7 Иванов О.В., 2004 Статистика Для проверки гипотезы используется 2 -критерий с числом степеней свободы df = n – 1: Н – наблюдаемая частота О – ожидаемая частота
8 8 Иванов О.В., распределение Следующая случайная величина имеет распределение хи-квадрат: z 1 z 2 z 3 … z n - набор из n независимых случайных величин, имеющих стандартное нормальное распределение. Свойства: 1. Всегда неотрицательно. 2. Зависит от n – числа степеней свободы. 3. Среднее значение = n. 4. Стандартное отклонение = 2n.
9 9 Иванов О.В., 2004 Вид 2 распределения В зависимости от числа степеней свободы n вид распределения изменяется. При увеличении n распределение приближается к нормальному. n = 4 n = 6 n = 15
10 10 Иванов О.В., 2004 Критическая область Этот критерий имеет только правостороннюю критическую область. Критическая область соответствует значениям статистики, для которых значение 2 велико. Это означает, что данные плохо согласуются. 1 - = 0,95 = 0,05
11 11 Иванов О.В., 2004 Что значит «частоты согласуются» Если наблюдаемые и ожидаемые значения близки друг к другу, значение 2 -критерия будет небольшим. Гипотеза Н 0 не будет отвергнута. Имеется хорошее соответствие наблюдаемых данных и исследовательской модели. Хорошее соответствие Плохое соответствие
12 12 Иванов О.В., 2004 Решение задачи Шаг 1. Нулевая и альтернативная гипотезы: Н 0 : У покупателей нет предпочтений по поводу вкусов сока. Н 1 : У покупателей есть предпочтения. Шаг 2. Уровень значимости =0,05. Шаг 3. Критическое значение равно 9,488 (по таблице 2 -распределения, df = 5 – 1 = 4 и α = 0,05). Шаг 4. По выборке находим значение статистики: Шаг 5. Сравним полученное значение с критической областью: 18 > 9,488. Значение попало в критическую область. Шаг 6. Формулируем ответ. Существуют значимые предпочтения покупателей по поводу вида напитка.
13 13 Иванов О.В., 2004 Применение критерия согласия 1. Для проверки гипотезы о согласовании наблюдаемого распределения и теоретического. Это было в примере с напитками. 2. Для проверки гипотезы о совпадении законов распределения двух генеральных совокупностей. Предположение о виде теоретического распределения (теоретическая модель данных) в этом случае не требуется. Критерий дает нам представление о «расстоянии между двумя наборами данных» и на основе значения этого расстояния позволяет делать вывод о «согласии» между двумя распределениями.
14 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Проверка нормальности
15 15 Иванов О.В., 2004 Гипотезы Критерий согласия часто используется для проверки гипотез о виде распределения генеральной совокупности. По имеющейся случайной выборке можно проверить, имеет ли исследуемый признак нормальное распределение. Гипотезы выглядят так: Н 0 : признак имеет нормальное распределение. Н 1 : признак не имеет нормального распределения.
16 16 Иванов О.В., 2004 Статистика Для проверки гипотезы используется 2 -критерий с числом степеней свободы df = n – 1: Н – наблюдаемая частота О – ожидаемая частота
17 17 Иванов О.В., 2004 Задача Используя критерий согласия, определить, нормально ли распределен признак, значения которого приведены в виде частотной таблицы. Принять α = 0,05. ИнтервалЧастота 89,5-104, ,5-119, ,5-134, ,5-149, ,5-164, ,5-179,
18 18 Иванов О.В., 2004 Шаг 1. Среднее и стандартное отклонение выборки Интервалf xf·xf·x 2 89,5-104, ,5-119, ,5-134, ,5-149, ,5-164, ,5-179,
19 19 Иванов О.В., 2004 Шаг 2. Ожидаемые (теоретические) частоты Интервалf zz-значениеpp·n От - до 104, ,110, ,7 104,5-119,562 -0,230,40900,275555,1 119,5-134,572 0,650,74220,333266,6 134,5-149,526 1,530,93700,194839,039,0 149,5-164,512 2,410,99200,055011,0 От 164,5 до + 4 3,291,00000,0080 1,6 n= ,8 0,3332 = 0, ,4090 Теоретические частоты
20 20 Иванов О.В., 2004 Шаг 3. Значение статистики по выборке Интервал Наблюдаемые частоты Теоретические частоты От - до 104, ,7 104,5-119,562 55,1 119,5-134,572 66,6 134,5-149,526 39,039,0 149,5-164,512 11,0 От 164,5 до + 4 1, ,8 Нужно объединить с предыдущим интервалом
21 21 Иванов О.В., 2004 Шаг 3. Значение статистики по выборке Интервал Наблюдаемые частоты Теоретические частоты Разница От - до 104, ,7+2,70,27 104,5-119,562 55,1-6,90,86 119,5-134,572 66,6-5,40,44 134,5-149,526 39,039,013,04,33 От 149,516 12,612,6-3, ,86,83
22 22 Иванов О.В., 2004 Шаги 4-5. Критическая область и выводы Критическое значение при df = 4 и α = 0,05 равно 9,488. Поскольку полученное значение статистики не попало в критическую область, нулевую гипотезу мы не отвергаем. Ответ. Распределение можно считать нормальным.
23 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Таблицы сопряженности
24 24 Иванов О.В., 2004 Обработка данных Данные экспериментаТаблица сопряженности Номер респондента Признак 1 Пол? Признак 2 Курит? 1МужчинаКурит 2ЖенщинаНе курит 3ЖенщинаКурит 4МужчинаКурит 5МужчинаНе курит 6ЖенщинаНе курит 7МужчинаНе курит 8МужчинаКурит 9ЖенщинаНе курит 10ЖенщинаНе курит КуритНе курит Мужчина 32 Женщина 14 Таблица сопряженности составляется для двух признаков и содержит частоты для каждого набора значений.
25 25 Иванов О.В., 2004 Таблица сопряженности В общем виде таблица сопряженности состоит из r рядов и c столбцов. Будем называть ее R×C таблица. Каждая клетка таблицы определяется номером ее ряда (Row) и столбца (Column). СогласныНе согласныВоздержались Медсестры F 11 F12F12 F13F13 Врачи F21F21 F 22 F 23 Данная таблица имеет два ряда и три столбца: r = 2, c = 3.
26 26 Иванов О.В., 2004 Исследуемые признаки Признак 2. Отношение к новому препарату СогласныНе согласныВоздержались Медсестры F 11 F12F12 F13F13 Врачи F21F21 F 22 F 23 Признак 1. Категория персонала
27 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Проверка независимости признаков
28 28 Иванов О.В., 2004 Наблюдаемые частоты (Observed frequencies) В результате эксперимента мы получаем наблюдаемые частоты. Подсчитаем суммы по срокам и столбцам. СогласныНе согласныВоздержалисьВСЕГО Медсестры Врачи ВСЕГО
29 29 Иванов О.В., 2004 Ожидаемые частоты (Expected frequencies) Вычислим теоретические частоты. В первую клетку надо поставить частоту: СогласныНе согласныВоздержалисьВСЕГО Медсестры Врачи 200 ВСЕГО
30 30 Иванов О.В., 2004 Ожидаемые частоты (Expected frequencies) Вычислим теоретические частоты. В первую клетку надо поставить частоту: СогласныНе согласныВоздержалисьВСЕГО Медсестры Врачи ВСЕГО
31 31 Иванов О.В., 2004 Независимость признаков Признаки независимы, если распределение значений одного признака не зависит от значений, принимаемых другим признаком Отношение к препарату не отличается Отношение к препарату сильно отличается Признаки независимы Признаки зависимы
32 32 Иванов О.В., 2004 Шаг 1. Гипотезы Критерий согласия используется для проверки гипотезы о независимости признаков. Гипотезы выглядят так: Н 0 : признаки независимы. Н 1 : признаки зависимы.
33 33 Иванов О.В., 2004 Критерий проверки гипотезы Если бы признаки независимыми, то частоты должны быть распределены так, как показано в таблице ожидаемых частот. Критерий согласия позволяет оценить, насколько сильно различаются наблюдаемые частоты от ожидаемых. Если сильно, тогда мы признаем наличие зависимости признаков Наблюдаемые частотыОжидаемые частоты
34 34 Иванов О.В., 2004 Шаги 2-3. Уровень значимости и критическая область Критерий имеет правостороннюю критическую область. Число степеней свободы определяется по формуле: df = (r – 1)(c – 1) = (2 – 1)(3 – 1) = 2. Зададим α = 0,05, критическое значение равно 5, = 0,95 = 0,05 5,991 26,67
35 35 Иванов О.В., 2004 Шаг 4. Вычисление статистики Наблюдаемые частотыОжидаемые частоты
36 36 Иванов О.В., 2004 Шаг 5-6. Получение выводов Поскольку значение статистики попало в критическую область, 26,67 > 5,991, мы отклоняем гипотезу о независимости признаков. Вывод. Признаки зависимы. Отношение к новому лекарству существенно зависит от категории персонала. 5,99126,67
37 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Проверка однородности
38 38 Иванов О.В., 2004 Критерий однородности Второй 2 -критерий, который использует таблицу сопряженности, называется критерий однородности долей. В данной ситуации выборки делаются из разных совокупностей, и исследователю интересно узнать, одинаковы ли доли признака для каждой совокупности. Размеры выборки устанавливаются заранее, до того, как становится известной сама выборка. Например, исследователь может опросить 50 первокурсников, 50 второкурсников, 50 третьекурсников и 50 выпускников, а потом найти соотношение курящих в каждой группе. Потом исследователь сравнивает доли курящих в каждой группе, чтобы посмотреть, одинаковы ли они.
39 39 Иванов О.В., 2004 Гипотезы Гипотезы имеют вид: Н 0 : р 1 = р 2 = р 3 = р 4 Н 1 : по крайней мере, одна доля отличается от других Если принимаем нулевую гипотезу, то тем самым мы допускаем, что доли равны, и различия случайны. Это будет означать, что доли курящих студентов одинаковы в каждой группе. Если нулевая гипотеза не принимается, это означает, что доли не равны друг другу. Процесс проверки гипотезы тот же, что и для критерия независимости.
40 25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г.25 сентября 2012 г Коэффициенты связи Коэффициент фи Коэффициент фи Коэффициент Крамера Коэффициент сопряженности Пирсона
41 41 Иванов О.В., 2004 Зависимость 2 от объема выборки Использование 2 в качестве меры связи двух признаков имеет недостатки. Главный - величина 2 зависит от объема выборки для таблиц с одинаковыми пропорциями Поскольку таблицы имеют одинаковые пропорции, то сила связи между признаками постоянна для всех трех таблиц, а значения 2 при этом различны. Рассмотрим других «кандидатов» на роль коэффициента связи между признаками.
42 42 Иванов О.В., 2004 Коэффициент фи Свойства: Используется для таблиц 2х2 Равен нулю для независимых переменных Равен +1 или -1 для полностью зависимых переменных: a0 0d 0b c0
43 43 Иванов О.В., 2004 Вычисление коэффициента фи ab cd Для вычисления коэффициента используют следующую формулу: Главное, коэффициент для всех трех таблиц, рассмотренных выше, одинаковый:
44 44 Иванов О.В., 2004 Коэффициент Крамера Свойства: Используется для таблиц любого размера Для таблиц 2х2 совпадает с коэффициентом фи Равен нулю для независимых переменных Равен 1 для полностью зависимых переменных где r – количество строк, c – количество столбцов
45 45 Иванов О.В., 2004 Коэффициент сопряженности Пирсона Свойства: Используется для таблиц любого размера Равен нулю для независимых переменных Максимум коэффициента меньше 1 Чтобы изменялся от 0 до 1 используется корректировка:
46 46 Иванов О.В., 2004 Коэффициент лямбда
47 47 Иванов О.В., 2004 Коэффициент Юла
48 48 Иванов О.В., 2004 Пример 25 респондентов исследовали на связь между двумя признаками: пол и отношение к курению. Таблица сопряженности и коэффициенты представлены по отчету SPSS.
49 49 Иванов О.В., 2004 Какой коэффициент «лучше»? 1.Каждый коэффициент отражает своё понятие силы связи, степени зависимости. 2.За каждым из них стоит своя модель изучаемого явления. Их не следует интерпретировать в отрыве от этой модели. 3.Так, хотя коэффициент лямбда и может быть равен нулю, несмотря на то, что переменные зависимы, но в рамках модели прогноза, значение ноль совершенно справедливо указывает на то, что знание значения переменной X не позволяет улучшить прогноз значения переменной Y. 4.В большинстве случаев, если при сравнении степени связи в 2х2 таблицах один из коэффициентов связи для одной из таблиц больше, тогда то же самое будет верно и для всех остальных коэффициентов.
50 50 Иванов О.В., 2004 Понятия и термины
51 51 Иванов О.В., 2004 Задание на 5 минут Приведите пример парных (зависимых) выборок.
52 52 Иванов О.В., 2004 Задачи Опрос, проведенный совместно USA Today, CNN, Gallup, показал, что 74% респондентов считает, что автомобилисты ездят агрессивнее, чем 5 лет назад, 23% считает, что они ездят точно так же, 3% считает, что автомобилисты ездят менее агрессивно, чем 5 лет назад. Опрос 180 опытных водителей показал, что 125 из них считают, что автомобилисты ездят агрессивнее, чем 5 лет назад, 36 – примерно одинаково, 19 человек считают, что автомобилист ездят менее агрессивно, чем 5 лет назад. При α = 0,10 проверьте утверждение, что мнение опытных водителей совпадает с мнением опрошенных USA Today, CNN, Gallup. Источник: Основано на информации из USA Today, August 29, USA Today Snapshot утверждает, что 53% покупателей предпочитает расплачиваться за покупки наличными, 30% использует – чек, 16% – кредитки, а у 1% нет особых предпочтений. Владелец большого супермаркета опросил 800 покупателей относительно того, каким образом они предпочитают оплачивать покупки. Результаты показали, что 400 покупателей платили наличными, 210 – чеком, 170 – кредиткой, и 20 – не отдает определенного предпочтения. При α = 0,01 проверьте утверждение, что у покупателей данного супермаркета и у опрошенных одинаковые предпочтения. Источник: USA Today, July 19, 1995.
53 53 Иванов О.В., 2004 Задачи Штатный сотрудник службы неотложной помощи желает определить, одинаково ли распределено количество несчастных случаев в течение недели. Была выбрана наугад неделя, и получены следующие данные. Достаточно ли оснований, чтобы отвергнуть гипотезу, доказывающую, что количество несчастных случаев распределено равномерно в течение недели, при α = 0,05? ДеньПнВтСрЧтПтСбВс Частота Владелец спортивного инвентаря желает узнать, отдается ли предпочтение какому-то конкретному месяцу при покупке охотничьего ружья. Результаты продаж приведены ниже. При α = 0,05 проверьте утверждение, что покупка оружия не зависит от конкретного месяца. МесяцСентябрь Октябрь НоябрьДекабрь Частота
54 54 Иванов О.В., 2004 Задачи Американский филиал Красного Креста сообщает о том, что 42% американцев имеют кровь типа О, 44% – типа А, 10% – типа В и 4% – типа АВ. Районный медицинский исследователь говорит о том, что распределение типов крови в его регионе соответствует общим показателям в стране. Делается наугад выборка из 200 человек. Данные приведены ниже. При α = 0,10, проверьте гипотезу исследователя. Тип кровиАОВАВ Частота Источник: Robert D.Shook and Michael L.Shook, The Book of Odds (New York: Penguin Putnam, Inc., 1961), p.161.
55 55 Иванов О.В., 2004 Задачи Исследователю интересно узнать, есть ли связь между возрастом респондента и количеством потребляемого кофе. Было опрошено 152 человека, данные приведены ниже в таблице. При α = 0,01 определите, есть ли связь между возрастом и количеством потребляемого человеком кофе. Потребление кофе ВозрастНизкоеСреднееВысокое 21 – – – Старше
56 56 Иванов О.В., 2004 Задачи Производитель автомобилей желает узнать, есть ли связь между возрастом покупателей и ценой купленной машины. Было опрошено 222 водителя. Данные приведены ниже в таблице. При α = 0,05 определите, есть ли зависимость между ценой машины и возрастом водителя? Цена ВозрастДо $20000$20001 – $30000$30001 – $ – – – Старше
57 57 Иванов О.В., 2004 Задачи Преподавателю высшего учебного заведения интересно узнать, зависит ли способ получения информации от образования людей. Опрос 400 студентов ВУЗов и школ показал результаты, приведенные в таблице. При α = 0,05 проверьте утверждение, что способ получения информации не зависит от их образования. ТелевидениеГазетыДругое ВУЗ Школа274231
58 58 Иванов О.В., 2004 Задачи Служащий университета хочет определить наличие связи между ученой степенью преподавателя и тем, как студенты оценивают получаемые от него знания. Опрошенным студентам было предложено оценить разных преподавателей. Данные опроса приведены ниже. При α = 0,10 выясните, может ли служащий заключить, что есть связь между ученой степенью преподавателя и мнением студентов о способностях преподавателя. Степень ОценкаАспирантДоцентПрофессор Отлично1494 Средне1657 Плохо31216
59 59 Иванов О.В., 2004 Задачи Страховая компания хочет узнать, как влияет возраст водителя на количество водителей в нетрезвом состоянии. Компания опросила 86 водителей четырех возрастных категорий, чтобы узнать, водят ли они машину в нетрезвом состоянии. При α = 0,05 проверьте утверждение о том, что доля водителей, ответивших утвердительно, одинакова в каждой возрастной группе Старше 50 Да Нет ВСЕГО86
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.