24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г. Тема 14. Непараметрические критерии. Проверка однородности 14.1. Критерий.

Презентация:



Advertisements
Похожие презентации
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 12. Непараметрические критерии. Проверка однородности Критерий знаков 12-2.
Advertisements

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
1. Определить последовательность проезда перекрестка
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 2. Доверительные интервалы 2-1. Доверительный интервал для доли 2-2. Доверительный.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Путешествие с любознательным дымком! 19, 29, 39, 11, 22, 33,. 49, 59, 69, 79 44, 55, 66, 77.
Зачет по теме "Квадратные уравнения" Автор составитель: Попова Виктория Юрьевна, учитель математики высшей категории, заместитель директора МОУ гимназии.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Лекция 9. Непрерывные распределения 9-1. Функция распределения 9-2. Плотность.
Транксрипт:

24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г. Тема 14. Непараметрические критерии. Проверка однородности Критерий знаков Знако-ранговый критерий Критерий Манна-Уитни Критерий Вилкоксона

2 Иванов О.В., 2004 Параметрические и непараметрические критерии Такие статистические критерии, как z, t и F называются параметрическими. Параметрические критерии предназначены для проверки гипотез о параметрах генеральной совокупности - среднем, дисперсии, доли; либо гипотез о типе распределения. Кроме этого, статистики разработали направление, которое развивает непараметрические критерии. В этом случае вид и параметры распределения не рассматриваются. Эти критерии используют, в частности, для исследования генеральных совокупностей, которые не распределены нормально.

3 Иванов О.В., 2004 Четыре преимущества непараметрических методов 1.Они могут использоваться для проверки гипотез о параметрах генеральной совокупности, когда переменная не распределена нормально. 2.Они могут использоваться для номинальных и порядковых данных. 3.Они могут использоваться для проверки гипотез, которые не связаны с параметрами генеральной совокупности. 4.В большинстве случаев для непараметрических методов подсчеты проще, чем для параметрических. Они более понятны.

4 Иванов О.В., 2004 Три недостатка непараметрических методов 1.Они менее точны, чем соответствующие параметрические методы. Следовательно, требуются более значительные отклонения, чтобы отвергнуть нулевую гипотезу. 2.Они менее информативны, чем параметрические критерии. Например, критерий знаков позволяет исследователю определить, превосходит значение данных медиану или нет, но не отвечает – на сколько именно. 3.Они менее эффективны, чем соответствующие параметрические критерии. Например, непараметрический критерий знаков дает лишь 60% эффективности от того, что можно получить, используя его параметрическое соответствие – z-критерий. Требуется больший объем выборки, чтобы компенсировать утрату информации: нужна выборка из 100 человек для критерия знаков, в то время, как для аналогичных результатов при использовании z-критерия достаточно было бы выборки из 60 человек.

5 Иванов О.В., 2004 Сравнение эффективности ПриложенияПараметрический тест Непараметрический тест Эффективность Парные выборкиt-тест или z-тестКритерий знаков Знако-ранговый критерий 0,63 0,95 Две независимые выборки t-тест или z-тестКритерий Вилкоксона0,95 Несколько независимых выборок Дисперсионный анализ (F-тест) Критерий Краскела- Уоллиса 0,95 КорреляцияЛинейная корреляцияРанговая корреляция0,91 Проверка случайности Нет параметрических тестов Тест РунаНет базы сравнения Эффективность непараметрических тестов оценивалась в сравнении с параметрическими для нормально распределенной генеральной совокупности.

24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г Критерий знаков Sign Test Sign Test

7 Иванов О.В., 2004 Пример 1. Кадровые предпочтения Руководство сети ресторанов быстрого обслуживания обратило внимание, что кадровая служба сети отдает большее предпочтение на должность менеджера девушкам, нежели, чем юношам. Среди менеджеров оказалось 30 юношей и 70 девушек. Усомнившись в разумности сложившихся пропорций, руководство запросило объяснений. Кадровая служба объяснила сложившуюся пропорцию результатом случайности, а не итогом определенных предпочтений. Проверить на уровне значимости =0,05, может ли такая пропорция оказаться результатом случайности.

8 Иванов О.В., 2004 Пример 2. Строительство башни Несколько детей попросили из предоставленных им кубиков собрать башню. Эксперимент повторили с этими же детьми через месяц, результаты времени (в секундах) представлены в таблице ниже. На уровне значимости =0,05 проверить предположение о том, что нет существенной разницы между результатами. РебенокABCDEFGIKLMNOPR Исп Исп

9 Иванов О.В., 2004 Пример 3. В день 40 леденцов Владелец продуктового магазина строит гипотезу о том, что медианное количество продаваемых им за день леденцов равно 40. Случайная выборка за 20 дней дает следующие данные по количеству леденцов, продаваемых каждый день. При α = 0,05 проверить гипотезу владельца магазина

10 Иванов О.В., 2004 Кадровые предпочтения Кадровые предпочтения В день 40 леденцов В день 40 леденцов Строительство башни Строительство башни Критерий знаков Гипотеза об однородности для парных выборок Гипотеза об однородности для парных выборок Гипотеза о значении медианы Гипотеза о значении медианы Гипотеза о доли признака Гипотеза о доли признака

11 Иванов О.В., 2004 На чем основан критерий Последовательность n знаков разностей представляет собой последовательность случайных величин - результатов независимых испытаний с двумя возможными исходами: плюс или минус. Если распределения совпадают, то в каждом испытании выполнено: Количество плюсов и количество минусов есть случайные величины, которые распределены по биноминальному закону. Малое количество одинаковых знаков (плюсов или минусов) или, наоборот, очень большое будет означать, что наша гипотеза неверна, поскольку, исходя их ситуации, количество плюсов и количество минусов должно быть в среднем одинаково.

12 Иванов О.В., 2004 Условия для применения критерия 1. Данные должны быть получены случайным образом. 2. Нет никаких требований относительно закона распределения генеральных совокупностей, из которых эти данные получены.

13 Иванов О.В., 2004 Статистика 1. Объем выборки n 25. Выбираем в качестве критерия: x = min (количество минусов, количество плюсов). Критические значения находятся по таблице. Если x окажется меньше или равен критическому значению из таблицы, то гипотеза отвергается. 2. Объем выборки n>25. Тогда в качестве критерия выберем: Критические значения находятся по таблице нормального закона.

14 Иванов О.В., 2004 Решение примера. Строительство башни Гипотезы: H 0 : изменений не произошло H 1 : есть изменения Имеем 12 плюсов, 2 минуса и 1 совпадение. Совпадение отбрасываем. n=14 =0,05 х = min(2,12) = 2 По таблице находим критическое значение 2. Вывод. Результаты улучшились. РебенокИсп. 1Исп. 2Знак A30 B1913+ C1914+ D2316+ E2914+ F6452+ G4214+ I2022- K1217- L3912+ M1411+ N8130+ O1714+ P3117+ R5215+

Иванов О.В., 2004 Решение примера. Кадровые предпочтения Гипотезы: H 0 : доля юношей в генеральной совокупности равна 0,5 H 1 : доля юношей значимо отличается от 0,5 Выборка составила 100 человек: n=100. Статистика: x = min (30, 70) = 30 Поскольку n>25, вычислим значение критерия по формуле: Для =0,05 находим z = -1,96. (Двустороння область) 0 -3,9 -1,96

16 Иванов О.В., 2004 Решение примера. Кадровые предпочтения Вывод. Поскольку значение статистики попало в критическую область, мы отвергаем основную гипотезу и считаем, что кадровые предпочтения имеются. Дополнительный вопрос. Имеется возможность ответить на вопрос – какое соотношение юношей и девушек не приведет к отклонению нулевой гипотезы? Элементарный подсчет приведет к тому, что граничной окажется ситуация с пропорцией, близкой к 40÷60 или 60÷40. В этих границах отклонение может рассматриваться как результат случайности.

17 Иванов О.В., 2004 Решение примера. В день 40 леденцов Гипотезы: H 0 : медиана равна 40 H 1 : медиана значимо отливается от 40 Совпадения отбрасываем. n=18, =0,05, х = min (3,15) = 3 По таблице находим критическое значение 4. Вывод. У нас достаточно оснований, чтобы отказаться от заявления, о том, что медиана продаваемых в день леденцов равна плюса, 15 минусов, 2 совпадения

18 Иванов О.В., 2004 Критические значения для критерия знаков n =0,05 =0, Критическая область для =0,05 Таблица А-7.

24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г Знако-ранговый критерий Wilcoxon Signed-Ranks Test for Matched Pairs

20 Иванов О.В., 2004 Что проверяет критерий Знако-ранговый критерий проверяет гипотезу об однородности для парных выборок. Требуется проверить, совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Часто проверяют наличие эффекта обработки: совпадение распределений «до» и «после» обработки. Гипотезы формулируются следующим образом: H 0 : выборки имеют одинаковый закон распределения H 1 : законы распределения различаются

21 Иванов О.В., 2004 Условия применения критерия 1. Исследуются парные (зависимые) выборки, проверяется эффект обработки – эксперименты «до» и «после». 2. Данные должны быть получены случайным образом. 3. Генеральная совокупность разностей имеет симметричное распределение, в том смысле, что правая часть графика является зеркальным отражением левой. При этом не требуется, чтобы данные имели нормальное распределение.

22 Иванов О.В., 2004 Последовательность действий Шаг 1. Для каждой пары (x, y) рассматриваются разности d = x – y. Устраняются пары, в которых разность равна нулю. Шаг 2. Ранжируем полученные разности по абсолютной величине (игнорируя знаки). Шаг 3. Находим сумму отрицательных рангов и сумму положительных рангов. Если выборки однородны, то эти суммы не могут сильно отличаться. Обозначим T – наименьшую из полученных сумм, n – число пар, в которых разности не равны нулю. Шаг 4. Определим статистику: если n 30, статистика есть T, если n>30, статистика есть:

23 Иванов О.В., 2004 Последовательность действий (2) Шаг 5. Определим критические значения: если n 30, критические точки T находятся по таблице А-8, если n>30, критические z-точки находятся по таблице А-2. Шаг 6. Получим вывод: если значение статистики попадает в критическую область, мы отклоняем нулевую гипотезу.

24 Иванов О.В., 2004 Решение примера. Строительство башни РебенокИсп. 1Исп. 2Разности dРангиРанги отр.Ранги пол. A30 0 B C191454,5 D E F G I K ,5-4,5 L M141132,5 N O171432,5 P R

25 Иванов О.В., 2004 Решение Шаг 1. В таблице заполнен столбец разностей d = Исп.1 – Исп.2. Устранена первая пара, в которой разность равна нулю. Шаг 2. Следующий столбец заполняем рангами разностей по абсолютной величине (игнорируя знаки). Шаг 3. Далее:сумма отрицательных рангов = 5,5 сумма положительных рангов = 99,5 число пар, в которых разности не равны нулю, n =14 Шаг 4. Определим статистику. Поскольку n 30, статистика есть T=5,5 Шаг 5. Определим критическое значение. Поскольку n 30, критическое значение 21. Шаг 6. Вывод: значение статистики попало в критическую область. Отклоняем нулевую гипотезу.

26 Иванов О.В., 2004 Критические значения знако-рангового критерия Таблица А-8. n =0,05 =0, Критическая область для =0,05 0

24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г Критерий Манна-Уитни Mann-Whitney Test for Two Independent Samples

28 Иванов О.В., 2004 Что проверяет критерий Манна-Уитни Критерий Манна-Уитни проверяет гипотезу об однородности для двух независимых выборок: совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Гипотезы формулируются следующим образом: H 0 : выборки взяты из одной генеральной совокупности H 1 : выборки взяты из разных генеральных совокупностей

29 Иванов О.В., 2004 Последовательность действий Шаг 1. В критерии Манна-Уитни сравниваются все элементы первой выборки со всеми элементами второй. Всего есть mn пар сравнений. Не рассматриваются пары, в которых разность равна нулю. Шаг 2. Количества положительных разностей, полученных в результате таких сравнений для каждой выборки, сравниваются между собой и минимальное есть U - статистика Манна-Уитни. Шаг 3. Зададим уровень значимости (как правило 0,1; 0.05; 0.01). Шаг 4. По таблицам найдем границу правосторонней критической области, которая зависит от объемов выборок и заданного нами уровня значимости. Шаг 5. Сравним полученное по выборкам значение статистики с границей критической области и сделаем вывод.

30 Иванов О.В., 2004 Задача. Длина побегов Исследователь интересуется, имеется ли разница между всхожестью семян на двух соседних участках земли. Имеются следующие данные: Участок 1Участок 2 2,31,3 3,52,4 4,64,5 2,13,2 3,42,5 6,34,2 1,53,5 2,74,6 6,52,8 4,1 7,1

31 Иванов О.В., 2004 От данных к анализу

32 Иванов О.В., 2004 Выбор переменных для анализа Указываем группы для анализа

33 Иванов О.В., 2004 Отчет об анализе Mann-Whitney Test

34 Иванов О.В., 2004 Вычисление U в таблице Ведем подсчет случаев уч.1 > уч.2 при сравнениях по всем парам чисел. Заполняем столбец 2. Если пара совпадает, принимаем при подсчете за 0,5. Выбираем минимальное из чисел 58 и есть значение U критерия, полученное по выборкам. Участок 1Участок 2 1,511,30 2,112,43 2,312,53 2,732,84 3,453,24 3,55,53,55,5 4,164,27 4,68,54,57 6,394,67,5 6,59 7,19 Σ=58Σ=41

24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г Критерий Вилкоксона Wilcoxon Rank-Sum Test Wilcoxon Rank-Sum Test for Two Independent Samples

36 Иванов О.В., 2004 Что проверяет критерий Вилкоксона Критерий Вилкоксона проверяет гипотезу об однородности для двух независимых выборок: совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Гипотезы формулируются следующим образом: H 0 : выборки взяты из одной генеральной совокупности H 1 : выборки взяты из разных генеральных совокупностей

37 Иванов О.В., 2004 Последовательность действий Шаг 1. Перемешиваем две выборки и ранжируем их значения. Шаг 2. Найдем сумму рангов первой и сумму рангов второй выборки. Если выборки однородны, то суммы не должны сильно отличаться. На этом основано действие критерия Вилкоксона. Шаг 3. Определим критерий: если n 10, статистика W есть сумма рангов первой выборки. если n>10, статистика есть:

38 Иванов О.В., 2004 Последовательность действий (2) - объемы выборок, R – сумма рангов первой выборки. есть среднее значение R, при условии, что две генеральные совокупности имеют одинаковый закон распределения есть стандартное отклонение R, при условии, что две генеральные совокупности имеют одинаковый закон распределения

39 Иванов О.В., 2004 Последовательность действий (3) Шаг 4. Зададим уровень значимости (как правило 0,1; 0.05; 0.01). Шаг 5. Определим критическую область: если n 10, критические точки W находятся по специальной таблице, которую мы не приводим. если n>10, критические z-точки находятся по таблице А-2 (поскольку статистика основывается на нормальном распределении) Шаг 6. Сравним полученное по выборкам значение статистики с границей критической области и сделаем вывод.

40 Иванов О.В., 2004 Пример. Простота чтения Проверить гипотезу об однородности двух независимых выборок. Можно ли считать, что простота чтения одинакова для произведений двух исследуемых писателей? J.K.RowlingLeo Tolstoy 85,369,4 84,364,2 79,571,4 82,571,6 80,268,5 84,651,9 79,272,2 70,974,4 78,652,8 86,258,4 74,065,4 83,773,6 71,4

41 Иванов О.В., 2004 Решение примера J.K.RowlingРангиLeo TolstoyРанги 85,32469,47 84,32264,24 79,51871,49,5 82,52071,611 80,21968,56 84,62351,91 79,21772,212 70,9874,415 78,61652,82 86,22558,43 74,01465,45 83,72173,613 71,49,5 Всего 13 =236,5 Всего 12 =88,5 Ранжировали две выборки, перемешав. Нашли сумму рангов каждой выборки. Сумма рангов первой выборки равна 236,5.

42 Иванов О.В., 2004 Вычисления Находим следующие величины:

43 Иванов О.В., 2004 Получение вывода Критическая область является двусторонней и при =0.05 критические точки z=-1,96 и z=-1,96. Полученное нами значение попадает в критическую область. Вывод. Выборки не однородны, получены из разных генеральных совокупностей.

44 Иванов О.В., 2004 Решаем в SPSS

45 Иванов О.В., 2004 Вновь вспомним о растениях Mann-Whitney Test ,96 1,96 -0,646

46 Иванов О.В., 2004 Сравнение эффективности ПриложенияПараметрический тест Непараметрический тест Эффективность Парные выборкиt-тест или z-тестКритерий знаков Знако-ранговый критерий 0,63 0,95 Две независимые выборки t-тест или z-тестКритерий Вилкоксона0,95 Несколько независимых выборок Дисперсионный анализ (F-тест) Критерий Краскела- Уоллиса 0,95 КорреляцияЛинейная корреляцияРанговая корреляция0,91 Проверка случайности Нет параметрических тестов Тест РунаНет базы сравнения Эффективность непараметрических тестов оценивалась в сравнении с параметрическими для нормально распределенной генеральной совокупности.

47 Иванов О.В., 2004 Понятия и термины

48 Иванов О.В., 2004 Задание на 5 минут Как вы понимаете, что такое эффект взаимодействия. Что с чем взаимодействует? Поясните на любом примере, где можно наблюдать эффект взаимодействия.

49 Иванов О.В., 2004 Задачи Кворум избирателей. При опросе 1002 человек 701 из них сказал, что собирается идти голосовать на выборах президента. Можно ли полагать, что большинство населения придет на выборы? Аренда квартиры. Агент по продаже недвижимости предполагает, что средняя арендная плата за однокомнатную квартиру в городе составляет $325 в месяц. Выборка 12 однокомнатных квартир показала следующие месячные расценки. При α=0,05 достаточно ли у нас оснований, чтобы опровергнуть заявление агента по продаже недвижимости?

50 Иванов О.В., 2004 Задачи Один дома. Из 50 опрошенных студентов 29 предпочитали бы жить в общежитиях в одноместной комнате. При α=0,02 проверьте гипотезу о том, что более 50% студентов предпочитают жить в общежитиях в одиночку. Применить критерий знаков Повлияло ли лечение? Было проведено исследование, чтобы выяснить, повлияют ли новые диетические медикаменты на женщин, желающих сбросить вес. Вес 8 пациенток был измерен до лечения и через 6 недель ежедневного применения лечения. Данные приведены ниже. При α = 0,05 можно ли сделать вывод, что лечение повлияло (увеличило или уменьшило) на вес этих женщин? Применить критерий знаков. ABCDEFGH До После

51 Иванов О.В., 2004 Задачи Изменения в отношениях. Восьми супружеским парам была предложена анкета на супружескую совместимость. После прохождения парами семинара, им дали вторую анкету, чтобы выяснить, произошли ли какие-либо изменения в их поведении по отношению друг к другу. Данные приведены ниже. При α = 0,10 есть ли различия в результатах пар? До После

52 Иванов О.В., 2004 Задачи Мужчины и женщины. Для сравнения уровня заработной платы были отобраны (в соответствии со стажем) работники-мужчины и работники- женщины. В таблице ниже приведены получившиеся данные (в тысячах рублей). При α = 0,10 есть ли различие в зарплатах мужчин и женщин? Мужчины Женщины

53 Иванов О.В., 2004 Задачи Однородность. Проверить гипотезу об однородности следующих выборок: Выборка 1Выборка

54 Иванов О.В., 2004 Задачи Читают ли замужние? Исследователь опросил замужних и одиноких женщин, чтобы проверить, есть ли разница в том, сколько книг те и другие прочитали в течение прошлого года. Данные приведены ниже. При α=0,10 проверьте заявление о том, что обе группы прочли одинаковое количество книг. Замужние Одинокие

55 Иванов О.В., 2004 Задачи Кто больше любит свою работу? Двум группам рабочих дали вопросники, чтобы установить степень их удовлетворенности работой. Задавалась шкала диапазоном от 0 до 100. Группы делились по стажу: те, кто работал более 5 лет, и те, кто работал менее 5 лет. Данные приведены ниже. При α=0,10, проверьте заявление о том, что между удовлетворенностью работой двух групп нет разницы. До и более

56 Иванов О.В., 2004 Задачи Как работают одинокие? Инспекторам было поручено оценить продуктивность работы служащих. Исследователь хочет узнать, у кого она выше: у людей, живущих в браке, или у одиноких? Диапазон шкалы оценки продуктивности составляет от 1 до 50. Данные приведены ниже. При α=0,01 достаточно ли у нас оснований, чтобы подтвердить это заявление? Одинокие В браке