7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 12. Непараметрические критерии. Проверка однородности 12-1. Критерий знаков 12-2.

Презентация:



Advertisements
Похожие презентации
24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г. Тема 14. Непараметрические критерии. Проверка однородности Критерий.
Advertisements

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
1. Определить последовательность проезда перекрестка
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Лекция 9. Непрерывные распределения 9-1. Функция распределения 9-2. Плотность.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 2. Доверительные интервалы 2-1. Доверительный интервал для доли 2-2. Доверительный.
4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г.4 ноября 2012 г. Лекция 3. Проверка статистических гипотез 3-1. Общий принцип проверки гипотез 3-2. Гипотеза.

Зачет по теме "Квадратные уравнения" Автор составитель: Попова Виктория Юрьевна, учитель математики высшей категории, заместитель директора МОУ гимназии.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Транксрипт:

7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 12. Непараметрические критерии. Проверка однородности Критерий знаков Знако-ранговый критерий Критерий Манна-Уитни Критерий Вилкоксона

2 Иванов О.В., 2005 Параметрические критерии Статистические критерии z, t и F называются параметрическими. Параметрические критерии предназначены для проверки гипотез о параметрах генеральной совокупности (среднем, дисперсии, доле признака) или гипотез о типе распределения. В статистике разработано также направление, которое развивает непараметрические критерии. В этом случае вид и параметры распределения не рассматриваются. Такие критерии используют, в частности, для исследования генеральных совокупностей, которые не распределены нормально.

3 Иванов О.В., 2005 Преимущества непараметрических методов 1.Могут использоваться для проверки гипотез о параметрах генеральной совокупности, когда переменная не распределена нормально. 2.Могут использоваться для номинальных и порядковых данных. 3.Могут использоваться для проверки гипотез, которые не связаны с параметрами генеральной совокупности. 4.В большинстве случаев для непараметрических методов вычисления проще, чем для параметрических. Методы более понятны.

4 Иванов О.В., 2005 Недостатки непараметрических методов 1.Они менее точны, чем соответствующие параметрические критерии. 2.Они менее информативны. 3.Они менее эффективны.Например, для критерия знаков нужна выборка из 100 человек, в то время, как для получения аналогичных результатов при использовании z-критерия достаточно было бы выборки из 60 человек.

5 Иванов О.В., 2005 Сравнение эффективности ПриложенияПараметрический тест Непараметрический тест Эффективность Парные выборкиt-тест или z-тестКритерий знаков Знако-ранговый критерий 0,63 0,95 Две независимые выборки t-тест или z-тестКритерий Вилкоксона0,95 Несколько независимых выборок Дисперсионный анализ (F-тест) Критерий Краскела- Уоллиса 0,95 КорреляцияЛинейная корреляцияРанговая корреляция0,91 Проверка случайности Нет параметрических тестов Тест РунаНет базы сравнения Эффективность непараметрических тестов оценивалась в сравнении с параметрическими для нормально распределенной генеральной совокупности.

7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г Критерий знаков Sign Test Sign Test

7 Иванов О.В., 2005 Пример 1. Кадровые предпочтения Руководство сети ресторанов быстрого обслуживания обратило внимание, что кадровая служба сети отдает большее предпочтение при подборе кадров на должность менеджера девушкам, нежели, чем юношам. Среди менеджеров оказалось 30 юношей и 70 девушек. Усомнившись в разумности сложившихся пропорций, руководство запросило объяснений. Кадровая служба объяснила сложившуюся пропорцию результатом случайности, а не итогом определенных предпочтений. Проверить на уровне значимости =0,05, может ли такая пропорция оказаться результатом случайности.

8 Иванов О.В., 2005 Пример 2. Строительство башни Несколько детей попросили из предоставленных им кубиков собрать башню. Эксперимент повторили с этими же детьми через месяц, результаты времени (в секундах) представлены в таблице ниже. На уровне значимости =0,05 проверить предположение о том, что нет существенной разницы между результатами. РебенокABCDEFGIKLMNOPR Исп Исп

9 Иванов О.В., 2005 Пример 3. В день 40 леденцов Владелец продуктового магазина строит гипотезу о том, что медианное количество продаваемых им за день леденцов равно 40. Случайная выборка за 20 дней дает следующие данные по количеству леденцов, продаваемых каждый день. При α = 0,05 проверить гипотезу владельца магазина

10 Иванов О.В., 2005 Кадровые предпочтения Кадровые предпочтения В день 40 леденцов В день 40 леденцов Строительство башни Строительство башни Критерий знаков Гипотеза об однородности для парных выборок Гипотеза об однородности для парных выборок Гипотеза о значении медианы Гипотеза о значении медианы Гипотеза о доли признака Гипотеза о доли признака

11 Иванов О.В., 2005 На чем основан критерий Сравниваем наблюдения попарно и проставляем знаки. Последовательность знаков есть результаты n независимых испытаний с двумя возможными исходами: плюс или минус. Если распределения совпадают, то в каждом испытании вероятности равны ½: Количество плюсов и количество минусов есть случайные величины, которые распределены по биноминальному закону и теоретически должны быть равны. Малое количество плюсов (или минусов) будет означать, что гипотеза неверна.

12 Иванов О.В., 2005 Условия для применения критерия 1. Данные должны быть получены случайным образом. 2. Нет никаких требований относительно закона распределения генеральных совокупностей, из которых эти данные получены.

13 Иванов О.В., 2005 Статистика 1. Объем выборки n 25. Выбираем в качестве критерия: x = min (количество минусов, количество плюсов). Критические значения находятся по таблице. Если x окажется меньше или равен критическому значению из таблицы, то гипотеза отвергается. 2. Объем выборки n>25. Тогда в качестве критерия выберем: Критические значения находятся по таблице нормального закона.

14 Иванов О.В., 2005 Решение примера. Строительство башни Гипотезы: H 0 : изменений не произошло H 1 : есть изменения 12 плюсов, 2 минуса, 1 совпадение. Совпадение отбрасываем. n=14 =0,05 х = min(2,12) = 2 По таблице А-7 находим критическое значение 2. Вывод. Результаты улучшились. РебенокИсп. 1Исп. 2Знак A30 B1913+ C1914+ D2316+ E2914+ F6452+ G4214+ I2022- K1217- L3912+ M1411+ N8130+ O1714+ P3117+ R5215+

Иванов О.В., 2005 Критические значения для критерия знаков n =0,05 =0, Критическая область Таблица А-7.

16 Иванов О.В., 2005 Решение примера. Кадровые предпочтения Гипотезы: H 0 : доля юношей в генеральной совокупности равна 0,5 H 1 : доля юношей значимо отличается от 0,5 Выборка составила 100 человек: n=100. Статистика: x = min (30, 70) = 30. Поскольку n>25, вычислим значение критерия по формуле: Для =0,05 находим z = -1,96 (Двусторонняя область) 0 -3,9 -1,96

17 Иванов О.В., 2005 Решение примера. Кадровые предпочтения Вывод. Поскольку значение статистики попало в критическую область, мы отвергаем основную гипотезу и считаем, что кадровые предпочтения имеются. Дополнительный вопрос. Имеется возможность ответить на вопрос – какое соотношение юношей и девушек не приведет к отклонению нулевой гипотезы? Элементарный подсчет приведет к тому, что граничной окажется ситуация с пропорцией, близкой к 40÷60 или 60÷40. В этих границах отклонение может рассматриваться как результат случайности.

18 Иванов О.В., 2005 Решение примера. В день 40 леденцов Гипотезы: H 0 : медиана равна 40 H 1 : медиана значимо отличается от 40 Совпадения отбрасываем. n=18, =0,05, х = min (3,15) = 3 По таблице находим критическое значение 4. Вывод. У нас достаточно оснований, чтобы отказаться от заявления, о том, что медиана продаваемых в день леденцов равна плюса, 15 минусов, 2 совпадения

7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г Знако-ранговый критерий Wilcoxon Signed-Ranks Test for Matched Pairs

20 Иванов О.В., 2005 Что проверяет критерий Знако-ранговый критерий проверяет гипотезу об однородности для парных выборок. Требуется проверить, совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Часто проверяют наличие эффекта обработки: совпадение распределений «до» и «после» обработки. Гипотезы формулируются следующим образом: H 0 : выборки имеют одинаковый закон распределения H 1 : законы распределения различаются

21 Иванов О.В., 2005 Условия применения критерия 1. Исследуются парные (зависимые) выборки, проверяется эффект обработки – эксперименты «до» и «после». 2. Данные должны быть получены случайным образом. 3. Генеральная совокупность разностей имеет симметричное распределение, в том смысле, что правая часть графика является зеркальным отражением левой. При этом не требуется, чтобы данные имели нормальное распределение.

22 Иванов О.В., 2005 Последовательность действий Шаг 1. Для каждой пары (x, y) смотрим разности d = x – y. Не считаем пары, в которых разность равна нулю. Шаг 2.Ранжируем полученные разности по абсолютной величине (игнорируя знаки). Шаг 3. Находим сумму отрицательных рангов и сумму положительных рангов. Если выборки однородны, то эти суммы не могут сильно отличаться. Обозначим T – наименьшую из полученных сумм, n – число пар, в которых разности не равны нулю.

23 Иванов О.В., 2005 Последовательность действий Шаг 4. Определим статистику: если n 30, статистика есть T, если n>30, статистика есть:

24 Иванов О.В., 2005 Последовательность действий (2) Шаг 5. Определим критические значения: если n 30, критические точки T находятся по таблице А-8, если n>30, критические z-точки находятся по таблице А-2. Шаг 6. Делаем вывод: если значение статистики попадает в критическую область, мы отклоняем нулевую гипотезу.

25 Иванов О.В., 2005 Решение примера. Строительство башни РебенокИсп. 1Исп. 2Разности dРангиРанги -Ранги + A30 0 B C191454,5 D E F G I K ,5-4,5 L M141132,5 N O171432,5 P R

26 Иванов О.В., 2005 Решение Шаг 1. Заполнен столбец разностей d = Исп.1 – Исп.2. Устранена первая пара, в которой разность равна нулю. Шаг 2. Следующий столбец заполняем рангами разностей по абсолютной величине. Шаг 3. Сумма отрицательных рангов = 5,5 Сумма положительных рангов = 99,5 Число пар, в которых разности не равны нулю, n =14 Шаг 4. Поскольку n 30, статистика есть T=5,5

27 Иванов О.В., 2005 Решение Шаг 5. Поскольку n 30, критическое значение 21. Шаг 6. Значение статистики попало в критическую область. Отклоняем нулевую гипотезу.

28 Иванов О.В., 2005 Критические значения Таблица А-8. n =0,05 =0, Критическая область для =0,05 0

7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г Критерий Манна-Уитни Mann-Whitney Test for Two Independent Samples

30 Иванов О.В., 2005 Что проверяет критерий Манна-Уитни Критерий Манна-Уитни проверяет гипотезу об однородности для двух независимых выборок: совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Гипотезы формулируются следующим образом: H 0 : выборки взяты из одной генеральной совокупности H 1 : выборки взяты из разных генеральных совокупностей

31 Иванов О.В., 2005 Суть метода Идея метода состоит в сравнении элементов первой выборки с элементами второй попарно. Всего имеется mn пар сравнений. Для каждого элемента первой выборки подсчитывается число элементов второй, которые меньше его или равны. Значения суммируются для каждой выборки. За статистику принимается минимальная из полученных сумм.

32 Иванов О.В., 2005 Задача. Длина побегов Исследователь интересуется, имеется ли разница между всхожестью семян на двух соседних участках земли. Имеются следующие данные: Участок 1Участок 2 2,31,3 3,52,4 4,64,5 2,13,2 3,42,5 6,34,2 1,53,5 2,74,6 6,52,8 4,1 7,1

33 Иванов О.В., 2005 Вычисление U в таблице Ведем подсчет случаев уч.1 > уч.2 при сравнениях по всем парам чисел. Заполняем столбец 2. Если пара совпадает, принимаем при подсчете за 0,5. Выбираем минимальное из чисел 58 и есть значение U критерия, полученное по выборкам. Участок 1Участок 2 1,511,30 2,112,43 2,312,53 2,732,84 3,453,24 3,55,53,55,5 4,164,27 4,68,54,57 6,394,67,5 6,59 7,19 Σ=58Σ=41

34 Иванов О.В., 2005 От данных к анализу

35 Иванов О.В., 2005 Выбор переменных для анализа Указываем группы для анализа

36 Иванов О.В., 2005 Отчет об анализе Mann-Whitney Test

7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г Критерий Вилкоксона Wilcoxon Rank-Sum Test Wilcoxon Rank-Sum Test for Two Independent Samples

38 Иванов О.В., 2005 Что проверяет критерий Вилкоксона Критерий Вилкоксона проверяет гипотезу об однородности для двух независимых выборок: совпадают ли законы распределения генеральных совокупностей, из которых взяты эти выборки. Гипотезы формулируются следующим образом: H 0 : выборки взяты из одной генеральной совокупности H 1 : выборки взяты из разных генеральных совокупностей

39 Иванов О.В., 2005 Последовательность действий Шаг 1. Перемешиваем две выборки и ранжируем их значения. Шаг 2. Найдем сумму рангов первой и сумму рангов второй выборки. Если выборки однородны, то суммы не должны сильно отличаться. На этом основано действие критерия Вилкоксона. Шаг 3. Определим критерий: если n 10, статистика W есть сумма рангов первой выборки, если n>10, статистика есть:

40 Иванов О.В., 2005 Обозначения Среднее значение R, при условии, что две генеральные совокупности имеют одинаковый закон распределения Стандартное отклонение R, при условии, что две генеральные совокупности имеют одинаковый закон распределения Объемы выборок Меньшая из полученных сумм рангов

41 Иванов О.В., 2005 Последовательность действий Шаг 4. Зададим уровень значимости (как правило 0,1; 0.05; 0.01). Шаг 5. Определим критическую область: если n 10, критические точки W находятся по специальной таблице, которую мы не приводим. если n>10, критические z-точки находятся по таблице А- 2 (поскольку статистика основывается на нормальном распределении) Шаг 6. Сравним полученное по выборкам значение статистики с границей критической области и сделаем вывод.

42 Иванов О.В., 2005 Пример. Простота чтения Проверить гипотезу об однородности двух независимых выборок. Можно ли считать, что простота чтения одинакова для произведений двух исследуемых писателей? J.K.RowlingLeo Tolstoy 85,369,4 84,364,2 79,571,4 82,571,6 80,268,5 84,651,9 79,272,2 70,974,4 78,652,8 86,258,4 74,065,4 83,773,6 71,4

43 Иванов О.В., 2005 Решение примера J.K.RowlingРангиLeo TolstoyРанги 85,32469,47 84,32264,24 79,51871,49,5 82,52071,611 80,21968,56 84,62351,91 79,21772,212 70,9874,415 78,61652,82 86,22558,43 74,01465,45 83,72173,613 71,49,5 Всего 13 =236,5 Всего 12 =88,5 Ранжировали две выборки, перемешав. Нашли сумму рангов каждой выборки. Сумма рангов первой выборки равна 236,5.

44 Иванов О.В., 2005 Вычисления Находим следующие величины:

45 Иванов О.В., 2005 Получение вывода Критическая область является двусторонней и при =0,05 критические точки z=-1,96 и z=1,96. Полученное нами значение попадает в критическую область. Вывод. Выборки не однородны, получены из разных генеральных совокупностей.

46 Иванов О.В., 2005 Решаем в SPSS

47 Иванов О.В., 2005 Вновь вспомним о растениях Mann-Whitney Test ,96 1,96 -0,646

48 Иванов О.В., 2005 Сравнение эффективности ПриложенияПараметрический тест Непараметрически й тест Эффективнос ть Парные выборкиt-тест или z-тестКритерий знаков Знако-ранговый критерий 0,63 0,95 Две независимые выборки t-тест или z-тестКритерий Вилкоксона0,95 Несколько независимых выборок Дисперсионный анализ (F-тест) Критерий Краскела- Уоллиса 0,95 КорреляцияЛинейная корреляцияРанговая корреляция0,91 Проверка случайности Нет параметрических тестов Тест РунаНет базы сравнения Эффективность непараметрических тестов оценивалась в сравнении с параметрическими для нормально распределенной генеральной совокупности.