1 Занятие 8 Частотный анализ1 Занятие 8 Частотный анализ.

Презентация:



Advertisements
Похожие презентации
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Advertisements

Урок повторения по теме: «Сила». Задание 1 Задание 2.
Занятие 6 Непараметрические критерии. Частотный анализ.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
1. Определить последовательность проезда перекрестка
Школьная форма Презентация для родительского собрания.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Теория вероятностей и статистика Работа Курылёвой Анастасии ученицы 8»А»
Рисуем параллелепипед Известно, что параллельная проекция тетраэдра, без учета пунктирных линий, однозначно определяется заданием проекций его вершин (рис.

1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Непараметрический критерий эквивалентности генеральных совокупностей, основанный на мере близости между выборками Клюшин Дмитрий Анатольевич кандидат физ.-мат.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Транксрипт:

1 Занятие 8 Частотный анализ

2 Решают вопрос, соответствует ли распределение в популяции, из которой получена выборка, теоретическому распределению (которое мы сами определяем). Критерии согласия (tests for goodness of fit) Karl Pearson Придумал χ 2 статистику ещё в 1900 году! Пример с игральной костью: как проверить, не кривая ли она? Очевидно, что бросая её 120 раз маловероятно получить ровно по 20 бросков на каждую сторону. Насколько же допустимы различия? До сих пор в анализе у нас участвовала хотя бы одна количественная или ранговая переменная. Настало время обратиться к тестам для КАЧЕСТВЕННЫХ переменных.

3 1:3 ?? Родились: 16 зелёных мыши и 84 розовых. H 0 H 0 : выборка получена из популяции, где соотношение розовых и зелёных – 1:3. H 1 H 1 : выборка получена из популяции, где соотношение розовых и зелёных не равно 1:3 Критерии согласия Заметим, что речь идёт только о частотах, но не о параметрах распределения. Примечание: недопустимо переводить частоты в проценты ни в одном из частотных критериев!!!

4 розовыезелёныевсего OiOi EiEi χ 2 cv = H 0 отвергнута, т.е. соотношение мышей не соответствует ожидаемому Чем больше значение χ 2, тем хуже наши данные соответствуют теоретическому распределению, тем меньше р. Эти критерии следовало бы называть «tests for badness of fit», критериями несогласия. p=0.038 df = k-1=2-1=1 Критерии согласия , отвергаем Н 0

5 Критерии согласия Тест χ 2 не может быть односторонним Распределение статистики χ 2

6 Категорий может быть сколько угодно. Родились: 152 розовых мыши с острым хвостом; 39 розовых с курчавым хвостом; 53 зелёных с острым, 6 зелёных с курчавым. H 0 H 0 : выборка получена из популяции, где соотношение фенотипов – 9:3:3:1. H 1 H 1 : выборка получена из популяции, где соотношение фенотипов не равно 9:3:3:1 Критерии согласия

7 + 1:3:3:9 ?? Критерии согласия

8 Важное замечание: H 0 В всех критериях согласия H 0 гипотеза – о том, что форма наблюдаемого распределения такая же, как теоретического. удовлетворяют То есть, когда мы ищем подтверждение тому, что наши данные удовлетворяют некоторому распределению, мы должны радоваться, получив p>>0.05! Критерии согласия

9 Zar, 2010: какой именно категории Если мы сравнили распределение с теоретическим, получили отличия (!), а теперь хотим показать, из-за какой именно категории эти отличия возникли, можно отдельно сравнить с теоретическим распределением остальные категории, а затем – отношение этой категории к остальным. Т.е., если нам кажется, что всё портят зелёные мыши с курчавыми хвостами, сравним: 1. соотношение остальных мышей с 9:3:3; 2. отношение зелёных-курчавых к остальным с 1:15. Критерии согласия Однако, такой анализ допустим скорее для планирования будущих исследований, чем как рутинная процедура, т.к. идёт повторный анализ одной выборки.

10 1.у нас одна выборка 2.Переменная качественная 3. мы сравниваем наблюдаемые частоты с ожидаемыми ( observed and expected ) Критерий χ 2 Пирсона ( Pearson Chi-square test ) Итак: Критерии согласия

11 Сравнение нашего распределения с теоретическим (нужна таблица с посчитанными частотами) Недопустимо использовать этот критерий для сравнения 2-х выборок!

12 результаты

13 Поправка Йейтса для критерия χ 2 (Yates correction for continuity) 1:3 ?? Если у нас только 2 проявления признака χ 2 Для заданного теоретического распределения χ 2 может принимать только строго определённые значения для разных наблюдаемых распределений. Критерии согласия

14 χ 2 Например: если ожидаемые частоты – 75 и 25, то значения χ 2 будут для 84 и 16 – 4.32, для 83 и 17 – 3.14, для 82 и 18 – 2.61 промежуточных значений не может быть для данных ожидаемых частот χ 2 χ 2 Но χ 2 распределение непрерывное. И для заданного уровня значимости p мы не найдём точно соответствующего ему значения χ 2. χ 2 χ 2 с поправкой Йейтса: Делает тест более консервативным. Критерии согласия

15 Критерии согласия χ 2 Ограничения на минимальный размер выборки для критерия χ 2 Пирсона: Для таблиц 2х2 ожидаемые частоты обязательно должны быть 5. Для таблиц k x 2 это тоже желательно, но допустимо, чтобы хотя бы N 2 /k 10, N 10, N/k 2. Это самые нижние пределы, если частоты малы, рекомендуется биномиальный тест.

16 Замечательный тест Колмогорова-Смирнова для ранговых данных (Kolmogorov-Smirnov goodness of fit for discrete ordinal scale data). 35 кошек выбирают из 5 типов корма, различающихся по влажности. Случаен ли выбор или есть предпочтения? χ 2 То есть, 5 типов корма можно проранжировать от самого влажного к самому сухому, это не просто качественные признаки. Мощность такого теста выше, чем χ 2, но его нет в Statistica. Zar, 2010 (1999). Критерии согласия

17 Критерии согласия

18 Соответствует ли распределение мотыльков на одном дереве равномерному распределению? переменная – высота, на которой сидит мотылёк, метры Тесты на соответствие непрерывным распределениям Критерии согласия Тесты Колмогорова-Смирнова есть для сравнения с разными распределениями. Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test)

19 Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) (если известны дисперсия и среднее в популяции) D-статистика. Lilliefors test – если НЕизвестны дисперсия и среднее в популяции – «улучшенный К-С тест» Shapiro-Wilks W test (самый мощный, размер выборки до 5000) – наиболее предпочтительный. Тесты на соответствие непрерывным распределениям Критерии согласия В том числе, для сравнения с нормальным распределением.

20 Проверка распределения на нормальность

21 маленькое p говорит о том, что данные не соответствуют нормальному распределению.

22 Сравнение с другими теоретическими распределениями: Тест Колмогорова-Смирнова для непрерывных распределений

23 Биномиальный тест T χ 2. Элементарный тест для сравнения двух частот с теоретическими (для маленьких выборок, легко считать вручную). Большие выборки – задача для теста χ 2. Пример с котом Гусом: у нас есть подозрение, что он правша. Мы дали ему игрушку на резинке, он ударил по ней 10 раз: 8 - правой, 2 – левой. Справедливо ли наше подозрение? Пример с Т-образным лабиринтом: 10 мышей пошли налево, 3 – направо. Zar, 2010 (1999).

24 Биномиальный тест Основан на простом подсчёте вероятностей в биномиальном распределении: считают общую вероятность «не менее экстремальных» результатов, чем наблюдаемые (для кота Гуса это будут вероятности результатов 8:2, 9:1 и 10:0 для одностороннего теста). Может быть односторонним и двусторонним. На биномиальном тесте основан Sign test – знаковый тест. По сути дела, он им и является.

25 Биномиальный тест Н 0 не отвергнута, преждевременно утверждать, что кот Гус правша Размер выборки Теоретическая вероятность события В программе легко считается только односторонний тест!

26 Сравниваем независимые выборки, причём все переменные (2!) категориальные. Связаны ли пол и цвет у коз? Contingency tables (таблицы сопряжённости) Критерий χ 2 ( χ 2 analysis of contingency tables = χ 2 test of independence) Tests of independence: зависит ли форма распределения одной переменной от значения другой переменной (переменных).

27 H 0 H 0 : цвет меха не зависит от пола в популяции коз; H 1 H 1 : цвет меха зависит от пола в популяции коз. пол белые красные жёлтыесерыеВсего самцы самки всего Таблицы вида a × b. Общая Н 0 гипотеза: частоты в строчках не зависят от частот в столбцах. Как и в корреляции, здесь не идёт речь о причинно- следственной связи, табличку всегда можно перевернуть. Частотный анализ

28 Частотный анализ Мы для каждой ячейки рассчитываем ожидаемую частоту E ij (на основе общих частот для столбцов и строк). полбелые красные жёлтыесерыеВсего самцы самки всего Потом считаем статистику χ 2 : Здесь r=2, с=4. df = (r-1)(c-1)

29 в таблице должны быть сырые данные

30

31 В табличке с частотами вида a × b не должно быть значений меньше 5. Если это не так, в крайнем случае можно объединить какие-нибудь проявления признака. Отвергаем нулевую гипотезу об отсутствии взаимодействия между переменными

32 Zar, 1999: какой именно категории Если вы не отвергли связь переменных, а теперь хотите показать, из-за какой именно категории есть связь, можно отдельно проверить связь переменных на остальных категориях, а затем – отношение этой категории к остальным. белых Например, если самцы и самки коз отличаются, по- видимому, только по соотношению белых коз, можно: 1.исключить белых, проверить связь пола и цвета для остальных; 2.проверить связь пола и присутствия белого цвета у козы. Частотный анализ

33 Четырёхпольные таблицы (2 x 2 tables) для независимых выборок. Есть только 2 фактора, у каждого – только по 2 проявления. Связан ли цвет мышей с формой их хвостов?? Частотный анализ

Четырёхпольные таблицы (2 x 2 table) Модель 1 Модель 1: мы задаём только общий размер выборки Модель 2 Модель 2: одна из сумм фиксирована ( взяли поровну мальчиков и девочек и сравниваем долю левшей ). Модель 3 Модель 3: фиксированы обе суммы (про улиток) хвост роз зел Обычно мы имеем дело с моделями 1 и 2, для них можно использовать тест Х 2 и тест Фишера; для 3-й модели – тест Фишера. Частотный анализ

35 ФИНИШ Пояснение к Модели 3 – красных и зелёных улиток по 6 штук, соревнование продолжалось до тех пор, пока половина улиток не перешла линию финиша Частотный анализ

36 Критерий χ 2 (Chi-square) с поправкой Йейтса. Если в табличке сырые данные, а не готовая четырёхпольная таблица – Tables and Banners. Если готовая таблица – 2 x 2 tables. Принцип введения поправки – тот же, что для сравнения наблюдаемых и ожидаемых частот, делает тест более консервативным. Не обязательна для больших выборок. В Statistica: поправку вводят, если хотя бы одна частота меньше 10. Частотный анализ

37 Точный критерий Фишера (Fisher exact test) Годится, если одна из частот меньше 5 и вообще, для небольших выборок. Подходит для 3-й модели. Вообще, ЛУЧШИЙ из 2х2 тестов (Zar, 2010)! скунсы с бешенством без бешенства восточные 1429 западные 538 Н 0 : район, где живёт скунс, и заболеваемость не связаны; Н 1 : между районом и заболеванием есть связь. Частотный анализ Тест основан на частотах гипергеометрического распределения, т.е. его принцип совсем не как у Х 2, как и биномиальный тест, он рассчитывает точную вероятность

38

39

40 Скунсы из разных районов имеют разную заболеваемость. Замечание: тест в данном случае двусторонний!! Отвергаем Н 0

41 Односторонний тест Фишера: Для случаев, когда мы заранее знаем, куда может отклониться соотношение частот. Например, мы даём лекарство больным зверям и сравниваем, сколько из них выздоровело по сравнению с контрольной группой. Предполагается, что лекарство не может ухудшить состояние зверей, а только может либо вылечить, либо нет. Частотный анализ

42 Phi-square – показатель корреляции между качественными переменными. V-square – разновидность χ 2 теста. независимы Все эти тесты подразумевали, что выборки независимы (например, каждая особь входит только в одну из ячеек). Частотный анализ Если категории можно как-то проранжировать для обеих переменных (например, «нет паразитов

43 Критерий Мак-Немара (McNemar Chi-square) Анализ 2-х связанных выборок: Требуется специальная организация таблицы Мы провели в сентябре экзамен по математике. Из 100 учеников 36 сдали экзамен, остальные - провалили. Потом мы подвергли всех учеников интенсивным занятиям по математике. Для тех же учеников мы провели экзамен во 2-й четверти. Повлияли ли занятия на успеваемость? Частотный анализ По сути дела, это просто двухвыборочный тест для связанных выборок – аналог критерия Вилкоксона, только для качественных переменных

44 Экзамен второй Экзамен первый Всего Не сдали Сдали Не сдали Сдали Рассчитываем ожидаемые частоты для «зелёных» ячеек (=(52+6)/2=29) и сравниваем их с наблюдаемыми частотами тестом χ 2 (df=1). Нельзя менять порядок чисел, когда мы вносим их в Статистику! Сумма частот в сравниваемых ячейках не должна быть меньше 10 Н 0 : доля учеников, которые сдали экзамен в первый раз, такая же, как и во второй раз. Н 1 : эти доли различаются. Частотный анализ

45 Частотный анализ Анализ 3-х связанных выборок: Cochrans Q test Сравнивает несколько связанных измерений одной бинарной переменной. Пример: переменная – наличие/отсутствие укусов у человека, одевающегося в разную одежду. Н 0 : доля покусанных людей одинакова в разной одежде. Исключают строки из одних нулей/единиц, считается χ 2 статистика. Число ненулеых строк 6.

46

47 Частотные критерии для 3-х и более переменных, с оценкой их взаимодействия Можно провести анализ многомерных таблиц с несколькими категориальными переменными и проанализировать их взаимодействие на разных уровнях (в разных комбинациях, как в factorial ANOVA). Log-linear models: анализ на основе логарифмирования частот. Например, мы хотим проверить, как связаны между собой пол, окрас, наличие паразитов у кроликов. Возраст, седина, стресс.

48 Частотные критерии для 3-х и более переменных, с оценкой их взаимодействия

49 Задания. 1.Хазел Нат продаёт смесь орехов. На упаковке написано, что в пачке содержится 30% кешью, 20% бразильских орехов, 20% грецких, 30% лесных. Мы хотим проверить, так ли это, взяли большую пачку и посчитали в ней разные орехи (200 орехов). Н 0 ? Статистический критерий? 2.Мы хотим прививать детям Сибири бережное отношение к природе. Мы выбрали 100 первоклашек и спросили их, можно ли охотиться на кабаргу (78 ответили «да», 22 – «нет»). Потом им показывали фильмы и рассказывали о местной фауне весь год. Весной этих же детей спросили о том же. Из тех, кто был за охоту, 18 опять ответили «да», 60 – «нет». Из тех, кто был против – 2 ответили «да», 20 - «нет». Н 0 ? Статистический критерий? 3.Издатели хотят узнать, насколько наличие цветных картинок в статье помогает воспринимать текст. Выбрали 13 студентов, и каждому дали два текста одинаковой сложности - с цветными и чёрно-белыми картинками. Потом попросили оценить сложность текста по 10-бальной шкале. Влияют ли цветные картинки на восприятие текста? Н 0 ? Статистический критерий?

50 4. Проходят соревнования по фигурному катанию. Мы хотим узнать, влияет ли жанр исполняемой музыкальной композиции во время выступления на оценку фигуриста. 30 фигуристам случайным образом заранее предложили композиции на основе классической музыки, тяжёлого рока и поп-музыки (по 10 композиций на жанр). Жюри выставило оценки. Зависят ли они от музыкального жанра? Н 0 ? Статистический критерий? 5. Мы хотим знать, зависит ли вероятность принести потомство от возраста самки у белок. Мы не знаем точный возраст зверьков, можем лишь отличить взрослых от годовалых. Мы исследовали 50 годовалых и взрослых самок, и выяснили, какие самки из них принесли выводки, какие – остались холостыми. Н 0 ? Статистический критерий?