Ещё 2 примера исползования статистических критериев.

Презентация:



Advertisements
Похожие презентации
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Advertisements

ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
{ интервальные оценки параметров - некоторые распределения СВ связанные с нормальным распределением - доверительный интервал для выборочного среднего при.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Стандартные распределения и их квантили Стандартные распределения В статистике, эконометрике и других сферах человеческих знаний очень часто используются.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
Проверка статистических гипотез Лекция 20. План лекции: 1.Проверка статистических гипотез. 2.Критерии асимметрии и эксцесса. 3.Критерий Пирсона.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Нормальное распределение: свойства и следствия из них
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Эконометрика Лекция 1.2 Повторение теории вероятностей и математической статистики Демидова О.А
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
Лекция 3 для студентов 1 курса, обучающихся по специальности – Лечебное дело К.п.н., доцент Шилина Н.Г. Красноярск, 2014 Тема: Основы математической.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
Транксрипт:

Ещё 2 примера исползования статистических критериев.

о. Стаффа в шотландских Гебридах.

Проверим гипотезу о том, что базальтовые столбики являются 6-ти гранными, предполагая, что отклонения от этого – следствие случайных флуктуаций. Классы (число граней) Частоты базальт Эмпирическая гистограмма Теоретическая гистограмма воспользуемся результатами измерений, приведённых в учебнике Чини. Отобразим эти данные на гистограмме. Сравним с гистограммой теоретической модели обратите внимание на то, обе гистограммы построены по одинаковому количеству наблюдений (33). n=33 1. Формулировка нулевой и альтернативной гипотез: Нулевая гипотеза (H 0 ): центры сжатия равно отстоят друг от друга и поэтому столбики получаются 6-ти гранными. Альтернативная гипотеза (H 1 ): центры сжатия не равноотстоящие, они распределены как-то иначе, вследствии чего формы поперечных сечений имеют некоторый разброс. Выполним статистический анализ.

2. Выбор критерия: Выбираем критерий Колмогорова – Смирнова. Этот критерий позволяет сделать заключение о сходстве или различии эмпирического и теоретического распределения (кртерий Колмогорова) или о сходстве или различии двух эмпирических распределений (критерий Смирнова). Критерий не требует знания закона эмпирического распределения (т.е. является непараметрическим) и может применяться при малом объёме выборки. 3. Объём выборки и малая вероятность: Были измерены 33 столбика (N=33). Размер критической области выберем равным 0,01 4. Выборочное распределение и статистики критерия: Статистикой критерия КС является максимум расхождения D между теоретической и наблюдаемой интегральной функцией распределения (ИФР), измеренного по вертикальной шкале (кумулятивная вероятность) Эмпирическая ИФР Теоретическая ИФР D

0,0 0,5 1, D Эмпирическая ИФР Теоритическая ИФР Число сторон 0,36 Максимальное расхождение соответствует классу 5-гранных столбиков и равно 0,36. Таким образом, статистика критерия D = 0.36.

5. Критическая область: Нашей задаче соответствует двухсторонняя критическая область, поскольку нам не важно, какие столбики преобладают: имеющие больше 6 граней или меньше 6 граней. 0,01 330,277 Обращаемся к таблице критических значений критерия Колмогорова – Смирнова и находим критическое значение для двухстороннего критерия при выбранном нами значении малой вероятности a = 0,01 и объёме выборки N = 33. Критическое значение D 33;0,01 = 0, Решение: Наблюдаемое значение статистики критерия, D = 0,36 попадает внутрь критической области, и, следовательно, мы отвергаем нулевую гипотезу и считаем, что центры сжатия не являются равноотстоящими друг от друга.

Долина Смерти (США, Калифорния)

СЗ Памир. Такыр на поляне Сулоева

Ещё один пример. Критерий Колмогорова – Смирнова для двух выборок. Формы сечений базальтовых столбиков и глиняных табличек можно сравнить, построив интегральные функции распределения. Это может представлять интерес, если требуется сопоставить соответствующие механизмы образования или даже действие одного механизма образования в разных геологических обстановках. Здесь нас интересует, были ли обе выборки извлечены из одной и той же или одинаковых генеральных совокупностей. Классы (число граней) Частоты базальтглина Базальт Глина

Статистика критерия Колмогорова – Смирнова: Уровень значимости, a 0,40,30,20,10,050,0250,010,0050,0010,0005 Критическое значение, λ 0,890,971,071,221,361,481,631,731,952,03 Критические значения λ a критерия Колмогорова - Смирнова Классы (число граней) Частоты базальтглина По данным, приведённым в таблице, постройте в MS EXEL интегральные диаграммы и сравните выборки из базальтов и глин с помощью критерия Колмогорова - Смирнова

Теоретические распределения Было бы хорошо, если бы природа создавала генеральные совокупности в точном соответствии с математическими законами, но… …этого нет и мы вынуждены строить грубые приближения или предположения.

Многие наиболее мощные методы статистического анализа основаны на предположении, что лежащая в их основе переменная имеет распределение Гаусса. Нормальное распределение (распределение Гаусса) Функция плотности вероятности Интегральная функция вероятности - дисперсия - математическое ожидание параметры нормального распределения

= 0.0 = 4.0 Параметр(математическое ожидание) определяет положение кривой на оси абсцисс Оценкойпо выборке при нормальном распределении является среднее арифметическое которое вычисляется по формуле Параметры нормального распределения

= Параметр(дисперсия) определяет форму кривой (островершинность) Оценкой по выборке при нормальном распределении является выборочная дисперсия которая вычисляется по формуле

Параметры нормального распределения = Параметр(дисперсия) определяет форму кривой (островершинность) Оценкой по выборке при нормальном распределении является выборочная дисперсия которая вычисляется по формуле

Стандартное нормальное распределение Для выборки

= Стандартное нормальное распределение 1s1s 2s 3s 4s -1s-1s -2s -3s -4s 0

Стандартизация

Стандартное нормальное распределение Наиболее важное применение нормального закона распределения, как и других законов, состоит в решении задач двух типов: 1) определение вероятности появления случайной величины в заданном интервале; 2) определение интервала возможных значений случайной величины при заданной вероятности.

Вычисление вероятностей сводится к нахождению определенных интегралов. Для нахождения вероятности принято пользоваться специальными таблицами, которые составлены для стандартного нормального распределения. Интеграл вероятности F(t) стандартного нормального закона Плотность вероятности f(t) стандартного нормального закона Функция вероятности попадания случайной величины в симметричный интервал от –t до +t t –t–t 0 +t+t График плотности вероятности. Заштрихованная площадь соответствует вероятности попадания значений случайной величины в интервал от -t до +t

tF(t)F(t)f(t)f(t)Ф(t)Ф(t)tF(t)F(t)f(t)f(t)Ф(t)Ф(t) 0,00,50000,39890,00001,60,94520,11090,8904 0,10,53980,39700,07971,70,95540,09400,9109 0,20,57930,39100,15851,80,96410,07900,9281 0,30,61790,38140,23581,90,97130,06560,9426 0,40,65540,36830,31082,00,97720,05400,9545 0,50,69150,35210,38292,10,98210,04400,9643 0,60,72570,33320,45152,20,98610,03550,9722 0,70,75800,31230,51612,30,98930,02830,9786 0,80,78810,28970,57632,40,99180,02240,9836 0,90,81590,26610,63192,50,99380,01750,9876 1,00,84130,24200,68272,60,99530,01360,9907 1,10,86430,21790,72872,70,99650,01040,9931 1,20,88490,19420,76992,80,99740,00790,9949 1,30,90320,17140,80642,90,99810,00600,9963 1,40,91920,14970,83853,00,99870,00440,9973 1,50,93320,12960,86643,10,99900,00330,9981 Чтобы пользоваться такими таблицами, нужно предварительно преобразовать исходные значения случайной величины по формуле Такое преобразование называется стандартизацией. Найти вероятность попадания случайной величины в интервал 2,4 – 2,96, = 2,2 = 0,40 если t 1 = (2,4 – 2,2)/0,40 = 0,5 t 2 = (2,96 – 2,2)/0,40 = 1,90 F(t 1 ) = 0,6915 F(t 2 ) = 0,9713 q = F(t2) – F(t1) = 0,2798 0,2798 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0, Для отрицательных значений t F(–t) = 1 – F(t): F(-1.2)= = Плотность вероятности Интеграл вероятности Пример: Интегральная функция распределения F(t)

tF(t)F(t)f(t)f(t)Ф(t)Ф(t)tF(t)F(t)f(t)f(t)Ф(t)Ф(t) 0,00,50000,39890,00001,60,94520,11090,8904 0,10,53980,39700,07971,70,95540,09400,9109 0,20,57930,39100,15851,80,96410,07900,9281 0,30,61790,38140,23581,90,97130,06560,9426 0,40,65540,36830,31082,00,97720,05400,9545 0,50,69150,35210,38292,10,98210,04400,9643 0,60,72570,33320,45152,20,98610,03550,9722 0,70,75800,31230,51612,30,98930,02830,9786 0,80,78810,28970,57632,40,99180,02240,9836 0,90,81590,26610,63192,50,99380,01750,9876 1,00,84130,24200,68272,60,99530,01360,9907 1,10,86430,21790,72872,70,99650,01040,9931 1,20,88490,19420,76992,80,99740,00790,9949 1,30,90320,17140,80642,90,99810,00600,9963 1,40,91920,14970,83853,00,99870,00440,9973 1,50,93320,12960,86643,10,99900,00330,9981 Функция вероятности попадания случайной величины в симметричный интервал от –t до +t 68,27% наиболее часто встречающихся значений нормально распределённой случайной величины лежат в интервале от -t до +t ( µ ± σ, где µ - математическое ожидание; σ – стандартное отклонение 95,45% - в интервале µ ± 2σ 99,73% - в интервале µ ± 3σ

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0, Квантили вероятности. Чаще приходится решать обратную задачу: находить интервал возможных значений t при заданных вероятностях. Значение, соответствующее заданной кумулятивной вероятности, называется квантилью вероятности. Его можно найти интерполяцией по таблице интегральной вероятности F(t) t p tF(t)F(t)f(t)f(t)Ф(t)Ф(t)tF(t)F(t)f(t)f(t)Ф(t)Ф(t) 0,00,50000,39890,00001,60,94520,11090,8904 0,10,53980,39700,07971,70,95540,09400,9109 0,20,57930,39100,15851,80,96410,07900,9281 0,30,61790,38140,23581,90,97130,06560,9426 0,40,65540,36830,31082,00,97720,05400,9545 0,50,69150,35210,38292,10,98210,04400,9643 0,60,72570,33320,45152,20,98610,03550,9722 0,70,75800,31230,51612,30,98930,02830,9786 0,80,78810,28970,57632,40,99180,02240,9836 0,90,81590,26610,63192,50,99380,01750,9876 1,00,84130,24200,68272,60,99530,01360,9907 1,10,86430,21790,72872,70,99650,01040,9931 1,20,88490,19420,76992,80,99740,00790,9949 1,30,90320,17140,80642,90,99810,00600,9963 1,40,91920,14970,83853,00,99870,00440,9973 1,50,93320,12960,86643,10,99900,00330,9981 медиана 3 квартиль 1 квартиль Квантиль 0,95 Чтобы получить реальное значение, надо провести преобразования, обратные стандартизации

tF(t)F(t)f(t)f(t)Ф(t)Ф(t)tF(t)F(t)f(t)f(t)Ф(t)Ф(t) 0,00,50000,39890,00001,60,94520,11090,8904 0,10,53980,39700,07971,70,95540,09400,9109 0,20,57930,39100,15851,80,96410,07900,9281 0,30,61790,38140,23581,90,97130,06560,9426 0,40,65540,36830,31082,00,97720,05400,9545 0,50,69150,35210,38292,10,98210,04400,9643 0,60,72570,33320,45152,20,98610,03550,9722 0,70,75800,31230,51612,30,98930,02830,9786 0,80,78810,28970,57632,40,99180,02240,9836 0,90,81590,26610,63192,50,99380,01750,9876 1,00,84130,24200,68272,60,99530,01360,9907 1,10,86430,21790,72872,70,99650,01040,9931 1,20,88490,19420,76992,80,99740,00790,9949 1,30,90320,17140,80642,90,99810,00600,9963 1,40,91920,14970,83853,00,99870,00440,9973 1,50,93320,12960,86643,10,99900,00330,9981 Функция вероятности попадания случайной величины в симметричный интервал от –t до +t t –t–t 0 +t+t Наиболее часто используют значения t, соответствующие заданной вероятности q = Ф(t). Они называются коэффициентами вероятности и служат критериями принятия разнообразных решений. Коэффициенты вероятности. Для нахождения коэффициента вероятности можно воспользоваться интерполяцией данных таблицы Ф(t) но лучше иметь специальную таблицу зависимости t от Ф(t).

q ,00,0000,0130,0250,0380,0500,0630,0750,0880,1000,130 0,10,1260,1380,1510,1640,1760,1890,2020,2150,2280,240 0,20,2530,2660,2790,2920,3050,3190,3320,3450,3580,372 0,30,3850,3990,4120,4260,4400,4540,4680,4820,4960,510 0,40,5240,5390,5530,5680,5830,5980,6130,6280,6430,659 0,50,6740,6900,7060,7220,7390,7550,7720,7890,8060,824 0,60,8420,8600,8780,8960,9150,9350,9540,9740,9941,015 0,71,0361,0581,0801,1031,1261,1501,1751,2001,2271,254 0,81,2821,3111,3411,3721,4051,4401,4761,5141,5551,598 0,91,6451,6951,7511,8121,8811,9602,0542,1702,3262,576 0,992,5762,6122,6522,6972,7482,8072,8782,9683,0903,291 Коэффициенты вероятности t при заданной вероятности q = Ф(t) Коэффициенты вероятности. q 0,85 = ? 1,44 На практике наиболее часто используются значения вероятностей q = 0,95 и q = 0,99. Им соответствуют коэффициенты вероятности t = 1,960 и t = 2,576. С другой стороны, часто задаются значения t = 2 и t = 3, им соответствуют вероятности q = 0,9545 и q = 0,9973.

Проверка гипотезы о соответствии распределения наблюдаемой переменной нормальному распределению с помощью непараметрических критериев. Проверка основана на сравнении эмпирических частот с теоретическими Класс содержаний х, % nini tf(t)f(t)ntnt ,200,03552, ,800,07904, ,410,14768, ,010,239613, ,620,329219, ,220,389422, ,170,393222, ,570,339119, ,960,251614, ,380,15829, ,750,08635, ,150,03962, ,550,01540,9 Сумма147–2, ,4 Вычисляется среднее и стандартное отклонение Выполняется группировка данных и подсчёт частоты Вычисляются стандартизированные значения центров или границ классов. По таблицам определяется значение функции плотности вероятности f(t) для центрального значения каждого класса или (если использовались границы интервалов) разность интегральной вероятности верней и нижней границы класса. Рассчитываются теоретические частоты n t, где N – объём выборки ( ) Далее можно пересчитать частоты в частости (делением каждой частоты на объём выборки), найти максимальную разность и применить критерий Колмогорова-Смирнова.

ЭмпирическиеТеоретическиеРазность частотычастостиинтегральныечастотычастостиинтегральныеD < H 0 принимается Критерий Колмогорова - Смирнова

Проверьте соответствие нормальному распределению значений степени серпентинизации (Serp) и скоростей продольных ультразвуковых волн (Vp) выборки из гипербазитов массива Рай-Из.

Распределение Стьюдента (t – распределение) Критерий Стьюдента был разработан английским химиком У.Госсетом (William Sealy Gosset), когда он работал на пивоваренном заводе Гиннеса и по условиям контракта не имел права открытой публикации своих исследований. Поэтому публикации своих статей по t-критерию У.Госсет сделал в 1908г. в журнале "Биометрика" под псевдонимом "Student", что в переводе означает "Студент". В отечественной же литературе принято писать "Стьюдент". Коварная простота вычисления t-критерия Стьюдента, а также его наличие в большинстве статистических пакетов и программ привели к широкому использованию этого критерия даже в тех условиях, когда применять его нельзя. k – число степеней свободы, зависящее от объёма выборки. При увеличении значения k распределение приближается к нормальному и в пределе (при k = ) совпадает с ним. Практически уже при k = 20 можно пользоваться таблицами нормального распределения.

k Вероятность 0,100,050,020,010,0050,0020, ,31412,70631,82163,657127,321318,309636, ,9204,3036,9659,92514,08922,32731, ,3533,1824,5415,8417,45310,21412, ,1322,7763,7474,6045,5977,1738, ,0152,5713,3654,0324,7735,8936, ,9432,4473,1433,7074,3175,2085, ,8952,3652,9983,4994,0294,7855, ,8602,3062,8963,3553,8334,5015, ,8332,2622,8213,2503,6904,2974, ,8122,2282,7643,1693,5814,1444, ,7962,2012,7183,1063,4974,0254, ,7822,1792,6813,0553,4283,9304, ,7712,1602,6503,0123,3723,8524, ,7612,1452,6242,9773,3263,7874, ,7632,1312,6022,9473,2863,7334, ,7462,1202,5832,9213,2523,6864, ,7402,1102,5672,8983,2223,6453, ,7342,1012,5522,8783,1973,6103, ,7292,0932,5402,8613,1743,5793, ,72522,0862,5282,8453,1533,5523, ,7172,0742,5082,8193,1193,5053, ,7112,0642,4922,7973,0913,4673, ,7062,0562,4792,7793,0673,4353, ,7012,0482,4672,7633,0473,4083, ,6972,0422,4572,7503,0303,3853, ,6842,0212,4232,7042,9713,3073, ,6762,0092,4032,6782,9373,2613, ,6601,9842,3642,6262,8713,1743,390 1,6451,9602,3262,5762,8073,0903,291 Коэффициенты вероятности t распределения Стьюдента при заданной вероятности и степени свободы k

Оценка погрешности среднего значения Среднее значение из n независимых значений случайной величины также является случайной величиной. Если случайная величина имеет дисперсию, то среднее значение имеет дисперсию в n раз меньше Дисперсия выборочных средних значений Стандартное отклонение выборочных средних значений (стандартная ошибка среднего) Относительная погрешность среднего – t < М(х) < + t. Интервальная оценка среднего среднего Вероятность q = Ф(t) Коэффициент вероятности t Доверительный интервал 0, , ,

Критерий хи-квадрат является альтернативой критерию Колмогорова-Смирнова. Из-за теоретических ограничений критерий хи-квадрат применим только к выборкам, объём которых не меньше 50, а минимальная частота отдельного класса не меньше 5. Критерий (хи-квадрат) Критерий предложен английским математиком Карлом Пирсоном в 1900 г. Этот критерий представляет собой сумму квадратов отклонений эмпирических частот от частот теоретических, отнесенную к теоретическим частотам. Плотность вероятности этой величины описывается формулой Параметром распределения хи-квадрат является число степеней свободы k, зависящее от числа классов гистограммы nk (обычно k = nk – 3 ). Практически при числе степеней свободы k > 30 можно переходить к таблицам нормального распределения, заменив величину нормированной случайной величиной t: При увеличении числа степеней свободы распределение 2 приближается к нормальному с математическим ожиданием k и дисперсией 2k. k = 4 k = 6

k Вероятность k 0,100,050,0250,010,0050,100,050,0250,010,005 12,713,845,026,647,881623,5426,3028,8432,0034,27 24,605,997,389,2110,661724,7727,5930,1933,4135,72 36,257,829,3511,3412,541825,9928,8731,5334,8037,16 47,789,4911,1413,2814,861927,2030,1432,8536,1938,58 59,2411,0712,8315,0916,752028,4131,4134,1737,5740,00 610,6412,5914,4516,8118,552129,6232,6735,4838,9341,40 712,0214,0716,0118,4820,282230,8133,9236,7840,2942,80 813,3615,5117,5420,0921,962332,0135,1638,0841,6444,18 914,6816,9219,0221,6723,592433,2036,4239,3642,9845, ,9918,3120,4823,2125,192534,3837,6540,6544,3146, ,2819,6821,9224,7226,762635,5638,8841,9245,6446, ,5521,0323,3426,2228,302736,7440,1143,1946,9649, ,8122,3624,7427,6929,822837,9241,3444,4648,2850, ,0623,6826,1229,1431,322939,0942,5645,7249,5952, ,3125,0027,4930,5832,803040,2643,7746,9850,8953,67 Коэффициенты вероятности распределения при заданных вероятности и числе степеней свободы k nini ntnt a = 0.05 k = 11-3 = 8 = 2.338=15.51 H 0 принимается Критерий