«Разные люди под «статистикой» понимают совершенно разные вещи, и, конечно, она вызывает самое разное отношение к себе: от полного неприятия через приятие.

Презентация:



Advertisements
Похожие презентации
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Advertisements

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
Проверка статистических гипотез 1.Формулировка задачи. Термины и определения. 2.Схема проверки статистической гипотезы. 3.Мощность критерия. 4.Проверка.
Математическая статистика Случайные величины. Случайной называется величина, которая в результате испытания может принять то или иное возможное значение,
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
1.Основные понятия случайной величины 1.1 Классификация случайных процессов.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
Транксрипт:

«Разные люди под «статистикой» понимают совершенно разные вещи, и, конечно, она вызывает самое разное отношение к себе: от полного неприятия через приятие с подозрительностью, а затем с осторожностью до необузданного восхищения. Подобным же образом характер ее применения меняется от вредного злоупотребления до скрытой фальсификации». Р.Ф. Чини (Шотландский геолог).

Литература: Поротов Г.С. Математические методы моделирования в геологии. Санкт-Петербургский государственный горный институт (технический университет). СПб, Основная: Дополнительная: Дж. С. Дэвис Статистический анализ данных в геологии (в двух книгах). Москва «Недра», 1990 г. Р. Ф. Чини Статистические методы в геологии. Решение задач в поле и лаборатории Москва «Мир», 1986 г.

Математическая модель – это приближённое описание какого-либо класса явлений внешнего мира, выраженное с помощью математической символики.

Cd 0 a Zn Y = a +bx Y = bx Пример математической модели. В рудах полиметаллического месторождения пробы проанализированы на цинк и кадмий. с возрастанием содержаний цинка растет содержание кадмия Зависимость между содержаниями цинка и кадмия вызвана тем, что оба компонента входят в состав одного минерала – сфалерита Геологическая модель: Математическая модель: сводится к составлению уравнения зависимости между содержаниями цинка и кадмия Эта зависимость должна быть пропорциональной: однако в действительности она оказывается линейной:

Определения: (индивидуум, событие) - обособленный базовый элемент или объект исследования, например одна галька на пляже, один образец пароды из геологической формации, один ископаемый остаток из осадочного слоя и т.п. - конечное множество наблюдений, отобранных в соответствии с некоторым планом («выборочным планом»), например, ведро гальки, собранной на пляже; мешок образцов пород, отобранных из одной геологической формации. - все множество возможных в данном исследовании наблюдений: все гальки на пляже; все горные породы, слагающие геологическую формацию ; Решения, полученные по выборке распространяются на генеральную совокупность. Кардинальный способ избежать путаницы – строгость в употреблении терминов Наблюдение Выборка Генеральная совокупность Выборочный метод:

Измерение - присвоение наблюдению числового или символьного значения (процесс определения численного значения некоторой величины путем сравнения с эталоном). Существуют 4 шкалы измерений: для качественных характеристик – номинальная и порядковая для количественных – интервальная и относительная. Номинальная – кодировка (гранит – Г, диорит – Д или гранит – 1, диорит – 2 и т.д.). Допускается только сравнение равно - не равно. Шкала имеет только 2 значения (0 – нет, 1 – да). Порядковая – качественное ранжирование (редковкрапленные – 1, средневкрапленные – 2, густовкрапленные – 3; шкала Мооса). Допускается сравнение больше, меньше, равно. Интервальная – шкала с произвольным началом отсчёта (температура C, координаты). Допускается количественное сравнение (на сколько больше или меньше). Деление не имеет смысла. Относительная – шкала с физически существующим началом отсчёта. Допускаются все математические операции. К какому типу относится стратиграфическая шкала?, шкала абсолютного возраста?

Шкала Математические и статистические величины, вычисление которых допустимо. Номинальная Мода, процентные частоты = доли, корреляция (есть-нет) Порядковая Мода, медиана, квартили, коэффициент корреляции, дисперсионный анализ Интервальная Мода, медиана, квартили, коэффициент корреляции, ранговые критерии, средняя, дисперсия, стандартное отклонение, коэффициент корреляции Относительная Все арифметические операции, все понятия и методы математической статистики Номинальная и порядковая шкалы – дискретные, интервальная и относительная – непрерывные. Количественные свойства объектов можно перевести в качественные группировкой: ( напр.,хромитовые руды высокохромистые (Cr 2 О 3 > 50%), среднехромистые (45-50% ) и низкохромистые (

Представление данных. Табличная форма XYCuZnPbNiCoCrV Если имеется n геологических объектов (или пунктов измерений) и у каждого объекта измерено k свойств, то результаты могут быть сведены в таблицу размером n k клеток. Такая таблица может быть выражена матрицей.

Количество наблюдений в каждом классе ( Частота ) N= Графическая форма. Гистограмма (состав гальки) Классы Габбро Гранит Известняк Песчаник (Типы пород) Частота интервала (n i ) - количество наблюдений в интервале. Сумма всех частот равна объему выборки Частость (f i ) или относительная частота интервала - отношение частоты интервала к объему выборки. f i =n i /N Сумма всех частостей равна 1 (100%). площадь (!) каждого прямоугольника пропорциональна числу наблюдений в соответствующем классе, т. е. частоте данного класса. Габбро ГранитИзвестня к Песчани к Порода 1Габбро 2Известняк

0 8 4 Сланец Песчаник Светлый Средний Тёмный L< L< L< 30 Классы (тип породы) Классы (густота окраски) Классы (длина, мм) Для построения гистограммы по данным, измеренным в относительной шкале надо провести группировку данных. Нижняя граница первого интервала выбирается так, чтобы xmin попадал примерно в середину этого интервала: xmin-h/2. Измерения в номинальная шкале Измерения в порядковой шкале Измерения в относительной шкале Больше Число интервалов, k Объём выборки, N Формула Стерджеса (Sturge's Rule) k = 1 + 3,32·lg N k = 16*[0.4*ln(N)-1] Эмпирические формулы рассчёта количества интервалов для группирования данных, измеренных в относительной шкале. Ширина интервала h = (xmax-xmin)/k Формулы Брукса и Каррузера: k=5*lgn; (рекомендуемое соотношение k=n 1/2 ). Для равновероятных интервалов k 4*2 1/5 (n/t) 0,4, где t - квантиль стандартного нормального распределения для заданного уровня значимости.

Функции распределения и вероятности.

N= ,2 0,4 Частота Мощность слоя, мм Для переменной, измеренной в непрерывной шкале из гистограммы можно получить другой тип графика –плавную кривую. Площадь под этой кривой, ограниченная двумя ординатами (вертикальными прямыми),проходящими, например, через границы класса, равные мощностям слоя 10 и 20 мм, будет такой же, как и площадь соответствующего прямоугольного столбика на гистограмме. Площадь под кривой равна суммарной площади прямоугольных столбиков гистограммы и пропорциональна объёму выборки. В интервале от 10 до 20 мм содержится 4 слоя, доля которых составляет 4//V = 4/20 = 0,2 полного объема выборки. Частость Подобное упражнение можно выполнить для любого диапазона значений переменной совершенно независимо от первоначальной классификации, т.е. можно выполнить полный анализ распределения частот в выборке. Кривая распределения частот

Другое название кривой распределения частот функция плотности вероятности. N= ,2 0,4 Плотность вероятности Частота Если предположить, что графики отражают всю генеральную совокупность, то не существует слоев, мощность которых меньше 0 и больше 40 мм. Если выбрать любой отдельный слой из этой генеральной совокупности, можно быть уверенным, что его мощность будет находиться в диапазоне от 0 до 40 мм Событие, исход которого абсолютно достоверен, имеет вероятность (исхода), равную единице. Вероятность обнаружения слоя, мощность которого лежит в интервале от 10 до 20 мм, можно вычислить как отношение площади выделенноого прямоугольника к площади всей гистограммы: 4 / 20 = 0.2. Тем же свойством обладает и функция плотности вероятности (ФПВ). Наибольшая плотность вероятности (соответствующая вершине кривой ФВП) означает, что наиболее частая мощность слоя около 27 мм. 27 Для определения вероятностей более удобной является интегральная гистограмма.

0,3 0, ,25 0,50 0,75 1,00 0, Интегральная функция распределения Медиана Вероятность встретить слой, мощностью менее 10 мм равна 0,1; менее 20 мм – 0,3; в интервале 10 – 20 мм - 0,2 (0,3-0,1) Интегральная гистограмма Квартиль Квантиль 0,8 0,8 Для определения вероятностей более удобной является интегральная гистограмма. Интегральная функция распределения

Функции плотности вероятности и интегральные функции вероятности характеризуются положением (на оси Х) и формой. Мерами положения являются мода, медиана, среднее значение. Мерами формы – меры рассеяния (размах, интерквартильная широта, дисперсия, стандартное отклонение, коэффициент вариации), асимметрия, эксцесс.

Положение функции плотности вероятности (и интегрированной функции), или, точнее, центральное значение переменной, распределение которой нас интересует, может быть определено одним из трех параметров: мода, медиана, среднее. 0 0,2 0, ,25 0,50 0,75 1,00 0, Плотность вероятности Интегральная вероятность Исходный ряд: Ранжированный ряд: Среднее значение – это среднеарифметическое из всех измеренных значений Мода значение переменной, соответствующее максимуму функции плотности вероятности. (Обычно оценивается графически) Мода = 27 Медиана = 24 Медиана значение переменной, делящее исследуемую выборку так, что одна половина выборочных значений меньше медианного значения, а другая половина больше. (значение центрального члена ранжированного ряда). медиана

Проведите (в MS EXEL) вычисления описательных статистик (среднего значения, моды и медианы) для любимой около-экономическими кругами задачи – «расчёта среднего дохода» на предприятии, в регионе, в стране. Для эксперимента возьмите выборку, представленную на рисунке. Будем условно считать, что вышли на улицу и спросили первых 12 попавшихся нам человек о размере их дохода (в условных денежных единицах) предполагая, что 12 наблюдений – это репрезентативная выборка и её вполне достаточно для формулировки выводов.

Форма графиков распределения частот описывается параметрами рассеяния, асимметрией и эксцессом Рассеяние характеризует, насколько далеко в обе стороны от центрального значения (среднего значения, медианы или моды) разбросаны наблюдаемые значения. Мерами рассеяния являются размах, интерквартильная широта, дисперсия, стандартное отклонение, коэффициент вариации. Размах - разность между максимальным и минимальным наблюдаемыми значениями. Интерквартильная широта (IQR) – разность между третьей и первой квартилью. 0,25 0,50 0,75 1,00 0, Первая квартиль Третья квартиль Интерквартильная широта (31-18=13) ( размах 50% средней части выборки ) Дисперсия – число, равное среднему квадрату отклонений случайной величины от её среднего значения. Стандартное отклонение (среднеквадратичное отклонение, стандарт) – число, равное квадратному корню из дисперсии. Коэффициент вариации – отношение стандартного отклонения к среднему значению. 2 2

Асимметрия характеризует положение моды относительно среднего значения. Если мода смещается в сторону либо малых, либо больших значений переменной коэффициент асимметрии принимает значения отличные от 0. Асимметрия Стандартное отклонение Формулы для вычисления коэффициента асимметрии Верхняя квартиль + Нижняя квартиль 2 X медиана Интерквартильная широта Зх Среднее значение Медиана = Графики плотности вероятности с различной асимметрией А > 0 А = 0 А < 0 = - объём выборки - стандартное отклонение - значение i-го наблюдения - среднее значение

Эксцесс – степень остро- или плосковершинности распределения значений случайной величины относительно нормального закона распределения Эксцесс E > 0 E = 0 E < 0 Графики плотности вероятности с различными эксцессами - объём выборки - стандартное отклонение - значение i-го наблюдения - среднее значение

Моменты случайной величины. Если a = 0, моменты называются начальными. Если a = среднему значению ( ), моменты называются центральными. Срреднее значение – первый начальный момент Дисперсия – второй центральный момент Стандартное отклонение Коэффициент вариации А > 0 А = 0 А < 0 Асимметрия Эксцесс E > 0 E = 0 E < 0

Распределения, вероятность. Статистические гипотезы и их проверка.

n=2 1 n=2 2 n=2 3 n=2 4 гргр II гргргргр III гргргргргргргрг р IV гр I Кол-во гербов Частота Частость (вероятность) 011/ / / / / Будем бросать монету номер броска количество вариантов Подсчитаем количество гербов при 4 бросаниях монеты и вероятность их выпадения:

R – количество гербов N – количество бросков (или монет) Г – вероятность выпадения герба в единичном эксперименте (=0.5) Р – вероятность выпадения решки в единичном эксперименте (=1-Г=0.5) Вероятность выпадения R гербов при N бросаниях = Кол-во гербов Вероятность (частость) Кумулятивная вероятность

Если монета правильная (т.е. вероятность Г = вероятности Р), то количество выпадающих гербов и решек должно быть примерно одинаковым. Если же выпадает очень мало или очень много «гербов», можно сделать следующие выводы: (а) предположение Г = Р = 1 / 2 верно, но произошло редкое событие; (б) предположение Г = Р = 1 / 2 неверно, в действительности, Г>Р, если выпало очень много гербов или Р>Г, если выпало очень много решек. Чтобы выбрать один из вариантов, надо определить такое значение R (количество гербов), при котором мы считаем возможным отвергнуть гипотезу о том, что Г равно Р, и принять альтернативную гипотезу, что Г не равно Р. Такое значение называется критическим значением. (поскольку является критерием принятия того или иного решения) Математических способов выбора критического значения не существует. Оно выбирается как маловероятное и с учётом последствий принятия ошибочного решения. В статистике для определения критического значения обычно выбирают вероятность 0,05 – 0,01.

Кол-во гербов Вероятность (частость) Кумулятивная вероятность , , Критические значения для проверки гипотезы о «правильности» монеты при 22 бросаниях

Используя формулу вычисления вероятностей биноминального распределения, составьте в MS EXEL таблицу вероятностей выпадения n (n= ) гербов при 35 бросаниях и на её основе проверьте правильность вашей монеты. R – количество гербов N – количество бросков (или монет) Г – вероятность выпадения герба в единичном эксперименте (=0.5) Р – вероятность выпадения решки в единичном эксперименте (=1-Г=0.5) Кол-во гербов Вероятность (частость) Кумулятивная вероятность n г – количество гербов при N бросаниях RNRN R PГC ** n г =

Формулировка «нулевой» и «альтернативной» гипотез. Нулевая гипотеза (обычно обозначаемая Н 0 ) это гипотеза об отсутствии различий. Иногда ее специально выдвигают для того, чтобы отвергнуть в пользу альтернативной гипотезы (обозначаемой H 1 ), которая может быть формулировкой «рабочей гипотезы» исследователя. В нашем примере нулевая гипотеза – монета правильная (Г=Р), альтернативная Г>Р Выбор статистического критерия. В рассмотренном примере мы построили наш собственный статистический критерий, базирующийся на исследовании биномиального распределения. Однако в дальнейшем будем применять «стандартные» критерии Установление объема выборки N и определение «малой вероятности» а. Объём выборки определяет выбор критерия и наоборот. Величина малой вероятности – это вероятность допустить ошибку определения редкого события. Определение статистики критерия. Статистика критерия - это число, которое наблюдается или рассчитывается по завершении эксперимента. В рассмотренном примере статистикой критерия является число «гербов» R, определяемое путем подсчета. Для того чтобы решить, какие значения статистики критерия «обычны», а какие «редки» при условии справедливости нулевой гипотезы, надо знать распределение частот (или функцию плотности вероятности) статистики критерия или по меньшей мере ее «критическое значение» на границе между «обычным» и «редким» значениями. В нашем примере вероятность появления всех возможных значений статистики критерия была вычислена и представлена графически Последовательность действий при проведении статистического анализа.

Критическая область это область распределения частот статистики критерия, содержащая крайние значения статистики критерия, вероятность появления которых при условии справедливости гипотезы H 0 равна или меньше малой вероятности а. Малая вероятность а, выбранная для того, чтобы найти размер критической области, называется уровень значимости. Определение «критической области» (или «области непринятия» гипотезы). Решение. Если эксперимент дает значение статистики критерия внутри критической области, то Н 0 отвергается. При этом возможны два объяснения: а) Н 0 на самом деле справедлива, но произошло редкое событие; б) Н 0 ложна. Статистический метод проверки гипотез не доказывает чего-либо! Статистика ничего не доказывает!. В статистике всегда допускается, что выводы ошибочны, но всегда можно оценить вероятность этого допущения.

При принятии решения возможны 4 варианта: Нулевая гипотеза верна Нулевая гипотеза не верна Принимается Правильное решение. Отвергается Ошибка первого рода, a (ложное срабатывание). Принимается Правильное решение. Отвергается Ошибка второго рода, β (пропуск события). Вероятность ошибки известна (задаётся исследователем) Вероятность ошибки в общем случае неизвестна

Парадокс Монти Холла В поисках автомобиля игрок выбирает дверь 1. Тогда ведущий открывает 3-ю дверь, за которой находится коза, и предлагает игроку изменить свой выбор на дверь 2. Стоит ли ему это делать? Монти Холл – ведущий американского телешоу «Lets Make a Deal»