Лекция 1. Предмет математической статистики. Статистика – наука, изучающая совокупность массовых явлений с целью выявления скрытых закономерностей и изучения.

Презентация:



Advertisements
Похожие презентации
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Визуализация данных Визуализация данных Точечные оценки Точечные оценки Групповые характеристики Групповые характеристики Метод.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Элементы математической статиститки. Статистика – дизайн информации.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Статистические оценки параметров распределения Доверительные интервалы.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
Транксрипт:

Лекция 1. Предмет математической статистики

Статистика – наука, изучающая совокупность массовых явлений с целью выявления скрытых закономерностей и изучения их с помощью некоторых обобщенных показателей

Все методы математической статистики можно отнести к двум основным ее разделам: теории статистического оценивания параметров и теории проверки статистических гипотез.

Выборочный метод в статистике. Пример 1. Рассматривается урна, содержащая N шаров, каждый из которых может быть либо белым, либо черным. Неизвестное нам количество белых шаров обозначим M, тогда черных шаров будет N-M.

Пусть нам разрешили извлекать из урны шары и фиксировать их цвет. Если извлеченный шар белый – пишем 1, иначе 0. После фиксации цвета шар возвращается в урну. Пусть мы извлекли таким образом n шаров и получили упорядоченный набор из n нулей и единиц- выборку.

Можем ли мы на основе этой выборки сформулировать некоторое утверждение о количестве белых шаров ( или о доле p белых шаров) в урне ? Очевидно, что да.

Формализуем задачу: пусть мы рассматриваем случайную величину X, имеющую распределение Бернулли, т.е. принимающую только два значения 0 и 1 с вероятностями, соответственно, p, 1-p. Выборку теперь мы можем интерпретировать как последовательность n независимых наблюдений сл.в. X. Задача состоит в оценке параметра p данного распределения.

В общем случае выборочный метод состоит в следующем: рассматриваются n независимых наблюдений изучаемой сл.в. X – выборка, и опираясь на эту информацию мы должны сделать некоторое высказывание о распределении изучаемой сл.в. ( или о его параметрах).

В математической статистике выборку удобно рассматривать иначе: как единственную реализацию n-мерной случайной величины X, относительно компонент которой предполагается, что они независимы и имеют такое же распределение, как и исходная случайная величина X.

Идею выборочного метода можно изложить на содержательном языке. Вводится понятие генеральной совокупности, т.е. множества всех мыслимых значений изучаемой величины и выборки- некоторого наблюдаемого подмножества генеральной совокупности.

Выборочный метод на таком языке: по выборке, т.е. по части множества мы должны сформулировать некоторое высказывание о всей генеральной совокупности. При таком подходе выделяют два основных требования, предъявляемых к выборке репрезентативность однородность.

Выборка считается репрезентативной, если у каждого элемента генеральной совокупности равные шансы попасть в выборку. Выборку называют однородной, если в ней представлены значения одной сл.в., а не нескольких, имеющих существенно различные распределения.

Пример 2 На одних из президентских выборов в США у Ф.Рузвельта был малоизвестный сейчас конкурент Ландон. Одна из компаний перед выборами провела большого объема телефонный опрос избирателей из различных штатов «За кого собираетесь голосовать?» На основании результатов опроса была предсказана победа Ландону. В чем заключалась ошибка при составлении выборки?

Пример 3 Пусть на лекции присутствует достаточно много студентов. Мы записали рост каждого из присутствующих, в надежде получить оценку среднего роста человека студенческого возраста. Что можно сказать об однородности данной выборки и почему?

Следует быть очень внимательным к нарушениям требований, предъявляемых к выборке. Если выборка «плохая», то никакая изощренная математика и никакие совершенные программные средства Вас не спасут!

Первичная обработка статистических данных. Здесь мы рассмотрим, как сделать данные более обозримыми и наглядными, что позволит нам далее сделать некоторые первичные предположения об изучаемой сл.в.

1) Группировка данных Группировка данных делает данные обозримыми, что весьма полезно (особенно при «ручном» счете). Если изучаемая сл.в. дискретная, то группировка данных очевидна: выписываются в в порядке возрастания различные элементы, наблюдавшиеся в выборке (варианты) и соответствующие им частоты (либо- относительные частоты ).

Если же сл.в. дискретная, то выборка «накрывается» набором непересекающихся промежутков, для каждого из которых находится количество попавших в него элементов Для числа интервалов r в этом случае рекомендуется формула :

2) Графическое представление данных. Любые графики делают данные наглядными. Самыми полезными графиками на этом этапе являются гистограмма и полигон. Для построения этих графиков данные должны быть сгруппированы, после чего строятся кусочно-постоянная (гистограмма) либо кусочно-линейная (полигон) зависимость частот от вариант.

Если частоты пронормированы, то такие графики можно интерпретировать как некие статистические аналоги графиков, задающих распределение сл.в X (например плотности распределения, если X непрерывна).

Глядя на такой график часто удается обнаружить неоднородность выборки, или – выдвинуть первичное предположение о виде распределения.

Полигон

Точечные оценки параметров распределения. В курсе теория вероятностей и математическая статистика давались формальные определения основных требований, предъявляемых к точечным оценкам: состоятельности, несмещенности и эффективности оценки.

Оценка будет состоятельной, если с увеличением объема выборки существенное отклонение оценки от оцениваемого параметра становится маловероятным. Оценка будет несмещенной, если она не дает систематической ошибки.

Оценка будет максимально эффективной, если рассеивание ее значений относительно оцениваемого параметра, полученных для серии выборок, будет минимально. (Это оценка, дающая максимальную «кучность»).

Сравнительно редко удается построить оценки, удовлетворяющие всем трем условиям. Обычно используются состоятельные, но лишь асимптотически эффективные или несмещенные оценки.

Вспомним некоторые (основные) оценки, известные нам из курса теории вероятностей и математической статистики.

Средние значения : выборочное среднее, медиана, мода. Выборочное среднее- это среднее арифметическое значение для элементов данной выборки (принятые обозначения: Mean или ), т.е. средним арифметическим значением признака называется величина где - значение i-го элемента выборки, n - число элементов в выборке

мода – наиболее часто встречающееся значение переменной (M, Mo) медиана – среднее по порядку значение (принятые обозначения: Median, Me). Медиана - это "серединное" значение признака в том смысле, что у половины объектов совокупности значения этого признака меньше, а у другой половины - больше медианы.

Приближенно вычислить медиану можно, упорядочив все значения признака по возрастанию (убыванию) и найдя число в этом вариационном ряду, которое либо имеет номер (n+1)/2 - в случае нечетного n, либо находится посередине между числами с номерами n/2 и (n+1)/2 - в случае четного n.

Напомним, что выборочные мода и медиана более устойчивы к «засоренности» выборки, чем выборочное среднее.

Показатели вариации, разброса значений: дисперсия, среднее квадратическое (стандартное) отклонение, коэффициент вариации.

Несмещенная (исправленная) выборочная дисперсия

(исправленное) среднее квадратическое или стандартное отклонение мера разброса значений признака около среднего арифметического значения (принятые обозначения: Std.Dev. (standard deviation), или s). Величина этого отклонения вычисляется по формуле

коэффициент вариации отношение стандартного отклонения к среднему арифметическому, выраженное в процентах (обозначается в статистике буквой V). Коэффициент вычисляется по формуле:. Коэффициент вариации используется для сравнения вариаций «размерных» величин.

Все вышеуказанные оценки среднего и вариации, а также многие другие оценки Вы научитесь находить средствами STATGRAPHICS в лабораторных работах 1-2

Можно добавить другие характеристики

Лекция 2. Основные виды распределений, используемых в статистике. Статистические таблицы.

1) Нормальное распределение. Обозначение: Плотность распределения: m=MX,

График плотности

2)РаспределениеПирсона. Обозначение где распределены по закону и независимы. Плотность распределения: для x>0.

Разное количество степеней свободы

3)Распределение t Стьюдента. Обозначение Где и независимы. Плотность распределения:

4)Распределение Фишера. Обозначение: Где и независимы. Плотность распределения: для x>0

Статистические таблицы. В статистике довольно часто используются таблицы критических значений (например - для сл.в. X), из которых по заданному (например, 0.05) можно найти такое, чтобы

2. Доверительные интервалы. В предыдущей лекции мы научились строить выборочные оценки некоторых параметров распределения. Рассмотрим теперь следующий пример.

Пример 1. Пусть Вы работаете в статистическом управлении и Вам поручено определить среднемесячный доход жителя Вашего города (например- Екатеринбурга). Вы опросили 20 жителей города и построили выборочное среднее для среднемесячного дохода. Пусть это рублей. Дает ли это число ответ на поставленный вопрос?

Очевидно, что нет, ведь нам нужно найти генеральное среднее, т.е. среднее по множеству состоящему из миллиона с лишним элементов…

На формальном языке: генеральное среднее- это математическое ожидание m для среднемесячного дохода, а мы нашли выборочное среднее - оценку для математического ожидания. Возникает естественный вопрос о том, насколько эта оценка может отклоняться от математического ожидания?

Для того чтобы ответить на этот вопрос, нам придется вспомнить определение доверительного интервала, известное нам из курса теории вероятностей и математической статистики:

Доверительным интервалом для параметра с доверительной вероятностью P (по умолчанию P=0.95) называется интервал, следующего вида: если выполняется следующее условие:

В курсе теории вероятностей и математической статистики, мы выяснили, что для математического ожидания m доверительный интервал выглядит следующим образом: где - выборочное среднее, - несмещенная выборочная дисперсия, а параметр определяется из таблицы критических значений для распределения Стьюдента с k=n-1 степенью свободы и

Напомним, что построенный нами доверительный интервал строго обоснован только для случая, когда изучаемая нами случайная величина имеет нормальное распределение, однако, если выборка достаточно велика (на практике - уже для n=12), можно пользоваться построенным интервалом и для случайных величин с неизвестным нам распределением.

Вернемся к нашему примеру: пусть Вы построили доверительный интервал и у Вас получилось, что среднемесячный доход лежит в промежутке от 9500 до 10500, но Вы хотите увеличить точность оценки в 10 раз. Во сколько раз для этого следует увеличить объем выборки?

Лекция 3. Проверка статистических гипотез.

Статистическая гипотеза - это гипотеза о виде распределения изучаемой случайной величины X, или о параметрах распределения, если вид распределения известен.

Если вид распределения известен, и выдвигается гипотеза о параметрах распределения, то такую гипотезу называют параметрической, в противном случае гипотеза непараметрическая.

Гипотезы бывают простые и сложные. Простая гипотеза- это такая гипотеза, которая полностью определяет распределение изучаемой случайной величины X. Все остальные гипотезы называются сложными.

Пример 1. Пример 1. Вернемся к примеру с белыми и черными шариками из лекции 1. Нам неизвестна доля белых шаров в урне т.е.вероятность извлечения белого шара p. Выдвинем две гипотезы: H0: p=1/2 H1: p>1/2 Какая из данных гипотез простая? сложная ? параметрическая? Непараметрическая?

Гипотезы обычно выдвигаются парами. Одна из них (как правило - простая) называется основной и обозначается H0, вторая – альтернативной, обозначается H1. Наша цель состоит в том, чтобы по имеющейся выборке научиться выбирать из двух гипотез наименее правдоподобную.

Разумеется, поскольку у нас нет полной информации (мы располагаем лишь выборкой), то при принятии решения возможны ошибки.

Ошибки бывают первого и второго рода. Ошибка первого рода: отвергается основная гипотеза, хотя она верна. Пусть у нас в n-мерном пространстве есть такое множество S, при попадании в которое выборки, основная гипотеза отвергается. (Критическая область для H0 ). Тогда вероятность ошибки первого рода может быть записана так:

Ошибка второго рода: отвергается альтернативная гипотеза, хотя она верна. Вероятность ошибки второго рода может быть записана так:

Нейман: Выбирается некоторый допустимый уровень вероятности ошибки первого рода a. Среди всех критических областей, гарантирующих вероятность ошибки 1-го рода не выше, ищется такая область, для которой вероятность ошибки 2-го рода минимальна. (Это- наилучшая критическая область, НКО).

Проверка типичных гипотез о математических ожиданиях. Пусть рассматривается случайная величина X и соответствующая выборка: (x1,x2,…,xn). Обозначим m=MX.

Задача 1. (правосторонняя альтернативная гипотеза) 1) 2) 3) 4)По заданному a (по умолчанию a=0.05) из табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a 5) Если Yнабл>, то - отвергается.

ЗАМЕЧАНИЕ: В статистических пакетах принят несколько иной подход: вычисляется Pval=P(Y>Yнабл) и если Pval< a, то Н0-отвергается. Такое правило действует и при проверке других гипотез!

Задача 2. (левосторонняя альтернативная гипотеза) 1) 2) 3) 4) По заданному a (по умолчанию a=0.05) из табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a 5) Если Yнабл

Задача 3. (двухсторонняя альтернативная гипотеза) 1) 2) 3) 4) По заданному a (по умолчанию a=0.05) из табл. критических значений распределения Стьюдента t(n-1), находится :P(Y> )= a/2 5) Если, |Yнабл|>, то H0- отвергается

Пусть рассматриваются две независимых случайных величины X и соответствующая выборка: (x1,x2,…,xn) и Y и соответствующая выборка: (y1,y2,…,yn). Обозначим m1=MX, m2=MY.

Задача 4. (правосторонняя альтернативная гипотеза) 1) 2), 3) 4) По заданному a (по умолчанию a=0.05) из табл. критических значений распределения Стьюдента t(n1+n2 -2 ), находится :P(Y> )= a 5) Если Yнабл>, то H0- отвергается

Следующая задача может быть сведена к предыдущей (почему? к какой?), но мы выпишем ее отдельно с небольшими изменениями в алгоритме (предполагается, что n>50). Пусть X- имеет распределение Бернулли, т.е. принимает значения 0 и 1 с вероятностями p и q=1-p.

Задача 5. (правосторонняя альтернативная гипотеза) 1) m- число единиц в выборке, 2) 3) По заданному a (по умолчанию a=0.05) из табл. для функции Лапласа Ф(x) (нормального распределения), находится :Ф( )=0.5 - a 5) Если Yнабл>, то H0- отвергается.

Замечание 1 Алгоритмы, используемые в задачах 1- 4 строго обоснованы только для случайных величин, имеющих нормальное распределение, однако ими можно пользоваться и в общем случае, если выборки достаточно велики ( на практике может хватить и n=12). (Подумайте - почему?)

Замечание 2. В задаче 4 требуется равенство дисперсий X и Y, однако, если выборки не сильно отличаются по объему и достаточно велики, равенство дисперсий можно не проверять.

Замечание 3 Если в задаче 4 выборки нельзя считать независимыми, например: если наблюдения парные, то алгоритм из задачи 5 неприменим. Однако для парных наблюдений дело сводится к одной из задач 1-3 переходом к с сл.в. Z=X –Y.

Проверка гипотез о математических ожиданиях в пакете StatGraphics. В пакете StatGraphics имеется возможность проверки достаточно широкого набора гипотез, в частности- легко проверить и любую из описанных выше гипотез о матожидании.

Лекция 4. Однофакторный дисперсионный анализ и условия его применимости. Критерий Краскелла-Уоллеса.

Однофакторный дисперсионный анализ. Пусть дано k (обычно k>2) независимых случайных величин и соответствующих им выборок: X: (x1, x2,…, xn1), Y: (y1, y2,…, yn2), Z: (z1, z2,…, zn3), ……… Обозначим: m1=MX, m2=MY, m3=MZ …, H0: m1=m2=m3= …, H1: не H0

Алгоритм, который сейчас будет описан (однофакторный дисперсионный анализ, ANOVA), обоснован при следующих предположениях: 1) 2) Все случайные величины имеют нормальное распределение.

Алгоритм ANOVA 1) Находим внутригрупповые средние: 2) Общее среднее: 3) Факторную (межгрупповую) дисперсию:

4) Остаточную (внутригрупповую) дисперсию: 5) Отношение: 6) По заданному a=0.05 (по умолчанию) из таблиц критических значений для распределения Фишера с k1=k-1, k2=n-k, находим : P(F> )=a. 7) Если, то H0-отвергается.

Замечание Замечание: Так же, как и при любой проверке гипотез на компьютере, вместо последних двух шагов: вычисляется Pval= P(F> Fнабл) и, если Pval

Пример. Есть ли существенное влияние дня недели на дневную выручку крупного магазина?

Лекция 5 Критерии согласия.

Пусть Fn(x) – эмпирическая функция распределения, полученная по выборке, а F(x) –гипотетическая функция распределения.

Критерий согласия Критерий основан на сравнении выборочной гистограммы с теоретической плотностью распределения.

1)Диапазон изменения экспериментальных данных разбивается на k непересекающихся промежутков, и подсчитывается величина где mi –количество элементов выборки, попавших в i интервал,

2) - вероятность попадания случайной величины в i интервал, 3)По заданному a =0.05 ( по умолчанию) из таблиц критических значений для распределения (k-1) находим : P(Z> )= a 4)Если Zнабл>, то H 0 - отвергается.

На практике критерий следует использовать для достаточно больших выборок, при этом интервалы должны быть таковы, чтобы.

Замечание В приложениях параметры гипотетического распределения обычно неизвестны, поэтому в приведенном выше алгоритме их следует заменить выборочными оценками, изменив при этом число степеней свободы k-1 на k-r- 1, где r – число оцениваемых параметров.

Критерий Колмогорова- Смирнова Пусть вариационный ряд, построенный по выборке. Колмогоров нашел предельное распределение для при. Оказалось, что оно не зависит от распределения сл.в. X !

Алгоритм: 1) Выписывается вариационный ряд и функция Fn(x), 2) Вычисляется =. 3) По a из таблиц критических значений для распределения Колмогорова, находится критическое значение. 4) Если =, то H 0 - отвергается.

Замечание При использовании критерия Колмогорова-Смирнова гипотетическое распределение не должно содержать неизвестных параметров.

Лекция 6. Проверка однородности выборок.

Двухвыборочный критерий Смирнова Перед нами стоит вопрос, можно ли считать, что случайные величины имеют одинаковые распределения? (На содержательном языке: можно ли их объединить?)

1. Критерий Смирнова. Алгоритм 1) Вычисляются эмпирические функции распределения. 2) Находим 3) По a из таблиц критических значений для распределения Колмогорова, находится критическое значение (так же, как в критерии Колмогорова -Смирнова в предыдущей лекции). 4) Если, то Ho – отвергается.

2. Ранговые критерии сдвига. Критерий Манна-Уиттни (Вилкоксона ). Рассматриваемые здесь критерии являются непараметрическими, т.е. они не зависят от вида распределения изучаемых случайных величин.

Алгоритм: Объединяем обе выборки в одну и упорядочиваем их по возрастанию. Элементы первой выборки помечаем при этом штрихами. Находим сумму рангов R элементов, помеченных штрихом. Полагаем, что По заданным a,, из таблиц для критерия Вилкоксона, находим критические значения R1 и R2. Если R R2, то H 0 отвергается.

Замечание1 При можно считать, что сл.в. имеет стандартное нормальное распределение и основная гипотеза будет отвергаться, если (для a=0.05).

Замечание 2 Можно пользоваться критическими значениями из таблиц для критерия Манна-Уиттни для

3. Ранговые критерии парных наблюдений Пусть мы имеем дело с парными наблюдениями и следовательно. В этом случае можно использовать простой, но достаточно грубый критерий.

Критерий знаков. Алгоритм 1)Выписываем знаки разностей 2) Находим число плюсов D1 и минусов D2. 3)По заданному a и n из таблиц критических значений для критерия знаков находим Кa. 4) Если min(D1, D2)< Кa, то H0 отвергается.

Критерий знаковых ранговых сумм 1)Выписываем разности. 2) Ранжируем разности по модулю. 3)Находим сумму рангов с плюсом T1 и минусом T2. 3)По заданному a и n из таблиц критических значений для для одновыборочного критерия Вилкоксона находим Ta. 4) Если min(T1, T2)< Ta, то H0 отвергается.

Реакция на звук и свет

Лекция 7. Выявление связей между признаками.

При проверке гипотез о наличии связей в о всех случаях предполагается в качестве основной гипотезы гипотеза об отсутствии связей, т.е. о независимости признаков.

1. Выявление связей для качественных признаков Таблицей сопряженности называется прямоугольная таблица, по строкам которой указываются категории одного признака (например, разные социальные группы), а по столбцам - категории другого (например, партийная принадлежность). Таким образом, в клетках таблицы стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков.

Критерий Пирсона. Алгоритм Производится группировка признаков, составляется таблица сопряженности:

m 11 m 12 m 1r m1.m1. m 21 m 2r m k1 m kr m1.m1. m. 1 m. 2 m. r n

Составляется сумма

3) По заданному a из таблиц критических значений для распределения, где l=(k-1)(r-1) находится критическое значение ea. Если, то H 0 (независимость)- отвергается.

Для сравнения тесноты связей качественных признаков используют следующие коэффициенты(чем больше коэффициент, тем сильнее связь):

Коэффициент контингенции.

Коэффициент Крамера Где

Выявление связей для порядковых признаков Пусть нам дана выборка из парных наблюдений и для каждого наблюдения известны ранги по двум признакам – (xi,yi ):

N12…n Xx1x1 x2x2 xnxn Yy1y1 y2y2 …ynyn D=X-Yd1d1 d2d2 …dndn

Критерий Спирмена. Алгоритм 1)Записываем разности рангов di 2)Находим сумму квадратов разностей 3)Коэффициент Спирмена: если близок к 1, то связь есть и она прямая, если он близок к -1, то связь есть и она обратная.

Замечание Коэффициент Кендалла дает более осторожную оценку корреляции, чем коэффициент Спирмена (числовое значение всегда меньше, чем ).

Лекция 8 Элементы регрессионного анализа.

Элементы регрессионного анализа В курсе теории вероятностей рассматривалось понятие условного математического ожидания одной случайной величины по другой – функции регрессии:

Если мы знаем функцию регрессии, то мы по значению сл.в. X можем прогнозировать Y. Однако, для построение функции регрессии (теоретической) нужно знать двумерное распределение (X,Y)-в действительности мы его не знаем.

Однако нам может быть известна последовательность парных значений сл.в. (X,Y)- т.е. выборка:

Можно попытаться на основе этой выборки построить аппроксимацию теоретической функции регрессии- выборочную функцию регрессии.

Вид функции регрессии нам, как правило неизвестен и по этому поводу мы можем делать различные предположения. Здесь в приложениях, как правило, опираются на вид «облака точек» с координатами (корреляционное поле).

При этом может быть полезен известный из теории вероятностей факт: если двумерная сл.в. имеет нормальное распределение, то теоретическая функция регрессии линейна.

Линейная выборочная функция регрессии. Метод наименьших квадратов. Пусть мы предположили, что теоретическая функция регрессии линейна и мы ищем выборочную функцию регрессии Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров и, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:

Обозначим через, тогда:

После несложных преобразований, получим следующую систему линейных уравнений для оценки параметров и

Решая систему уравнений, найдем искомые оценки параметров и. Можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы

где используются следующие обозначения: выборочная ковариация признаков и – дисперсия признака x и,,,

Насколько хорошо точки корреляционного поля ложатся на построенную линию регрессии? Качество «подгонки» модели можно оценить по остаточной дисперсии:

Чем меньше величина остаточной дисперсии, тем меньше влияние не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным.

Уравнение линейной регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции, который можно рассчитать по следующим формулам:

Линейный коэффициент корреляции находится в пределах:.

Для оценки качества подбора линейной функции регрессии часто используется квадрат линейного коэффициента корреляции, называемый коэффициентом детерминации.

Коэффициент детерминации характеризует долю дисперсии результативного признака, объясняемую регрессией, в общей дисперсии результативного признака: =, где

Чем ближе коэффициент детерминации к единице, тем лучше точки на регрессионном поле укладываются на линию регрессии, т.е. тем выше уровень «подгонки» модели.

Представление о качестве модели можно получить также из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации: Средняя ошибка аппроксимации не должна превышать 8–10%.

Стандартные нелинейные модели Может оказаться так, что искать функцию регрессии в виде линейной функции будет неразумно. В этом случае можно использовать одну из моделей, которая сводится к линейной:

Набор таких стандартных нелинейностей в пакете StatGraphics (особенно в новой версии) довольно велик.

Полезно запомнить: Считается, что при построении регрессионной модели число наблюдений должно в 7-8 раз превышать число рассчитываемых параметров при переменной.

Значимость регрессионной модели в целом Оценка значимости уравнения регрессии в целом производится на основе -критерия Фишера, которому предшествует дисперсионный анализ.

Величина - критерия связана с коэффициентом детерминации, и ее можно рассчитать по следующей формуле:

Из этой формулы видно, что чем ближе коэффициент детерминации к единице, тем больше, т.е. критерий Фишера позволяет оценить, достаточно ли близок коэффициент детерминации к единице, чтобы модель можно было признать удовлетворительной по качеству «подгонки».

Следует заметить, что даже если «подгонка» идеальна и точки корреляционного поля в точности лежат на линии регрессии ( например - если мы построим интерполяционный многочлен), модель еще не может считаться качественной, поскольку важна значимость не только уравнения в целом, но и отдельных его параметров.

Значимость коэффициентов регрессии Для проверки значимости найденых коэффициентов регрессии в Statgaphics для каждого коэффициента проверяется своя пара гипотез, например

Если Pval мало, то найденный выборочный коэффициент значимо отличается от нуля иего можно использовать для анализа и прогноза. Детали такой проверки мы обсудим в следующих лекциях – и в курсе эконометрики.

Рассмотрим пример. По данным проведенного опроса восьми групп семей известны данные связи расходов населения на продукты питания с уровнем доходов семьи.

Расходы на продукты питания, тыс. руб. 0,91,21,82,22,62,93,33,8 Доходы семьи,, Тыс. руб 1,23,15,37,49,611,814,518,7

Рис По графику видно, что точки выстраиваются в некоторую прямую линию.

Рассчитаем параметры линейного уравнения парной регрессии. Для этого воспользуемся формулами

Получили уравнение:. т.е. с увеличением дохода семьи на 1000 руб. расходы на питание увеличиваются на 168 руб.

Выпишем показатель тесноты связи – выборочный коэффициент корреляции : Близость коэффициента корреляции к 1 указывает на тесную линейную связь между признаками.

Коэффициент детерминации = (примерно тот же результат получим, если найти по определению из формулы (1.7))

Оценим качество уравнения регрессии в целом с помощью -критерия Фишера. Сосчитаем фактическое значение -критерия:

Табличное значение (,, ): Так как, то признается статистическая значимость уравнения в целом.

Табличное значение -критерия Стьюдента при и числе степеней свободы есть. Так как,, то признаем статистическую значимость параметров регрессии.

Средняя ошибка аппроксимации в нашем примере равна говорит о хорошем качестве уравнения регрессии, т.е. свидетельствует о хорошем подборе модели к исходным данным.

Построение регрессии в StatGraphics

Лекция 10 Методы многомерного статистического анализа.

Многомерный статистический анализ. Его цель: построение упрощенного укрупненного ряда объектов

1. Кластерный анализ. Понятие об иерархическом методе. Кластерный анализ – объединение объектов в группу с единой целью (признаков много).

Способы кластерного анализа:

иерархический (дерево иерархического анализа): основная идея иерархического метода заключается в последовательном объединении группируемых объектов - сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

2) метод К-средних. Требует заранее заданных классов (кластеров). Подчеркивает внутриклассовую дисперсию. основан на гипотезе о наиболее вероятном количестве классов. Задачей метода является построение заданного числа кластеров, которые должны максимально отличаться друг от друга.

Процедура классификации начинается с построения заданного числа кластеров, полученных путем случайной группировки объектов. Каждый кластер должен состоять из максимально "похожих" объектов, причем сами кластеры должны быть максимально "непохожими" друг на друга.

Результаты этого метода позволяют получить центры всех классов (а также и другие параметры дескриптивной статистики) по каждому из исходных признаков, а также увидеть графическое представление о том, насколько и по каким параметрам различаются полученные классы.

Если результаты классификаций, полученные разными методами совпадают, то это подтверждает реальное существование групп (надежность, достоверность).

Факторный анализ, цели его использования В основе факторного анализа лежит идея о том, что за сложными взаимосвязями явно заданных признаков стоит относительно более простая структура, отражающая наиболее существенные черты изучаемого явления, а "внешние" признаки являются функциями скрытых общих факторов, определяющих эту структуру. Цель: переход от большего числа признаков к небольшому числу факторов

в факторном анализе все величины, входящие в факторную модель, стандартизированы, т.е. являются безразмерными величинами со средним арифметическим значением 0 и средним квадратическим отклонением 1.

Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкой данного признака по данному общему фактору. Это число в интервале от -1 до 1. Чем дальше от 0, тем более сильная связь. Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет

Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором.

Факторы являются стандартизованными величинами, не могут быть = нулю. Факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. что она ниже средней.

Таблица факторных весов имеет n строк по числу объектов и k столбцов по числу общих факторов. Положение объектов на оси каждого фактора показывает, с одной стороны, тот порядок, в котором они ранжированы по этому фактору, а с другой стороны, равномерность или же неравномерность в их расположении, наличие скоплений точек, изображающих объекты, что дает возможность визуально выделять более или менее однородные группы.