Множественный линейный корреляционно-регрессионный анализ ПРОДОЛЖЕНИЕ.

Презентация:

Advertisements

Похожие презентации

Общая теория статистики Регрессионно- корреляционный анализ.

Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.

Лекция 6 множественная регрессия и корреляция. ( продолжение )

Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.

Эконометрика. Литература Доугерти К. Введение в эконометрику. - 3-е изд. - М.: ИНФРА- М, XIV, 465 с. Доугерти К. Введение в эконометрику. - 3-е.

Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.

КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.

Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.

Регрессия в эконометрических исследованиях (продолжение).

Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.

Основы работы с пакетом SPSS. Ввод данных Data View – область данных (, ) - отсутствующие данные Исходные данные могут быть введены: путем набора область.

«Линейная регрессия и корреляция: смысл и оценка параметров»

Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:

Использование прикладного ПО для решения задач по теме «Линейная парная регрессия»

Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.

Оценка существенности параметров линейной регрессии и корреляции.

Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.

Корреляционная таблица. Коэффициент линейной кор-ии Пирсона.

Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.

Транксрипт:

Множественный линейный корреляционно-регрессионный анализ ПРОДОЛЖЕНИЕ

Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является одним методов статистического анализа взаимозависимости нескольких признаков (случайных величин). Одним из основных показателей взаимозависимости двух случайных величин является парный коэффициент корреляции, служащий мерой линейной статистической зависимости между этими величинами. Следовательно, этот показатель соответствует своему прямому назначению, когда статистическая связь между соответствующими признаками в генеральной совокупности линейна. То же самое касается частных и совокупных коэффициентов корреляции. Одним из требований, определяющий корреляционный метод, является требование линейности статистической связи и нормальность.

Множественная линейная регрессия В случае, когда коэффициент детерминации мал (степень этого определяется самим исследователем) возникает вопрос об улучшении качества модели за счет введения новых регулируемых переменных, приходя к линейной модели вида y=b 0 +b 1 x 1 +b 2 x 2 +…+a k x k, где x 1,x 2, …, x k – входные переменные, либо за счет усложнения модели, делая ее квадратичной, логарифмической, показательной, то есть, выбирая ее в виде:

либо

Рассмотрим случай двух независимых переменных. Предположим что, зависимость между переменными имеет вид y=b 0 +b 1 x 1 +b 2 x 2 (1) где переменные x 1 и x 2 принимают заданные фиксированные значения, причём между переменными x 1 и x 2 нет линейной зависимости. Результаты наблюдений (x 1 i, x 2 i, yi), i=1, 2, …, n, представляются в виде y i =b 0 +b 1 x 1i +b 2 x 2i +ε i. Оценки параметров модели (1) могут быть найдены по формуле

где Y= - вектор наблюдений вектор МНК оценок параметров модели (1); b=

A= Регрессивная матрица

Предположим, что ошибки наблюдений ε i независимы, имеют равные дисперсии и нормально распределены. В этом случае можно проверить гипотезу H 0 : b 1 =b 2 =0. Эта гипотеза позволяет установить, находятся ли переменные x 1 и x 2 во взаимосвязи с y. Статистикой критерия для проверки гипотезы H 0 является отношение

Если выборочное значение этой статистики Fв>, то гипотеза H 0 отклоняется; в противном случае следует считать, что взаимосвязи y с переменными x 1 и x 2 нет.

Мультиколлинеарность входных переменных Рассмотрим такое неприятное явление для регрессионного анализа, как мультиколлинеарность независимых переменных. Мультиколлинеарностью называется наличие линейной связи между независимыми переменными, в нашем случае между X 1 и X 2. Мультиколлинеарность может проявляться в двух видах: в функциональной зависимости между X 1 и X 2, например X 2 =b 0 +b 1 X 1, либо, наоборот. Определитель информационной матрицы равен нулю, т.е. матрица вырожденная. Такой вид мультиколлинеарности, как правило, встречается крайне редко. Гораздо чаще мультиколлинеарность наблюдается в стохастической форме.

Оценку силы мультиколлинеарности можно произвести, вычислив коэффициенты корреляции между коэффициентами bi и bj.Для того, чтобы оценки коэффициентов были независимыми, необходимо, чтобы в матрице Фишера (X T X) только диагональные элементы были отличны от нуля. Пример. Данные, полученные из годовых отчетов десяти предприятий: Y – себестоимость товарной продукции (млн. руб.), X 1 – объём валовой продукции (млн. руб.) и X 2 производительность труда (тыс. руб. на чел.).

YX1X1 X2X2 2, ,841,5 3,251,4 4,551,3 4,851,3 4,951,5 5,561,6 6,571,2 12,1151,3 15,0201,2 Таблица 1. Данные по 10 предприятиям

Проведём корреляционный анализ Раскрываем окно электронной таблицы и вводим числовые данные. Для обозначения переменных последовательно маркируем колонки и щелчком правой кнопки мышки вызываем меню, из которого выбираем пункт Modify column, где вводим нужные имена столбцов (колонок). Сохраняем файл под именем, например, factory (в нашей демоверсии нет такой возможности). Получаем таблицу 1, представленную на рис.1.

Появляется рабочее поле анализа множества переменных со сводкой, в которой подтверждается, что три переменные (по 10 наблюдений в каждой) приняты к обработке. Нажимаем кнопку табличных опций (вторая слева в нижнем ряду) и выбираем Correlations. На экране выдаётся таблица корреляций. В данной таблице первое число является коэффициентом корреляции Пирсона, второе (под первым) представляет количество наблюдений, третий уровень значимости

X1X2Y X (10) X2X (10) Y (10) Таблица 2. Таблица корреляций (Correlations)

Correlation Из полученных данных следует, что очень сильная положительная связь наблюдается между переменными Y (себестоимость товарной продукции) и X 1 (объём валовой продукции). Степень доверия к этой связи, исходя из уровня значимости, почти 100%. Другие связи менее выражены, но, однако заслуживают внимания, т.к. доверие к ним более 90% (р

Рис. 1. Устанавливаем флажок Scatterplot Matrix

Рис. 2. Диаграммы рассеивания на плоскости

Зависимая переменная: Y Parameter (Параметры) Estimat (Оценки) Standard Error T Statistic (T – статистика) P-Value (P –значение) CONSTANT0, , , ,3760 X10, , ,54110,0000 X2-0, , ,362960,2151 Multiple Regression Analysis Множественный регрессионный анализ

Analysis of Variance (Дисперсионный анализ) Source (источник) Sum of Squares DfMean Square F-RatioP-Value Model153,555276, ,670,0000 Residual3, ,449864

Total (Corr.)156,7049 R-squared = 97,9904 percent R-squared (adjusted for d.f.) = 97,4163 percent Standard Error of Est. = 0, Mean absolute error = 0, Durbin-Watson statistic = 0, R-squared = 97,9904 процента R-squared (откорректированный для d.f.) = 97,4163 процента Стандартная Ошибка Оценки. = 0, Средняя{Скупая} абсолютная погрешность = 0, Durbin-Уотсон, статистический = 0,963907

The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 2 independent variables. The equation of the fitted model is Y = 0, ,818195*X1 - 0,146225*X2 Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level. The R-Squared statistic indicates that the model as fitted explains 97,9904% of the variability in Y. The adjusted R- squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 97,4163%. The standard error of the estimate shows the standard deviation of the residuals to be 0,

This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 0, is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is less than 1.4, there may be some indication of serial correlation. Plot the residuals versus row order to see if there is any pattern which can be seen.

In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0,2151, belonging to X2. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing X2 from the model. 95,0% confidence intervals for coefficient estimates.

СтатКонсультант Консультант показывает результаты построения множественной линейной регрессии, чтобы описать отношения между Y и 2 - мя независимыми переменными. Уравнение регрессионной модели имеет вид Y = 0, ,818195*X 1 - 0,146225*X 2. Так как P-значение в ANOVA таблице меньше чем 0.01, есть a статистически существенные отношения между переменными в 99% - ый уровень надёжности. R-Squared статистический указывает долю дисперсии зависимой переменной, обусловленную изменением независимых переменных, т.е. 97,9904 % изменчивости в Y.

Отрегулированный R-squared статистический, который является более подходящим для того, чтобы сравнить модели с различным числом независимых переменных, являются 97,4163 %. Стандартная ошибка оценка показывает стандартное отклонение ошибок, чтобы быть 0, Эта ценность может использоваться, чтобы строить пределы предсказания для новых наблюдений, выбирая опцию Сообщений отменю текста.

Средняя абсолютная ошибка (БОЛЬШЕ) 0, средняя ценность остатков. Durbin-Уотсон (СОБСТВЕННЫЙ ВЕС) статистические испытания остатков к определите, есть ли любая существенная корреляция, основанная на заказе {порядке} в котором они происходят в вашем файле данных. Так как ценность СОБСТВЕННОГО ВЕСА – меньше чем 1.4, может быть некоторый признак последовательной корреляции. График остатков против ряда заказывают, чтобы видеть, есть ли любой образец который может быть замечен. Заметим, что построенная модель может быть упрощена, так как самое большое P-значение для независимых переменных – 0,2151, принадлежит X2. Если P-значение больше или равна 0.10, то элемент – статистически несущественный в 90%-ом или более высокий уровень надёжности.

Следовательно, Вы должны рассмотреть удаление X 2 из модели. доверительные интервалы на 95,0 % для оценок коэффициента. ParameterStandard Estimate ErrorLower Limit Upper Limit CONSTANT0, , , ,28721 X10, , , , X20, , , ,107465

Мультиколлинеарность Матрица корреляции для оценок коэффициентов модели CONSTANTX1X2 CONSTANT1,0000-0,72080,2975 X1-0,72081,0000-0,7824 X20,2975-0,78241,0000 СтатКонсультант Эта таблица показывает оцененные корреляции между коэффициентами в построенной модели. Эти корреляции могут использоваться, чтобы обнаружить присутствие серьезной мультиколлинеарности, то есть, корреляция среди переменных. В этом случае, есть одна корреляция с абсолютное значение больше чем 0.5 (исключая постоянный элемент CONSTANT).

ПРОДОЛЖЕНИЕ СЛЕДУЕТ