Проверка качества уравнения регрессии Лекция2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
«Линейная регрессия и корреляция: смысл и оценка параметров»
Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.
Свойства коэффициентов регрессии и проверка гипотез.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Эконометрика. Литература Доугерти К. Введение в эконометрику. - 3-е изд. - М.: ИНФРА- М, XIV, 465 с. Доугерти К. Введение в эконометрику. - 3-е.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
Свойства коэффициентов регрессии и проверка гипотез.
Кандидат технических наук, доцент Поляков Константин Львович Учебный курс Эконометрика: идентификация, оценивание и анализ статических моделей Лекция 7.
3 Законы Кирхгофа справедливы для линейных и нелинейных цепей при постоянных и переменных напряжениях и токах.
1 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПЛАТА ASVABC S 1 ПЛАТА = S + 3 ASVABC + u Геометрическая интерпретация множественной регрессионной модели с.
Транксрипт:

Проверка качества уравнения регрессии Лекция

2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация регрессии

3 Случайные составляющие коэффициентов регрессии После определения оценок b 0 и b 1 возникают вопросы: - насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности; - насколько близки оценки b 0 и b 1 к своим теоретическим значениям 0 и 1 ; - как близко оцененное значение к условному математическому ожиданию M[Y/X = x i ]; - насколько надежны найденные оценки. Для ответа на эти вопросы необходимы дополнительные исследования.

4 Свойства оценок коэффициентов регрессии Оценки b 0 и b 1 представляют собой случайные величины, зависящие от случайного члена в уравнении регрессии. Рассмотрим теоретическую модель парной линейной регрессии и ее оценку по выборке из n наблюдений: Справедлива формула:

5 Свойства оценок коэффициентов регрессии Представим выборочную ковариацию S xy в виде: S xy = Cov(X, X+ ) = Cov(X, 0 ) + Cov(X, 1 X) + Cov(X, ) = = 1 S x 2 + Cov(X, ). Следовательно, где 1 постоянная составляющая; случайная компонента. Тот же результат можно получить и для коэффициента b 0.

6 Свойства оценок коэффициентов регрессии Свойства оценок коэффициентов регрессии, а следовательно, и качество построенного уравнения регрессии существенно зависят от свойств случайной составляющей. Т.о. показано, что

7 Свойства оценок коэффициентов регрессии Доказано, что для получения по МНК наилучших результатов (при этом оценки b i обладают свойствами состоятельности, несмещенности и эффективности) необходимо выполнение ряда предпосылок относительно случайного отклонения.

8 Предпосылки использования МНК (условия Гаусса – Маркова) 1 0. Случайное отклонение имеет нулевое математическое ожидание Дисперсия случайного отклонения постоянна Наблюдаемые значения случайных отклонений независимы друг от друга Случайное отклонение д.б. независимо от объясняющей переменной Регрессионная модель является линейной относительно параметров, корректно специфицирована и содержит аддитивный случайный член.

9 Предпосылки использования МНК (условия Гаусса – Маркова) 1 0. Случайное отклонение имеет нулевое математическое ожидание. Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную.

10 Предпосылки использования МНК (условия Гаусса – Маркова) 2 0. Дисперсия случайного отклонения постоянна. Из данного условия следует, что несмотря на то, что при каждом конкретном наблюдении случайное отклонение i может быть различным, но не должно быть причин, вызывающих большую ошибку.

11 Предпосылки использования МНК (условия Гаусса – Маркова) 3 0. Наблюдаемые значения случайных отклонений независимы друг от друга. Если данное условие выполняется, то говорят об отсутствии автокорреляции.

12 Предпосылки использования МНК (условия Гаусса – Маркова) 4 0. Случайное отклонение д.б. независимо от объясняющей переменной. Это условие выполняется, если объясняющая переменная не является случайной в данной модели.

13 Предпосылки использования МНК (условия Гаусса – Маркова) 5 0. Регрессионная модель является линейной относительно параметров, корректно специфицирована и содержит аддитивный случайный член.

14 Предпосылки использования МНК (условия Гаусса – Маркова) 6 0. Наряду с выполнимостью указанных предпосылок при построении линейных регрессионных моделей обычно делаются еще некоторые предположения, а именно: - случайное отклонение имеет нормальный закон распределения; - число наблюдений существенно больше числа объясняющих переменных; - отсутствуют ошибки спецификации; - отсутствует линейная взаимосвязь между двумя или несколькими объясняющими переменными.

15 Теорема Гаусса - Маркова Теорема. Если предпосылки 1 0 – 5 0 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1. Оценки являются несмещенными, т.е. M[b 0 ] = 0, M[b 1 ] = 1. Это говорит об отсутствии систематической ошибки при определении положения линии регрессии. 2. Оценки состоятельны, т.к. при n D[b 0 ] 0, D[b 1 ] 0. Это означает, что с ростом n надежность оценок возрастает. 3. Оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин y i.

16 Типичная картина выполнения условий Гаусса – Маркова

17 Типичная картина нарушения условий 2 0 и 4 0 : D[ ] = const, Cov( i,X i ) = 0

18 Типичная картина нарушения условия 3 0 : Cov( i, j ) = 0, i j

19 Система показателей качества парной регрессии 1. Показатели качества коэффициентов регрессии 2. Показатели качества уравнения регрессии в целом 3. Адекватность модели – остатки должны удовлетворять условиям теоремы Гаусса- Маркова

20 Показатели качества коэффициентов регрессии 1. Стандартные ошибки оценок (анализ точности определения оценок). 2. Значения t-статистик (проверка гипотез относительно коэффициентов регрессии). 3. Интервальные оценки коэффициентов линейного уравнения регрессии. 4. Доверительные области для зависимой переменной.

21 Стандартные ошибки оценок Оценки b 0 и b 1 являются случайными величинами. Отсюда следует, что стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений. Можно показать, что дисперсии оценок b 0 и b 1 равны:

22 Свойства дисперсий оценок 1. Дисперсии D[b 0 ] и D[b 1 ] прямо пропорциональны дисперсии случайного отклонения 2. Следовательно, чем больше фактор случайности, тем менее точными будут оценки. 2. Чем больше число наблюдений n, тем меньше дисперсии оценок. 3. Чем больше дисперсия объясняющей переменной, тем меньше дисперсия оценок коэффициентов регрессии. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении).

23 Расчет стандартных ошибок Заменив 2 на ее несмещенную оценку получим:

24 Формулы расчета стандартных ошибок оценок Стандартные ошибки коэффициентов регрессии: Стандартная ошибка является оценкой среднего квадратического отклонения коэффициента регрессии от его истинного значения

25 Использование стандартных ошибок Сравнивая значение коэффициента с его стандартной ошибкой, можно судить о значимости коэффициента Коэффициент называется значимым, если есть достаточно высокая вероятность того, что его истинное значение отлично от нуля Для стандартных ошибок оценок нет таблиц критических уровней – для точного суждения используются t-статистики

26 Проверка значимости на основе t-статистик заключается в установлении наличия линейной зависимости между Y и X. Данный анализ осуществляется по схеме проверки статистических гипотез. Проверяются альтернативные гипотезы: и

27 Проверка значимости на основе t-статистик Если принимается гипотеза H 0, то считают, что величина Y не зависит от X. В этом случае говорят, что коэффициент b 1 статистически незначим (т.к. слишком близок к нулю). В противном случае говорят, что коэффициент b 1 статистически значим, что указывает на наличие линейной зависимости между Y и X. Для парной линейной регрессии более важным является анализ статистической значимости коэффициента b 1, т.к. именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y.

28 Значимость свободного члена Аналогично проверяется значимость коэффициента b 0. Однако мы должны быть осторожны в сильном выделении свободного члена. Почему? 1.Мы обычно не имеем наблюдений вблизи X=0. 2.При отсутствии наблюдений на каком-либо участке оцененная зависимость не может быть данном месте достоверной.

29 t-статистики для проверки значимости коэффициентов регрессии t-статистика соизмеряет значение коэффициента с его стандартной ошибкой:

30 t-статистики для проверки значимости коэффициентов регрессии t-статистики в парной регрессии по n наблюдениям при справедливости гипотезы H 0 имеют распределение Стьюдента с числом степеней свободы l = n – 2

31 Порядок работы при проверке значимости коэффициента по t-статистике 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы (n 2). 3. По таблицам распределения Стьюдента определяем критическое значение t /2; n-2 (двухсторонний критерий) или t ; n-2 (односторонний критерий). 4. Если модуль t-статистики больше критического значения, то коэффициент является значимым на уровне значимости. 5. В противном случае коэффициент не значим (на данном уровне ).

32 Использование односторонних гипотез для проверки значимости коэффициентов Использование односторонних гипотез иногда позволяет «спасти» значимость коэффициентов регрессии при том же уровне значимости Это требует обязательного экономического обоснования

33 Пример (A). Проверка значимости Критическое значение при уровне значимости = 0,05:

34 Пример (A). Проверка значимости Поэтому нулевая гипотеза H 0 : { 1 = 0} отвергается в пользу альтернативной при выбранном уровне значимости. Следовательно, коэффициент регрессии b 1 статистически значим Аналогично проверяем статистическую значимость коэффициента b 0

35 Пример (A). Проверка значимости Гипотеза о статистической незначимости b 0 не отклоняется. Это означает, что свободным членом уравнения регрессии можно пренебречь, рассматривая регрессию как Y = b 1 X

36 Правило оценки значимости коэффициентов регрессии без использования таблиц 1. Если, то коэффициент b i не м.б. признан значимым, т.к. доверительная вероятность менее 0,7. 2. Если, то найденная оценка может рассматриваться как относительно (слабо) значимая. При этом доверительная вероятность лежит между 0,7 и 0, Если, то коэффициент значим. Доверительная вероятность лежит между значениями 0,95 и 0, Если, то это почти полная гарантия значимости коэффициента.

37 Интервальные оценки коэффициентов линейного уравнения регрессии Построение доверительных интервалов для коэффициентов линейной регрессии при заданном уровне значимости : для 0 : для 1 : Доверительные интервалы с надежностью (1 ) накрывают истинные значения 0 и 1

38 Порядок работы при проверке значимости коэффициента по доверительному интервалу 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы (n 2). 3. По таблицам распределения Стьюдента определяем критическое значение t /2; n-2 (двухсторонний критерий). 4. Вычисляем границы доверительного интервала. 5. Если точка 0 (ноль) не лежит внутри доверительного интервала, то коэффициент является значимым на уровне значимости. 6. В противном случае коэффициент не значим (на данном уровне ).

39 Доверительные области для зависимой переменной Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможны два варианта: 1. Предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения). 2. Предсказать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

40 Предсказание среднего значения зависимой переменной Пусть построено уравнение регрессии На его основе необходимо предсказать условное м. о. переменной Y при X = x p. Вопрос: Как сильно может уклониться значение от

41 Предсказание среднего значения зависимой переменной Доверительная область для условного м. о. M[Y/X = x p ]: При она минимальна, а по мере удаления x p от величина доверительной области увеличивается

42 Предсказание индивидуальных значений зависимой переменной Построенная доверительная область для M x [Y] определяет местоположение модельной линии регрессии (условного м.о.), а не отдельных возможных значений зависимой переменной, которые отклоняются от среднего. Оценка дисперсии индивидуальных значений при x = x p равна

43 Предсказание индивидуальных значений зависимой переменной Доверительная область для прогнозов индивидуальных значений имеет вид: Доверительная область для индивидуальных значений шире доверительной области для условного м.о.

44 Графики доверительных областей для зависимой переменной

45 Выводы по доверительным областям для зависимой переменной 1. Прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x объясняющей переменной X не выходит за диапазон ее значений по выборке. Причем, чем ближе x p к тем точнее прогноз (уже доверительный интервал). 2. Использование линии регрессии вне обследованного диапазона значений объясняющей переменной (даже если оно оправдано, исходя из смысла решаемой задачи) может привести к значительным погрешностям.

46 Пример (А). Доверительные области для зависимой переменной 1. Рассчитаем 95%-й доверительный интервал для условного м.о. при x p = 160. Границы интервала равны: Отсюда среднее потребление при доходе 160 д.е. с вероятностью 95% будет находиться в интервале:

47 Пример (А). Доверительные области для зависимой переменной 2. Границы 95%-го доверительного интервала для индивидуальных объемов потребления равны: Отсюда интервал, в котором будут находиться, по крайней мере 95% индивидуальных объемов потребления при доходе x p = 160, равен:

48 Показатели качества уравнения регрессии в целом Суть проверки общего качества уравнения регрессии – оценить насколько хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Основные показатели качества: 1. Коэффициент детерминации R Значение F-статистики. 3. Коэффициент корреляции r xy. 4. Сумма квадратов остатков (RSS). 5. Стандартная ошибка регрессии S e. 6. Средняя ошибка аппроксимации.

49 Коэффициент детерминации R 2 Коэффициент R 2 показывает долю объясненной вариации зависимой переменной: Используется для предварительной оценки качества модели и как основа для расчета других показателей Коэффициенты R 2 в разных моделях с разным числом наблюдений (и переменных) несравнимы

50 Основные свойства коэффициента детерминации 1. 0 R Чем ближе R 2 к 1, тем лучше регрессия аппроксимирует статистические данные, тем теснее линейная связь между зависимой и объясняющими переменными. 3. Если R 2 = 1, то статистические данные лежат на линии регрессии, т.е. между зависимой и объясняющими переменными имеется функциональная зависимость. Если R 2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных. 4. В случае парной регрессии R 2 = r xy 2.

51 Пример (А). Расчет коэффициента детерминации

52 F-тест на качество оценивания уравнения регрессии Основан на основном тождестве дисперсионного анализа TSS – общая сумма квадратов отклонений ESS – объясненная сумма квадратов отклонений RSS – необъясненная сумма квадратов отклонений

53 F-статистика для проверки качества уравнения регрессии F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы) n – число выборочных наблюдений, m – число объясняющих переменных

54 F-статистика для проверки качества уравнения регрессии При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными F-статистика имеет F- распределение Фишера-Снедекора со степенями свободы k 1 = m, k 2 = n – m –1. Уравнение регрессии значимо на уровне, если где – табличное значение F-распределения, определенное на уровне значимости при степенях свободы k 1 и k 2

55 F-статистика для проверки качества парного уравнения регрессии В парной (m = 1) регрессии F-статистика является отношением объясненной суммы квадратов к остаточной сумме квадратов (в расчете на одну степень свободы), причем m = 1, n – m –1 = n – 2. F-статистика в парной регрессии по n наблюдениям имеет F-распределение с 1 и (n–2) степенями свободы

56 Порядок работы при проверке значимости парного уравнения по F-статистике 1. Выбираем уровень значимости (1% или 5%). 2. Вычисляем число степеней свободы 1 и (n 2). 3. По таблицам F-распределения определяем критическое значение F ; 1; n-2 (всегда одностороннее). 4. Если F-статистика больше F ; 1; n-2, то уравнение в целом является значимым на уровне значимости. 5. В противном случае уравнение в целом не значимо (на данном уровне ).

57 Связь между значимостью коэффициента регрессии и уравнения в целом В парной регрессии F-статистика равна квадрату t-статистики; то же верно и для их критических уровней (односторонний для t-статистики) В парной регрессии значимость коэффициента регрессии и значимость уравнения в целом эквивалентны F-статистики в разных моделях с разным числом наблюдений и (или) переменных несравнимы

58 Коэффициент корреляции r xy Коэффициент корреляции указывает на наличие (или отсутствие) линейной связи между зависимой и объясняющей переменными Для проверки гипотезы об отсутствии линейной связи используется тот факт, что величина имеет распределение Стьюдента с (n–2) степенями свободы

59 Взаимосвязь критериев в парном регрессионном анализе Коэффициент корреляции по абсолютной величине совпадает с квадратным корнем из коэффициента детерминации t-статистики для коэффициента корреляции и коэффициента регрессии b 1 совпадают Проверка значимости коэффициента регрессии эквивалентна проверке наличия линейной связи

60 Проверка значимости коэффициента детерминации Критическое значение R 2 связано с критическим значением F-статистики Проверка значимости коэффициента детерминации эквивалентна проверке значимости уравнения регрессии в целом

61 Сумма квадратов остатков RSS Является оценкой необъясненной части вариации зависимой переменной Используется как основная минимизируемая величина в МНК, а также для расчета других показателей Значения RSS в разных моделях с разным числом наблюдений и (или) переменных несравнимы

62 Стандартная ошибка регрессии S e Является оценкой величины квадрата ошибки, приходящейся на одну степень свободы модели Используется как основная величина для измерения качества модели (чем она меньше, тем лучше) Значения S e в однотипных моделях с разным числом наблюдений и (или) переменных сравнимы

63 Средняя ошибка аппроксимации A Оценку качества модели дает также средняя ошибка аппроксимации – среднее отклонение расчетных значений зависимой переменной от фактических значений y i Допустимый предел значений A – не более 10%. Чем меньше значение A, тем лучше Значения A в моделях с разным числом наблюдений и одинаковым количеством переменных сравнимы

64 Типичные ошибки в использовании показателей качества регрессии Величина коэффициентов регрессии не указывает на силу связи или силу влияния на зависимую переменную Значимость коэффициентов по t-тестам не позволяет сделать вывод о справедливости тех или иных теорий t-статистики не указывают на относительную важность коэффициентов регрессии t-статистики предназначены для использования исключительно для выборки и бесполезны для анализа всей совокупности Нельзя сравнивать t-статистики, F-статистики, коэффициенты детерминации и др. у разных уравнений

65 Ограниченность простой регрессии 1. Никакая единственная переменная за редкими исключениями не в состоянии хорошо «объяснить» изменения зависимой переменной. 2. Могут существовать несколько одинаково хороших и взаимно противоречивых регрессий. 3. Наконец, линейная форма примитивна. И тем не менее: Нет ничего лучше по простоте и ясности объяснения парной линейной связи. При равной объясняющей способности из двух моделей мы всегда выбираем более простую.

66 Конец лекции