Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается.

Презентация:



Advertisements
Похожие презентации
Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Общая теория статистики Регрессионно- корреляционный анализ.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
В задачу регрессионного анализа входит исследование остаточных величин. Исследование остаточных величин.
Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
«Линейная регрессия и корреляция: смысл и оценка параметров»
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Транксрипт:

Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается корреляционным отношением изменяется от 0 до 1 и характеризует долю дисперсии, «объяснённую» регрессионной функцией в общей дисперсии. Для нелинейной регрессии используются различные функции: синусоида, показательная, гиперболическая

Выбор порядка полинома при аппроксимации нелинейной зависимости. Критерием выбора наилучшего порядка полинома является дисперсия отклонений фактических значений от теоретических - количество наблюдений - количество коэффициентов в уравнении регрессии

Многомерная статистическая модель. Многомерная статистическая модель состоит из совокупности множества сопряженных случайных величин (называемых многомерными случайными векторами) и выражается матрицей свойств размером k n: (n – число наблюдений; k – число свойств). В основе многомерной статистической модели лежит гипотеза о том, что измеренные значения являются независимыми случайными величинами (векторами), т.е. строки матрицы можно располагать в любом порядке. Между столбцами матрицы связь может присутствовать. Многомерная случайная величина изображается точкой в многомерном признаковом пространстве.

Обобщением ковариации двух величин: является матрица дисперсий и ковариаций: Обобщением корреляции двух величин: является матрица корреляаций:

В многомерной модели существуют частные и множественные коэффициенты корреляции Частные коэффициенты корреляции: где - частный коэффициент корреляции между случайными величинами x и y при контроле случайной величины z - коэффициенты линейной корреляции Пирсона между случайными величинами x и у, x и z, y и z. Частные коэффициент корреляции позволяют исключить влияние на корреляцию между двумя величинами третьей величины (или множества других величин) в многомерногной модели. Частные коэффициенты корреляции могут оказаться полезными для выявления ложных связей (наведённых корреляций).

матрица парных коэффициентов линейной корреляции Пирсона Корреляция между Ag и Zn возможно является наведённой корреляцией между Pb и Zn частный коэффициент корреляции между Ag и Zn после исключения влияния Pb Частные коэффициенты корреляции

Матрица парных коэффициентов линейной корреляции Пирсона Частные корреляции Корреляции Pb-Cd, Ag-Cd, Ag-Zn возможно являются ложными. Частные коэффициенты корреляции

Множественная линейная регрессия. Коэффициент множественной корреляции. Модель множественной регрессии: Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами, предикторами, факторами) и зависимой переменной (откликом). зависимая переменная свободный член коэффициенты регрессии независимые переменные ошибка количество независимых переменных.

Множественная регрессия позволяет более точно прогнозировать зависимую переменную: корреляционное отношение дисперсия ошибки простая линейная регрессиямножественная линейная регрессия

Кроме того, множественная регрессия даёт возможность оценить относительный вклад каждой независимой переменной (каждого предиктора) в предсказание зависимой переменной:

Коэффициенты регрессии b i называются частными коэффициентами регрессии. Они показывают, насколько изменяется независимая переменная y при увеличении соответствующего фактора x i на единицу шкалы его измерения при фиксированных (постоянных) значениях других факторов, входящих в уравнение регрессии: 65, ,6503 = 7,2864

Коэффициенты регрессии b i непосредственно не сопоставимы между собой, так как зависят от единиц измерения факторов x i. Чтобы сделать эти коэффициенты сопоставимыми, вычисляют стандартные коэффициенты регрессии (Бета-коэффициенты): – стандартный коэффициент регрессии переменной – частный коэффициент регрессии переменной - оценка стандартного отклонения переменной - оценка стандартного отклонения зависимой переменной Частные коэффициенты регрессии используются для расчёта величины зависимой переменной (для предсказания её значения при заданных значениях независимых переменных xi). Стандартизированные коэффициенты регресси позволяют оценить относительный вклад (влияние) каждой независимой переменной на зависимую переменную. Если исходные данные стандартизировать, то частные коэффициенты регрессии будут равны стандартным. Наибольшее вклад вносит Pb, затем Zn. Вклад Cd несущественный.

Источник изменчивостиСумма квадратов Число степеней cвободы (df) Средние квадраты (дисперсии) F-критерий РегрессияmMS r =SS r /df r MS r /MS d Отклонение (ошибка)n-m-2MS d =SS d /df d Общая дисперсияn-1 Схема дисперсионного анализа для оценки значимости регрессии. Проверка адекватности модели множественной регрессии. - i-oe значение зависимой переменной, расчитанное по уравнению регрессии - измеренное (наблюдаемое) значение i-oй переменной - среднее значение зависимой переменной - количество независимых переменных - количество наблюдений (объём выборки) Значимостть (адекватность) полученного соотношения считается установленой, если расчитанное значение F-критерия превысит критическое при заданном уровне значимости и степенях свободы числителя m и знаменателя n-m-1. Адекватность моделипроверяется с помощью дисперсионного анализа:

Величина называется коэффициентом детерминации. Коэффициент детерминации характеризует ту долю изменчивостивости зависимой переменной, которую «объясняет» регрессия. может принимать значения от 0 (полное отсутствие связи) до 1 (функциональная зависимость). Чем больше значение коэффициента детерминации, тем надёжнее оценки зависимой переменной. Величина называется множественным коэффициентом корреляции. Проверка адекватности модели множественной регрессии.

Оценка значимости коэффициентов регрессии осуществляется с помощью t- критерия Стьюдента: - оценка дисперсии коэффициента регрессии: оценка дисперсии зависимой переменной оценка дисперсии i-ой независимой переменной количество наблюдений коэффициент детерминации Параметр модели регрессии признается статистически значимым, если рассчитанное значение t превысит критическое при заданном уровне значимости α и числе степеней свободы k = n-m-1 (n- объём выборки, m – количество независимых переменных), т.е при выполнении неравенства: Проверка адекватности модели множественной регрессии.

В рассматриваемом примере коэффициент при Cd незначим.

Предположения и ограничения множественной регрессии. Предполагается, что связь между переменными является линейной. На практике это предположение никогда не может быть подтверждено; Процедуры множественного регрессионного анализа в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов. Предположение линейности. Cd Pb Zn Ag

В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально. Хотя большинство тестов (в особенности F-тест) довольно устойчивы по отношению к отклонениям от этого предположения, прежде чем сделать окончательные выводы, стоит рассмотреть гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения. Предположение нормальности. Предположения и ограничения множественной регрессии.

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются. Ограничения множественной регрессии.

Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование. Выбор числа переменных. Проблема размерности модели связи (уравнения регрессии) - одна из основных проблем построения множественного уравнения регрессии. Она решается на основе эвристических или многомерных статистических методов анализа. К ним относятся: метод экспертных оценок, шаговая регрессия, анализ на мультиколлинеарность.

Шаговый регрессионный анализ. позволяет выбрать наиболее информативные предикторы. Существуют 2 схемы шаговой множественной регрессии: Пошаговая с включением: первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду негативные последствия мулътиколлинеарности. Пошаговая с исключением:

Под мультиколлинеарностью понимается высокая корреляция между зависимыми переменными, включенными в модель. Мультиколлинеарность. Наличие мультиколлинеарности между признаками приводит к: завышению параметров модели снижению точности оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими); невозможности оценить статистическую значимость коэффициентов регрессии с помощью t –критерия и, как следствие, некорректное введение в анализ тех или иных переменных; резкому возрастанию чувствительности коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi

В решении проблемы мультиколлинеарности можно выделить несколько этапов: - установление наличия мультиколлинеарности; - определение причин возникновения мультиколлинеарности; - устранение мультиколлинеарности. Индикатором возникновения мультиколлинеарности между независимыми признаками (предикторами) является превышение парным коэффициентом корреляции величины 0.8. В модуле множественной регрессии пакета STATISTICA имеется возможность оценить независимые переменные на мультиколлинеарность: Толерантность = 1 – R 2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 0 указывает на мультиколлинеарность. R-квадр. = R 2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 1 указывает на мультиколлинеарность. Частная корр. – коэффициент частной корреляции между соответствующей переменной и зависимой переменной после учета влияния всех остальных независимых переменных в уравнении. Получастная корр. – доля дисперсии, объясняемая соответствующей переменной в общей дисперсии зависимой переменной Y.

В качестве метода борьбы с мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции. Существует несколько численных методов расчета параметра, но чаще используют простой эмпирический подход: выбирают такой параметр λ, при котором коэффициенты стабилизируются и при дальнейшем увеличении параметра изменяются мало. Значение принятого параметра λ является мерой смещения оценок от истинного значения, поэтому стараются не придавать λ слишком больших значений. Обычно λ выбирают меньше 0,5, а шаг при подборе выбирают небольшим, например, 0,02.

При проверке адекватности уравнения регрессии исследуемому процессу возможны следующие варианты: 1. Построенная модель на основе ее проверки по критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению прогнозов. 2. Модель по критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для прогнозов. 3. Модель по критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Модель в этом случае отвергается. На ее основе никаких решений принимать нельзя. Оценка существенности связи - наблюдаемое значение - предсказанное значение Если средняя ошибка аппроксимации A не превышает %, то уравнение построено верно.

Отрицательным свойством уравнений регрессии является то, что хорошо аппроксимируются только те значения результативного признака, которые стоят в середине вариационного ряда индивидуальных значений. Ошибка аппросимации не превышает 1 - 2%; Ошибка аппроксимации на концах исходного ряда может достигать 50%;