Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается.

Презентация:



Advertisements
Похожие презентации
Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Общая теория статистики Регрессионно- корреляционный анализ.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
В задачу регрессионного анализа входит исследование остаточных величин. Исследование остаточных величин.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
«Линейная регрессия и корреляция: смысл и оценка параметров»
Проверка качества уравнения регрессии Лекция2 Цели лекции Выполнимость теоретических предпосылок Анализ расчетных статистических показателей качества Интерпретация.
Транксрипт:

Нелинейная регрессия. Коэффициенты ( ) рассчитываются методом наименьших квадратов Чаще всего полиномы низких степеней Степень нелинейной зависимости оценивается корреляционным отношением изменяется от 0 до 1 и характеризует долю дисперсии, «объяснённую» регрессионной функцией в общей дисперсии. Для нелинейной регрессии используются различные функции: синусоида, показательная, гиперболическая

Выбор порядка полинома при аппроксимации нелинейной зависимости. Критерием выбора наилучшего порядка полинома является дисперсия отклонений фактических значений от теоретических - количество наблюдений - количество коэффициентов в уравнении регрессии

Многомерная статистическая модель.

Многомерная статистическая модель состоит из совокупности множества сопряженных случайных величин (называемых многомерными случайными векторами) и выражается матрицей свойств размером k n: (n – число наблюдений; k – число свойств). В основе многомерной статистической модели лежит гипотеза о том, что измеренные значения являются независимыми случайными величинами (векторами), т.е. строки матрицы можно располагать в любом порядке. Между столбцами матрицы связь может присутствовать. Многомерная случайная величина изображается точкой в многомерном признаковом пространстве.

Обобщением ковариации двух величин: является матрица дисперсий и ковариаций: Обобщением корреляции двух величин: является матрица корреляаций:

В многомерной модели существуют частные и множественные коэффициенты корреляции Частные коэффициенты корреляции: где - частный коэффициент корреляции между случайными величинами x и y при контроле случайной величины z - коэффициенты линейной корреляции Пирсона между случайными величинами x и у, x и z, y и z. Частные коэффициент корреляции позволяют исключить влияние на корреляцию между двумя величинами третьей величины (или множества других величин) в многомерногной модели. Частные коэффициенты корреляции могут оказаться полезными для выявления ложных связей (наведённых корреляций). Значимость частного коэффициента корреляции проверяется с помощью t-критерия. В простейшем случае (число степеней свободы = n-3).

матрица парных коэффициентов линейной корреляции Пирсона Корреляция между Ag и Zn возможно является наведённой корреляцией между Pb и Zn частный коэффициент корреляции между Ag и Zn после исключения влияния Pb Частные коэффициенты корреляции Pb Ag Zn 0.45

Матрица парных коэффициентов линейной корреляции Пирсона Частные корреляции Корреляции Pb-Cd, Ag-Cd, Ag-Zn возможно являются ложными. Частные коэффициенты корреляции

Множественная линейная регрессия. Коэффициент множественной корреляции. Модель множественной регрессии: Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами, предикторами, факторами) и зависимой переменной (откликом). зависимая переменная свободный член коэффициенты регрессии независимые переменные ошибка количество независимых переменных.

Множественная регрессия позволяет более точно прогнозировать зависимую переменную: корреляционное отношение дисперсия ошибки простая линейная регрессиямножественная линейная регрессия

Кроме того, множественная регрессия даёт возможность оценить относительный вклад каждой независимой переменной (каждого предиктора) в предсказание зависимой переменной:

Коэффициенты регрессии b i называются частными коэффициентами регрессии. Они показывают, насколько изменяется зависимая переменная y i при увеличении соответствующего фактора x i на единицу шкалы его измерения при фиксированных (постоянных) значениях других факторов, входящих в уравнение регрессии: 65, ,6503 = 7,2864

Коэффициенты регрессии b i непосредственно не сопоставимы между собой, так как зависят от единиц измерения факторов x i. Чтобы сделать эти коэффициенты сопоставимыми, вычисляют стандартные коэффициенты регрессии (Бета-коэффициенты): – стандартный коэффициент регрессии переменной – частный коэффициент регрессии переменной - оценка стандартного отклонения переменной - оценка стандартного отклонения зависимой переменной Частные коэффициенты регрессии используются для расчёта величины зависимой переменной (для предсказания её значения при заданных значениях независимых переменных xi). Стандартизированные коэффициенты регресси позволяют оценить относительный вклад (влияние) каждой независимой переменной на зависимую переменную. Если исходные данные стандартизировать, то частные коэффициенты регрессии будут равны стандартным. Наибольшее вклад вносит Pb, затем Zn. Вклад Cd несущественный.

Источник изменчивости Сумма квадратов Число степеней cвободы (df) Средние квадраты (дисперсии) F-критерий РегрессияmMS r =SS r /df r MS r /MS d Отклонение (ошибка)n-m-2MS d =SS d /df d Общая дисперсияn-1 Схема дисперсионного анализа для оценки значимости регрессии. Проверка адекватности модели множественной регрессии. - i-oe значение зависимой переменной, расчитанное по уравнению регрессии - измеренное (наблюдаемое) значение i-oй переменной - среднее значение зависимой переменной - количество независимых переменных - количество наблюдений (объём выборки) Значимость (адекватность) полученного соотношения считается установленой, если расчитанное значение F-критерия превысит критическое при заданном уровне значимости и степенях свободы числителя m и знаменателя n-m-1. Значимость регрессии проверяется с помощью дисперсионного анализа:

Величина называется коэффициентом детерминации. Коэффициент детерминации характеризует ту долю изменчивостивости зависимой переменной, которую «объясняет» регрессия. может принимать значения от 0 (полное отсутствие связи) до 1 (функциональная зависимость). Чем больше значение коэффициента детерминации, тем надёжнее оценки зависимой переменной. Величина называется множественным коэффициентом корреляции. Проверка адекватности модели множественной регрессии.

Оценка значимости коэффициентов регрессии осуществляется с помощью t- критерия Стьюдента: - оценка дисперсии коэффициента регрессии: оценка дисперсии зависимой переменной оценка дисперсии i-ой независимой переменной количество наблюдений коэффициент детерминации Параметр модели регрессии признается статистически значимым, если рассчитанное значение t превысит критическое при заданном уровне значимости α и числе степеней свободы k = n-m-1 (n- объём выборки, m – количество независимых переменных), т.е при выполнении неравенства: Проверка адекватности модели множественной регрессии.

В рассматриваемом примере коэффициент при Cd незначим.

Предположения и ограничения множественной регрессии. Предполагается, что связь между переменными является линейной. На практике это предположение никогда не может быть подтверждено; Процедуры множественного регрессионного анализа в незначительной степени подвержены воздействию малых отклонений от этого предположения. Однако всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно рассмотреть или преобразования переменных или явно допустить включение нелинейных членов. Предположение линейности. Cd Pb Zn Ag

В множественной регрессии предполагается, что остатки (предсказанные значения минус наблюдаемые) распределены нормально. Хотя большинство тестов (в особенности F-тест) довольно устойчивы по отношению к отклонениям от этого предположения, прежде чем сделать окончательные выводы, стоит рассмотреть гистограммы или нормальные вероятностные графики остатков для визуального анализа их распределения. Предположение нормальности. Предположения и ограничения множественной регрессии.

Основное концептуальное ограничение всех методов регрессионного анализа состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе причинные связи. Например, можно обнаружить сильную положительную связь (корреляцию) между разрушениями, вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем. Следует ли заключить, что пожарные вызывают разрушения? Конечно, наиболее вероятное объяснение этой корреляции состоит в том, что размер пожара (внешняя переменная, которую забыли включить в исследование) оказывает влияние, как на масштаб разрушений, так и на привлечение определенного числа пожарных (т.е. чем больше пожар, тем большее количество пожарных вызывается на его тушение). Хотя этот пример довольно прозрачен, в реальности при исследовании корреляций альтернативные причинные объяснения часто даже не рассматриваются. Ограничения множественной регрессии.

Множественная регрессия - предоставляет пользователю "соблазн" включить в качестве предикторов все переменные, какие только можно, в надежде, что некоторые из них окажутся значимыми. Большинство авторов советуют использовать, по крайней мере, от 10 до 20 наблюдений на одну переменную, в противном случае оценки регрессионной линии будут, вероятно, очень ненадежными и, скорее всего, невоспроизводимыми для желающих повторить это исследование. Выбор числа переменных. Проблема размерности модели связи (уравнения регрессии) - одна из основных проблем построения множественного уравнения регрессии. Она решается на основе эвристических или многомерных статистических методов анализа. К ним относятся: метод экспертных оценок, шаговая регрессия, анализ на мультиколлинеарность.

Шаговый регрессионный анализ. позволяет выбрать наиболее информативные предикторы. Существуют 2 схемы шаговой множественной регрессии: Пошаговая с включением: первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы пошаговой регрессии следует иметь в виду негативные последствия мулътиколлинеарности. Пошаговая с исключением:

Под мультиколлинеарностью понимается высокая корреляция между независимыми переменными (факторами), включенными в модель. Мультиколлинеарность. Наличие мультиколлинеарности между признаками приводит к: завышению параметров модели снижению точности оценок регрессионных коэффициентов (стандартные ошибки коэффициентов получаются слишком большими); невозможности оценить статистическую значимость коэффициентов регрессии с помощью t –критерия и, как следствие, некорректное введение в анализ тех или иных переменных; резкому возрастанию чувствительности коэффициентов регрессии к особенностям исходных данных, так что добавление, например, небольшого числа наблюдений может привести к сильным сдвигам в значениях βi

В решении проблемы мультиколлинеарности можно выделить несколько этапов: - установление наличия мультиколлинеарности; - определение причин возникновения мультиколлинеарности; - устранение мультиколлинеарности. Индикатором возникновения мультиколлинеарности между независимыми признаками (предикторами) является превышение парным коэффициентом корреляции величины 0.8. В модуле множественной регрессии пакета STATISTICA имеется возможность оценить независимые переменные на мультиколлинеарность: Толерантность = 1 – R 2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 0 указывает на мультиколлинеарность. R-квадр. = R 2 соответствующей переменной со всеми остальными переменными, включенными в уравнение. Значение близкое к 1 указывает на мультиколлинеарность. Частная корр. – коэффициент частной корреляции между соответствующей переменной и зависимой переменной после учета влияния всех остальных независимых переменных в уравнении. Получастная корр. – доля дисперсии, объясняемая соответствующей переменной в общей дисперсии зависимой переменной Y.

В качестве метода борьбы с мультиколлинеарностью чаще всего используется гребневая регрессия. Гребневые оценки параметров регрессии хоть и смещены, но имеют лучшие характеристики точности. Суть метода состоит в добавлении к диагонали корреляционной матрицы константы λ (лямбда) после чего матрица пересчитывается вновь, что приводит к искусственному занижению коэффициентов корреляции. Существует несколько численных методов расчета параметра, но чаще используют простой эмпирический подход: выбирают такой параметр λ, при котором коэффициенты стабилизируются и при дальнейшем увеличении параметра изменяются мало. Значение принятого параметра λ является мерой смещения оценок от истинного значения, поэтому стараются не придавать λ слишком больших значений. Обычно λ выбирают меньше 0,5, а шаг при подборе выбирают небольшим, например, 0,02.

При проверке адекватности уравнения регрессии исследуемому процессу возможны следующие варианты: 1. Построенная модель на основе ее проверки по критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений к осуществлению прогнозов. 2. Модель по критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для прогнозов. 3. Модель по критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Модель в этом случае отвергается. На ее основе никаких решений принимать нельзя. Оценка существенности связи - наблюдаемое значение - предсказанное значение Если средняя ошибка аппроксимации A не превышает %, то уравнение построено верно.

Отрицательным свойством уравнений регрессии является то, что хорошо аппроксимируются только те значения результативного признака, которые стоят в середине вариационного ряда индивидуальных значений. Ошибка аппросимации не превышает 1 - 2%; Ошибка аппроксимации на концах исходного ряда может достигать 50%;

Кнопка Анализ остатков запускает процедуру всестороннего анализа остатков регрессионного уравнения (рис. ). Остатки - это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели. Рис.39. Диалоговое окно (Анализ остатков) Вкладка Выбросы (Redundancy) предназначена для поиска выбросов. Выбросы - это остатки, которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные данные, которые являются не типичными по отношению к остальным данным, и требует выяснения причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками измерения или ввода данных. Для выделения имеющихся в регрессионных остатках выбросов предложен ряд показателей: Расстояния Кука (Cook's Distance) - это мера влияния соответствующего наблюдения на уравнение регрессии. Эта величина показывает разницу между вычисленными β-коэффициентами и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии. Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности. Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.

Стандартизированные остатки - это стандартизованные значения остатков, вычисленные как разница между наблюдаемыми значениями и предсказанными, деленная на остаточную среднеквадратичную ошибку. Удаленные остатки - это значения остатков для соответствующих наблюдений, которые были исключены из процедуры регрессионного анализа. Если удаленный остаток значительно отличается от соответствующего стандартизированного значения остатка, то, возможно, это наблюдение является выбросом, поскольку его исключение существенно изменяет уравнение регрессии. Средства борьбы с выбросами. Целью всех описанных статистик является обнаружение выбросов. Напомним, что, особенно при малых N (меньших 100), оценки множественной регрессии (B-коэффициенты) не являются устойчивыми. Другими словами, отдельные экстремальные наблюдения могут оказать значительное влияние на окончательные оценки. Следовательно, желательно всегда просматривать эти статистики (используя эти или описанные далее опции) и повторить полный регрессионный анализ вновь после удаления всех выбросов. Другой альтернативой является проведение анализа данных, используя регрессию, основанную на абсолютных отклонениях, а не на квадратах отклонений, тем самым ослабляется влияние выбросов. Модуль Нелинейного оценивания позволяет провести такого рода анализ.Нелинейного оценивания

Внимательный анализ остатков позволяет оценить адекватность модели. Остатки должны быть нормально распределены, со средним значением равным нулю и постоянной, независимо от величин зависимой и независимой переменных, дисперсией. О нормальности остатков можно судить по графику остатков на нормальной вероятностной бумаге. Чем ближе распределение к нормальному виду, тем лучше значения остатков ложатся на прямую линию. Важно просмотреть графики зависимости остаток от каждой из независимых переменных. Их легко просмотреть при помощи кнопки Остатки и независимые переменные (Resids & indep. var.). Остатки должны быть нормально распределены, т.е. на графике они должны представлять приблизительно горизонтальную полосу одинаковой ширины на всем ее протяжении. Коэффициент корреляции (r) между регрессионными остатками и переменными должен равняться нулю.

Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона. При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин e i,i=1,2,…n.. Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона