Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемМаксим Капустин
1 Двумерная статистическая модель
2 Двумерная статистическая модель – это система из n однородных геологических объектов, у каждого из которых измерены характеристики двух свойств ( {x 1, x 2, x 3 … x n } {y 1, y 2, y 3 … y n } ) Значения х 1, х 2, …, х n, и у 1, у 2, …, у n носят случайный характер. Значения первого свойства х 1, х 2, …, х n не зависят между собой, значения второго свойства у 1, у 2, …, у n также не зависят между собой (но могут существовать зависимости между свойствами х и у). Y X Между двумя случайными величинами проявляются вероятностные (стохастические) связи, когда заданному значению величины X = x соответствует не определённое значение величины Y, а некоторый набор значений y 1, y 2, y 3, … y n, каждое из которых характеризуется своей вероятностью. Функция распределения набора значений y 1, y 2, y 3, … y n, соответствующая значению Х = х, характеризуется математическим ожиданием и дисперсией, которые называются условным математическим ожиданием и условной дисперсией.
3 X Y Аналогично, каждому заданному значению величины Y = y соответствует некоторый набор значений x 1, x 2, x 3, … x n со своим условным математическим ожиданием и своей условной дисперсией.
4 Геометрическое место точек, соответствующих условным математическим ожиданиям Y (линия, соединяющая эти точки) называется линией регрессии Y на X. Соответственно геометрическое место точек, соответствующих условным математическим ожиданиям Х называется линией регрессии X на Y Y X Если линии регрессии прямые, то регрессия двух величин называется линейной регрессией, если кривые – нелинейной регрессией. линия регрессии X на Y
5 Y X В прямоугольной системе координат линии регрессии могут быть заданы аналитически. для линейной регрессии Y на Х: - начальное значение (при х=0) - угловой коэффициент (тангенс - угла наклона линии регрессии к оси Х) для линейной регрессии X на Y: - начальное значение (при y=0) - угловой коэффициент (тангенс - угла наклона линии регрессии к оси Y) Для линейной регрессии:
6 Y X Прямые регрессии пересекаются в точке, координаты которой равны μ x и μ y – математическим ожиданиям случайных величин X и Y. Угол изменяется от 0 до 90º. Чем меньше величина, тем сильнее связь между величинами X и Y. Если =0, связь между X и Y становится функциональной.
7 Уравнения нелинейной регрессии зависят от вида кривой. Например, для кубического полинома : Y= X+0.026X X 3 Y X
8 Основными числовыми характеристиками двумерного распределения случайных величин являются показатели их связи: ковариация (корреляционный момент), коэффициент корреляции и корреляционное отношение. Ковариация cov(x;y) = M[(x-Mx)(y-My)] представляет собой математическое ожидание произведения отклонений двух случайных величин (x и y) от их математических ожиданий (Mx,My). Чем больше ковариация, тем сильнее линейная связь между переменными. Оценка ковариации по выборке:
9 Коэффициент корреляции - ковариация - стандартные отклонения генеральных совокупностей Оценка по выборке: - стандартные отклонения генеральных совокупностей Коэффициент корреляции (полное название – коэффициент линейной корреляции Пирсона) характеризует силу линейной связи между двумя признаками. Если оба уравнения регрессии линейные (вида y = a 1 + b 1 x и x = a 2 + b 2 y), то коэффициент корреляции.
10 Коэффициент корреляции изменяется от -1 до +1 r = -1 r = P= r = P= r = P=0.022 r = 0.09 P=0.67 r = 0.25 P= r = 0.54 P= r = 0.76 P= r = 1
11 Значимость выборочного коэффициента корреляции оценивается t-статистикой: где r – выборочный коэффициент корреляции; n – объём выборки. Когда математическое ожидание выборочного коэффициента корреляции = 0 (т.е. линейная связь между переменными полностью отсутствует), величина t распределена по закону Стьюдента с n-2 степенями свободы (нулевая гипотеза H 0 : r = 0) или критерием, предложенным Фишером где При большом объёме выборки (>40) значимый коэффициент корреляции можно рассчитать по формуле, приняв t =3
12 t расч. t 0.05 n t расч. t 0.05 n Пример оценки значимости коэффициента корреляции r = 0,5: при n = 10при n = 20
13 На величину коэффициента вариации сильное влияние оказывают выбросы и неоднородность выборки ВЫБРОСЫ r = 0.19 p=0.19 r = 0.62 p=0.0000
14 Обнаружить выбросы можно построением матричного графика после удаления выбросов
15 R = 0.77 P= R = P= R = P= Неоднородность выборки
16 Ранговый коэффициент корреляции. Если распределение случайных величин существенно отличается от нормального и его не удаётся преобразовать к нормальному или объём выборки слишком мал, следует использовать непараметрический аналог – ранговый коэффициент корреляции. Наиболее известный из них ранговый коэффициент корреляции Спирмена. где d i – разность рангов сопряжённых значений изучаемых величин x i и y i ; n – количество пар в выборке. Для проверки значимости рангового коэффициента корреляции Спирмена используется критическое значение r k, которое рассчитывается по формуле - значение обратной функции нормального распределения при заданной вероятности p, n – количество пар в выборке или таблицы критических значений.
17 n p n p n p Критические значения рангового коэффициента корреляции Спирмена
18 Ранговый коэффициент корреляции уступает по мощности параметрическому, но позволяет анализировать выборки малого размера, нечувствителен к выбросам и форме распределения. Коэффициенты корреляции Пирсона Коэффициенты корреляции Спирмена с выбросами без выбросов
19 Ограничения коэффициента ранговой корреляции: 1) по каждой переменной должно быть представлено не менее 5 наблюдений; 2) коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.
20 Коэффициент корреляции (в том числе и ранговый) оценивает степень связи двух случайных величин только в том случае, если эта связь линейная. Если подозревается нелинейность связи (характер связи можно оценить по графику рассеяния), для оценки вместо коэффициента корреляции следует использовать корреляционное отношение. - корреляционное отношение - измеренное значение переменной y для объекта с номером i; - предсказанное значение переменной y для объекта с номером i Корреляционное отношение изменяется в интервале [0; +1] и интерпретируется как доля дисперсии зависимой переменной (y), объясненная различиями в значениях независимой переменной (x). Коэффициент корреляции фиксирует только формальную связь между признаками, но не причинно-следственную.
21 Регрессионный анализ. Если для двух величин на основании представительной выборки доказано наличие корреляционной связи, определён её вид и подобрано описывающее его уравнение, то создаётся возможность прогноза одной из случайных величин по значениям другой. Одна переменная (X) рассматривается, как независимая, а вторая (Y) – как зависимая от первой и имеющая нормальное распределение с математическим ожиданием и дисперсией, не зависящими от X. Регрессионная модель имеет следующий вид: В линейной регрессионной модели а сама модель имеет следующий вид Линейная регрессионная модель
22 Уравнение линейной регрессии Y на X можно рассчитать по формулам: - cтандартные отклонения x и y - коэффициент корреляции Пирсона - средние значения x и y Аналогично для линейной регрессии X на Y:
23 Y X Коэффициенты уравнения регрессии рассчитываются методом наименьших квадратов (МНК) Для уравнения Y на Х минимизируются отклонения по У: Для уравнения X на Y минимизируются отклонения по X: ?
24 Источник изменчивостиСумма квадратов Число степеней cвободы (df) Средние квадраты (дисперсии) F-критерий Линейная регрессия1MS r =SS r /df r MS r /MS d Отклонение (ошибка)n-2MS d =SS d /df d Общая дисперсияn-1 Схема дисперсионного анализа для оценки значимости линейной регрессии. Значимость линейной регрессии проверяется с помощью F-критерия Фишера отношением дисперсии, «объяснённой» регрессией к дисперсии ошибки. Y X Вычисления: для каждого наблюдения рассчитывается значение по уравнению вычисляется ошибка по формуле рассчитываются суммы квадратов: ошибки общая регрессии определяются степени свободы рассчитываются дисперсии регрессии и ошибки
25 Источник изменчивостиСумма квадратов Число степеней cвободы (df) Средние квадраты (дисперсии) F-критерий Линейная регрессия1MS r =SS r /df r MS r /MS d Отклонение (ошибка)n-2MS d =SS d /df d Общая дисперсияn-1 0,05 График плотности вероятности F-распределения Число степеней свободы числителя Число степеней свободы знаменателя Пример таблицы критических значений F-критерия для уровня значимости 0.05 H 0 : линейная регрессия незначима (регрессия нелинейна) (дисперсия регрессии не выходит за пределы ошибки) H 0 отвергается, если рассчитанное отношение дисперсии регрессии к дисперсии ошибки превысит критическое при данных степенях свободы и выбранном уровне значимости. Значимость линейной регрессии
26 Значимость коэффициентов линейной регрессии Помимо значимости регрессии проверяется значимость (отличие от 0) коэффициентов регрессии: количество степеней свободы t-критерия n-2 Н 0 : a=0 Н 0 : b=0
27 Пример применения регрессионного анализа. Исходные данные Задача: определить возможность оценки содержания Cd по содержанию Zn или Pd Рассчитываем матрицу парных корреляций Выбираем наибольший Проверяем выборку на однородность и отсутствие выбросов.
28 запускаем процедуру множественной регрессии получаем сводку результатов анализа: коэффициент корреляции коэффициент детерминации для линейной связи 2-х переменных равен коэффициенту корреляции Пирсона характеризует долю дисперссии, «объяснённую» регрессией
29 скорректированный коэффициент корреляции: стандартная ошибка оценки (стандартное отклонение остатков): рассчитанное значение F-критерия: степени свободы числителя и знаменателя F-критерия: предельный уровень значимости (вероятность того, что линейной регрессии нет)
30 свободный член – коэффициент a в уравнении y = a + bx стандартная ошибка свободного члена t-статистика (степени свободы) и соответствующая ей вероятность для проверки гипотезы о равенстве нулю свободного члена a в уравнении регрессии Бета коэффициент Бета-коэффициенты являются коэффициентами, которые были бы получены, если бы мы заранее стандартизовали все переменные, т.е. сделали их среднее равным 0, а стандартное отклонение равным 1. Одно из преимуществ бета-коэффициентов (по сравнению с в-коэффициентами) заключается в том, что бета-коэффициенты позволяют сравнить относительные вклады каждой независимой переменной в предсказание зависимой переменной. Т.к. у нас одна зависимая переменная, Бета-коэффициент равен коэффициенту корреляции.
31 Коэффициенты уравнения линейной регрессии: стандартные ошибки коэффициентов (позволяют дать интервальную оценку) t-статистика (степени свободы) и соответствующая ей вероятность для проверки гипотезы о равенстве нулю коэффициентов уравнения регрессии
32 + Источник изменчивостиСумма квадратов Число степеней cвободы (df) Средние квадраты (дисперсии) F-критерий Линейная регрессия1MS r =SS r /df r MS r /MS d Отклонение (ошибка)n-2MS d =SS d /df d Общая дисперсияn-1
33 Оценка качества модели. О качестве модели судят по средней относительной ошибке аппроксимации - наблюдаемое значение - предсказанное значение Считается, что ошибка в 4 – 9 % на контрольной выборке свидетельствует о хорошем качестве построенной модели. Для рассматриваего примера средняя относительная ошибка аппроксимации = 7,54% следовательно, данное уравнение можно использовать в качестве регрессии.
34 Доверительные интервалы для зависимой переменной. Доверительный интервал для зависимой переменной при заданном значении независимой переменной
35 k Вероятность 0,100,050,020,010,0050,0020, ,7172,0742,5082,8193,1193,5053, ,7112,0642,4922,7973,0913,4673, ,7062,0562,4792,7793,0673,4353, ,7012,0482,4672,7633,0473,4083, ,6972,0422,4572,7503,0303,3853, ,6842,0212,4232,7042,9713,3073, ,6762,0092,4032,6782,9373,2613, ,6601,9842,3642,6262,8713,1743,390 1,6451,9602,3262,5762,8073,0903,291 Коэффициенты вероятности t распределения Стьюдента при заданной вероятности и степени свободы k
36 Доверительные интервалы для зависимой переменной. Доверительный интервал для зависимой переменной при заданном значении независимой переменной
38 Предположения и ограничения линейного регрессионного анализа. Линейность связи между переменными На практике это предположение никогда не может быть подтверждено. Всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно попробовать преобразование переменных Однородность выборки Отсутствие выбросов
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.