АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.

Презентация:



Advertisements
Похожие презентации
Общая теория статистики Регрессионно- корреляционный анализ.
Advertisements

«Линейная регрессия и корреляция: смысл и оценка параметров»
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Проверка качества спецификации модели. Качество спецификации модели Под качеством спецификации модели понимается: - качество выбора функции уравнения.
Парная линейная корреляция. Метод наименьших квадратов Задача: найти оценки параметров a и b такие, что остаток в i-ом наблюдении (отклонение наблюдаемого.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Случайные и систематические погрешности при измерениях и расчетах.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Основы статистических методов обработки медико-биологических данных.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
Свойства коэффициентов регрессии и проверка гипотез.
ПАРНАЯ РЕГРЕССИЯ. Экономические данные - количественные характеристики каких- либо экономических объектов или процессов. Экономические данные (фактор.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Решение задач с помощью ППП EXCEL Функция ЛИНЕЙН. (вставка функция статистические линейн) Используется для парной регрессии 1. Выделить область пустых.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
Транксрипт:

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ

Слайд 1 Виды связи величин Функциональная корреляционная Функциональная зависимость означает детерминированную связь между величинами и может быть представлена математическим соотношением Y=f(x) Корреляционная зависимость означает стохастическую (случайную) связь между величинами и в общем случае выражается ковариацией или коэффициентом корреляции.

Слайд 2 Анализ отношений Для всякого значения X i, независимой случайной величины Х можно поставить в соответствие различные значения y i1, y i2… зависимой случайной величины Y. Простейшим средством анализа отношений между массивами данных является диаграмма рассеивания (разброса). Запись зависимости Y= ( X 1, X 2,..,X m) + U (1) U - случайное воздействие, для которого невозможно установить форму связи с Y, но по сравнению с величинами X 1, X 2,..,X m его влияние на величину Y незначительно. Функциональная зависимость

Слайд 3 Регрессия - УРАВНЕНИЕ РЕГРЕССИИ- выражение зависимой переменной в виде функции от независимых на основании экспериментальных данных - оценка эмпирических (полученных в результате наблюдений) значений случайной зависимой величины Y ; X 1, X 2,..,X m - факторы или эмпирические случайные входные независимые воздействия m - Количество факторов. Поиском вида и параметров уравнения регрессии с помощью метода наименьших квадратов, а также исследованием его свойств с целью дальнейшего использования для прогноза занимается регрессионный анализ.

Слайд 4 простая (парная) регрессия - это уравнение связи между одной независимой и одной зависимой переменными Виды регрессии множественная регрессия - это уравнение связи между несколькими независимыми и одной зависимой переменными

Слайд 5 Линейная x 2 = x 1 + Квадратичная Экспоненциальная Y=c 0 e cx x 2 =c 0 e cx y=c 0 +c 1 x+c 2 x 2 x 2 =c 0 +c 1 x 1 +c 2 (x 1 ) 2 Виды уравнений регрессии

В предположении линейной зависимости случайных величин уравнение регрессии (X 1 =kx 2 +b, b=a 0 ;k=a 1 ) Линейная регрессия Слайд 6 x 1 =a 0 +a 1 x 2 Каждая из величин (x 1 и x 2 ) может быть охарактеризована с помощью показателей центральной тенденции и рассеяния, каждая имеет свою функцию плотности распределения, но так как эти величины взаимосвязаны, то с вероятностной точки зрения можно найти двумерную функцию плотности распределения f(x 1,x 2 ), характеризующую их поведение. Математическое ожидание f(x 1,x 2 ), определяющее вероятность того, что величина x 2 с определенной вероятностью принимает то или иное значение при условии, что величина x 1 имеет заданное значение: m(x 2 /x 1 )- это и есть регрессия x 2 на x 1

m(x 2 /x 1 )= x 2 + простая регрессия m(x 2 /x 1, x 3, x 4.. )= i x i + множественная регрессия Слайд 7 Характеристики стохастической взаимосвязи Общая дисперсия Общая дисперсия для простой регрессии Факторная дисперсия переменной Y (x 2 ) отображает влияние факторов x 1 x 3…... x m Факторная дисперсия для простой регрессии Остаточная дисперсия для простой регрессии Остаточная дисперсия отображает отклонение регрессии У от эмпирических данных Y(Х 2 ) из-за присутствия факторов U. (x 2 =a 0 +a 1 x 1 )

Слайд 8 Подтверждение гипотезы Коэффициент детерминации - характеризует меру степени взаимосвязи между переменными Y и X1,X2,..,Xm (Соотношение между факторной и общей дисперсиями) R -Коэффициент множественной корреляции ( коэффициент Пирсона) F -критерий Фишера Определить по таблицам критическое значение F k. Таблицы приведены для разных уровней значимости степеней свободы v 1 и v 2 v 1 =m – число независимых переменных V 2 =n-(m+1), n – количество наборов эмпирических данных (размерность выборки) Если F r > F k, то полученное в результате расчетов значение коэффициента детерминации правомерно и можно предлагаемую модель использовать для прогноза

Слайд 8 Оценка степени связи Качественная оценка степени связи случайных переменных может быть выявлена на основе шкалы Чеддока для коэффициента детерминации: При значениях коэффициента детерминации более 0,7 модели признаются пригодными для практического использования в целях прогнозирования (вариации зависимой переменной, в основном, обусловлены влиянием факторов)

Получение параметров регрессии в ППП EXCEL Слайд 9 Команды: СЕРВИС - Анализ данных; затем выбирается режим Регрессия входной интервал Y- интервал зависимых данных, подлежащих анализу. (Зависимые данные должны быть в отдельном столбце) входной интервал Х - интервал независимых данных, подлежащих анализу константа ноль - если задать, то линия регрессии проходит через начало координат; уровень надежности - если задать, то в выходной таблице параметров регрессии формируются два дополнительных столбца минимальных и максимальных значений доверительных интервалов соответствующих параметров для заданного уровня надежности, отличного от установленного по умолчанию 95 ; выходной интервал - указывается верхняя левая ячейка интервала, начиная с который выводятся выходные таблицы (не менее семи столбцов для итоговой выходной таблицы).

Вывод Итогов регрессии в ППП EXCEL Слайд 10 TSS=SR+RSS Факторная Остаточная Общая СУММА КВАДРАТОВ ОТКЛОНЕНИЙ n- объем выборки m - число независимых переменных

Дисперсионный анализ в регрессии ППП EXCEL Слайд 11 df- число степеней свободы: Строка «Регрессия» - df= число независимых переменных= v 1 =m Строка «Остаток»- df= V 2 =n-(m+1) SS - сумма квадратов отклонений Строка «Регрессия» Строка «Остаток» Строка «Итого»

Слайд 12 Дисперсионный анализ в регрессии ППП EXCEL MS - дисперсия ( Сумма квадратов отклонений/число степеней свободы) Строка «Регрессия» - факторная дисперсия Строка «Остаток» - остаточная дисперсия F - статистика определяет надежность модели ( является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.) Вычислив степени свободы (df) находят значение Fk в статистической таблице. Если Fr>Fk- модель надежна. F=MS(Регрессия)/MS(Остатки)= Значимость F вычисляется для полученного Fr, а затем вычисляется достоверность гипотезы о соответствии исходных данных и математической модели p=1-знач.F Значимость F

Слайд 13 Параметры модели в регрессии ППП EXCEL Коэффициенты ( для модели регрессии y=kx 1 +b или x 2 =a 0 +a 1 x 1 ) Y-пересечение - значения свободного члена для модели регрессии а 0 =b; значение Y(Х 2 ) при Х 1 =0 Переменная X 1 ( при включении «Метки» - это название случайной величины ) значение X 1 при Y(X 2 ) равном 0 Стандартная ошибка среднее квадратическое значение j ошибки параметров регрессии; t-статистика для каждого параметра регрессии рассчитывается как Коэффициент/Стандартная ошибка P-значение Вероятность для t-статистики ОПРЕДЕЛЕНИЕ ПРАВИЛЬНОСТИ КАЖДОГО ПАРАМЕТРА: