Тема 2. Меры связи и их проверка на значимость. Корреляционно-регрессионный анализ как основа экономико-статистического прогнозирования Задачи корреляционного.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Общая теория статистики Регрессионно- корреляционный анализ.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Кафедра «Бухгалтерский учет и аудит» Ослопова М.В. ТЕМА 8. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Лекция по МОП ТЕМА: Измерение связи двух признаков.
Основы статистических методов обработки медико-биологических данных.
Проверка качества спецификации модели. Качество спецификации модели Под качеством спецификации модели понимается: - качество выбора функции уравнения.
Анализ связи между атрибутивными признаками. Взаимосвязь между атрибутивными признаками анализируют­ся посредством таблиц взаимной сопряженности. Они.
Тема Статистическое изучение взаимосвязи социально- экономических явлений.
Основы корреляционного и регрессионного анализа. План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Анализ измерений Классификация методов Наследов А. Д, 2012.
Меры связи для различных типов шкал. Коэффициент линейной корреляции Пирсон.
Исследование взаимосвязей социально- экономических явлений.
Использование прикладного ПО для решения задач по теме «Линейная парная регрессия»
Транксрипт:

Тема 2. Меры связи и их проверка на значимость

Корреляционно-регрессионный анализ как основа экономико-статистического прогнозирования Задачи корреляционного анализа: оценка наличия и определение силы связи между исследуемыми признаками, а также выявление факторов, оказывающих наибольшее влияние на результативный признак Задачи регрессионного анализа: определение формы связи (выбор и построение модели), установление степени влияния факторов на результативный признак и прогнозирование значений зависимой переменной Методы корреляционного и регрессионного анализа тесно связаны между собой Корреляционно-регрессионному анализу должен предшествовать качественный (содержательный) анализ изучаемого явления

Виды переменных (признаков) «Основной» изучаемый признак называют зависимой переменной или результативным признаком (y) Другие, связанные с у, признаки называют независимыми переменными или факторными признаками, или факторами (x1,…,xn)

Виды связей исследуемых признаков функциональные (жестко детерминированные): y i =f(x i ) вероятностные (стохастически детерминированные) связи: ŷ=f(x i )+ Функциональные связи называют также явными, поскольку они связывают показатели, которые получены вычислением по заранее известным формулам и законам При стохастических связях по значениям известных факторов можно установить лишь некоторую «среднюю» тенденцию в значениях зависимой переменной

В зависимости от направления, функциональные и стохастические связи могут быть прямыми и обратными По аналитическому выражению (форме) связи могут быть прямолинейными (линейными) и криволинейными По количеству факторов, действующих на результативный признак, связи классифицируются как однофакторные (простые) и многофакторные

Корреляционная связь Частный случай стохастической связи Корреляционная связь отражает изменение средней величины результативного признака при изменении средних величин факторных признаков, тогда как в общем случае стохастическая связь может проявляться и в изменениях других характеристик изучаемых признаков. Корреляционные связи – это связи соотносительные, а не причинные, т.е. они не обязательно отражают влияние (зависимость) одного фактора на другой Под причинной зависимостью понимается такая связь между явлениями и процессами, когда изменение одного из них является следствием изменения другого Корреляционные методы представляют лишь инструмент для изучения статистической зависимости.

Парная корреляция характеризует связь между двумя признаками (результативным и факторным или двумя факторными) Частная корреляция характеризует связь между признаками при исключении влияния (фиксированном значении) других признаков Множественная корреляция характеризует связь результативного признака и двух или более факторных признаков

положительная корреляция (большие значения одного набора связаны с большими значениями другого) отрицательная корреляция (малые значения одного набора связаны с большими значениями другого) нулевая корреляция (данные двух наборов никак не связаны)

Корреляционное поле (диаграмма распределения)

Задачи корреляционного анализа 1) количественная оценка силы (тесноты) связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи); 2) проверка статистических гипотез о наличии и силе корреляционной связи. !!! Корреляционный анализ должен основываться как на показателях тесноты связи, так и на показателях ее статистической значимости.

Величина (сила) связи и ее значимость (достоверность) представляют две различные характеристики связи. В общем случае, чем сильнее связь, тем более значимой она является Нулевая гипотеза утверждает, что для генеральной совокупности, из которой была извлечена выборка, связь между переменными полностью отсутствует, т.е. значение проверяемого показателя меры связи для генеральной совокупности равно нулю Дальнейшая логика проверки на статистическую значимость аналогична общей последовательности этапов проверки любой статистической гипотезы

Меры связи для переменных в метрических шкалах Коэффициент корреляции Пирсона

Коэффициент корреляции, возведенный в квадрат, называется коэффициентом детерминации и показывает, в какой степени (на сколько процентов) изменчивость одного признака определяется (детерминируется) изменчивостью другого, т.е. насколько процентов результативный признак зависит от анализируемого признака Коэффициент детерминации, в отличие от коэффициента корреляции, отражает связь между признаками линейно, он является аддитивным, т.е. допускается его усреднение для нескольких выборок

Допущения для определения коэффициента корреляции Метрический характер измеряемых данных (данные представлены в интервальной шкале или шкале отношений) Обе переменные подчиняются нормальному закону распределения Зависимость между переменными приблизительно линейна Гомоскедастичность, т.е. однородность дисперсий (дисперсия значений y равномерна для всех значений x). На графике значения y должны быть приблизительно равномерно распределены выше и ниже линии y(x) по всей ее длине (точки на графике должны образовывать достаточно симметричную овал о образную форму без значительных выбросов) Существенные признаки нелинейности или отклонения от гомоскедастичности свидетельствуют о необходимости использовать другую меру связи и другой критерий значимости.

Оценка статистической значимости коэффициента корреляции Критическое значение t-критерия вычисляется с помощью функции Excel СТЬЮДРАСПОБР(α,df) или определяется из таблицы значений t-распределения для выбранного уровня значимости α и числа степеней свободы df=n–2

Коэффициент частной корреляции df=n–3

Определения коэффициента парной корреляции Пирсона в Excel КОРРЕЛ(X,Y) «Сервис», «Анализ данных», «Корреляция»

Определения коэффициента корреляции Пирсона в SPSS Меню Analyze (анализ) - Correlate (корреляция) - Bivariate (парная) Из списка переменных выбираются две переменные (или несколько переменных) для анализа По умолчанию установлены параметры Pearson (расчет коэффициента корреляции Пирсона) и Flag significant correlation (выделение статистически значимых коэффициентов) Результаты расчетов представляются в отчете Correlations в виде таблицы, в которой указываются коэффициенты корреляции для каждой пары выбранных переменных (строка Pearson Correlation), их статистическая значимость (Sig), и число наблюдений, по которому вычисляется коэффициент корреляции (N).

Построить корреляционное поле и проверить предположение о линейности и гомоскедастичности можно с помощью графических инструментов в SPSS, например Graphs – Scatter – Simple (в поля Y Axis и X Axis переносятся анализируемые переменные).

Определения коэффициента корреляции Пирсона в STATISTICA Analysis – Correlation Matrices Переменные для анализа: Variables Раздел Display: Corr Matrix (display p&N) 2D Scatter plot - график «Быстрый вариант» –Analysis – Quick Basic Stats – Correlation Matrices –Переменные для анализа: Variables for analysis

Меры связи для переменных в неметрических шкалах Коэффициент ρ Спирмена интерпретируется аналогично коэффициенту корреляции Пирсона, и может принимать значения в таком же диапазоне (от –1 до +1). Проверка значимости по t-критерию

Коэффициент гамма (γ) основан на проверке различия между вероятностью того, что наблюдаемые данные расположены в том же самом порядке для двух величин (совпадение), и вероятностью того, что они расположены в другом порядке (инверсия). Коэффициент τ Кендалла является обобщением коэффициента гамма на случай возникновения одинаковых рангов (tied ranks) у элементов. Обычно значения коэффициентов Спирмена и Кендалла различаются: –13τ–2ρ1

Для оценки силы связи между двумя переменными в номинативных шкалах используется коэффициент φ (фи). Его вычисление основано на статистике хи-квадрат для таблиц сопряженности 2x2 Значения коэффициента фи изменяются от 0 (нет зависимости между переменными) до 1 (абсолютная зависимость между двумя факторами в таблице) В случае таблиц сопряженности большего размера верхний предел коэффициента фи может превысить 1, тогда интерпретация результатов затрудняется. Поэтому используется более общий показатель - коэффициент V Крамера:

Определения мер связи для переменных в неметрических шкалах в SPSS Меню Analyze – Correlate – Bivariate Указывается пара переменных для расчета и выбирается нужный коэффициент, а также вид проверки на значимость (одно- или двунаправленная) Для расчета частной корреляции выбирается опция Partial.

Определения мер связи для переменных в неметрических шкалах в STATISTICA Модуль Nonparametric Statistics Analysis (Startup Panel) – Correlations (Spearmen, Kendall tau, gamma) Или 2X2 Tables (для расчета коэффициентов фи и Крамера)

Определение коэффициента частной корреляции (SPSS) Меню Analyze, Correlate, Partial Из списка доступных переменных выбираются две переменными, между которыми обнаружена «странная» корреляция. Они переносятся в поле Variables (переменные). Переменную или переменные, с которыми коррелируют оба исследуемых признака, и влияние которой или которых нужно исключить, переносят в поле Controlling for. Результаты представляются в отчете Partial Corr, где указывается коэффициент частной корреляции для пары выбранных переменных без учета влияния одной или нескольких исключенных переменных, а также его статистическая значимость.

Определение коэффициента частной корреляции (STATISTICA) Модуль Multiple Regression Variables: Dependent (результативные переменная, с которой определяется наличие частной корреляции), Independent (остальные переменные, для которых определяется корреляция с результативной переменной) OK В окне Review Descriptive Statistics – OK В окне Multiple Regression Results – Partial Correlation

Пример По выборке из 8 семей необходимо определить, существует ли связь между престижностью работы отца и престижностью работы детей (старших сыновей и дочерей).