Тема 9. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕС- КИХ ЯВЛЕНИЙ 9.1. Виды взаимосвязей между социально- экономическими явлениями 9.2. Методы изучения.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Кафедра «Бухгалтерский учет и аудит» Ослопова М.В. ТЕМА 8. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ.
Общая теория статистики Регрессионно- корреляционный анализ.
Исследование взаимосвязей социально- экономических явлений.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
«Технико-экономический анализ деятельности предприятия» Гиндуллина Тамара Камильевна, к.т.н., доцент кафедры АСУ.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Регрессия в эконометрических исследованиях (продолжение).
СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА СВЯЗИ. Признаки, которыми характеризуются единицы совокупности, могут быть взаимосвязанными. Взаимосвязанные признаки могут.
В задачу регрессионного анализа входит исследование остаточных величин. Исследование остаточных величин.
«Линейная регрессия и корреляция: смысл и оценка параметров»
Основы корреляционного и регрессионного анализа. План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
ПАРНАЯ РЕГРЕССИЯ. Экономические данные - количественные характеристики каких- либо экономических объектов или процессов. Экономические данные (фактор.
Транксрипт:

Тема 9. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ СВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕС- КИХ ЯВЛЕНИЙ 9.1. Виды взаимосвязей между социально- экономическими явлениями 9.2. Методы изучения взаимосвязей социально-экономических явлений 9.3. Парная корреляция

9.1. Виды взаимосвязей между социально-экономическими явлениями Важнейшей задачей теории статистики является исследование объективно существующих связей между социально-экономическими явлениями и процессами. В ходе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет определить признаки, оказывающие влияние на вариацию изучаемых явлений и процессов. Знание характера и силы связей позволяет управлять социально-экономическими процессами и предсказывать их развитие. Особую актуальность это приобретает в условиях развивающейся рыночной экономики.

Статистика располагает множеством методов изучения связей, выбор которых зависит от имеющейся информации и целей исследования. При этом признаки по их значению для изучения взаимосвязи делятся на два класса: факторные и результативные. Факторными называются признаки, обусловливающие изменение других связанных с ними признаков. Результативными называются признаки, изменяющиеся под действием факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению действия, аналитическому выражению связи, качеству факторов. По степени тесноты в статистике различают функциональную (полную) и корреляционную (неполную) связи. Функциональной называют такую связь, при которой определенному значению фак- торного признака строго соответствует одно значение результативного признака. Функ- циональная связь проявляется во всех случаях наблюдения и для каждой конкретной едини- цы исследуемой совокупности.

Корреляционная связь, которую также называют статистической или стохастической, определяется в среднем при массовом наблюдении фактических данных. В корреляционных связях между изменениями факторного и результативного признаков нет полного соответствия и определенному значению факторного может соответствовать некоторый ряд вероятных значений результативного признака. При этом корреляционные связи могут быть ( r – коэффициент корреляции): слабыми ( r =0,3–0,5), умеренными ( r =0,5–0,7), сильными ( r =1,0, т. е. имеет место функциональная связь).

В зависимости от направления действия функциональные и корреляционные связи могут быть прямыми и обратными. При пря- мой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора, т. е. с увеличением факторного признака увеличивается результативный и наоборот. В противном случае между изучаемыми признаками существует обратная связь.

По аналитическому выражению (форме) связи выделяют прямолинейные (линейные) и криволинейные (нелинейные). Если связь между явлениями может быть выражена уравнением прямой линии, то ее называют линей- ной. Если же она выражается уравнением ка- кой-либо кривой линии, то такую связь называют нелинейной.

По качеству факторов, рассматриваемых в качестве действующих на результативный признак, различают однофакторные и многофакторные связи. Однофакторные (простые) связи обычно называются парными (так как рассматривается пара признаков). В случае многофакторной (множественной) связи имеется в виду, что все факторы действуют комплексно, т. е. одновременно и во взаимосвязи.

9.2. Методы изучения взаимосвязей социально-экономических явлений Для изучения функциональных связей применяются балансовый и индексный методы. Для исследования корреляционных связей широко используются следующие методы: 1) метод сопоставления двух параллельных рядов; 2) метод аналитических группировок; 3) графический метод; 4) корреляционный анализ; 5) регрессионный анализ.

Метод сопоставления двух параллельных рядов является простейшим из методов и заключается в следующем. Значения факторного признака располагаются в порядке возрастания или убывания (в зависимости от эволюции процесса и цели исследования). Затем строится параллельный ряд, состоящий из соответствующих значений результативного признака, и прослеживается зависимость между значениями факторного и результативного признаков. Сопоставление и анализ расположенных таким образом значений изучаемых признаков позволяет установить наличие связи и ее направление. К недостатку метода относится невозможность определения количественной меры связи между изучаемыми признаками.

Метод аналитических группировок состоит в следующем. Производится группировка единиц совокупности по факторному признаку. Затем для каждой группы определяется среднее значение результативного признака. Сопоставление изменений факторного и результативного признаков позволяет выявить наличие и направление, а также определить тесноту связи путем расчета эмпирического корреляционного отношения. Метод имеет недостаток – не позволяет определить форму и аналитическое выражение связи.

Графический метод состоит в том, что взаимосвязь двух признаков изображается с помощью поля корреляции. В системе ко- ординат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного признака. Каждое имеющееся сочетание значений признаков обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем сильнее будут группировать с я точки вокруг определенной линии, выражающей формулу связи.

Методы корреляционного и регрессивного анализа, как правило, используются комплексно и позволяют оценить наличие, направление, тесноту связи и определить ее форму. При этом задачи корреляционного анализа сводятся к измерению тесноты связи между признаками и оценке факторов, оказывающих наибольшее влияние на результативный признак. Задачами регрессионного анализа является выбор формы связи, установление меры влияния факторных признаков на результативный.

9.3. Парная корреляция Наиболее разработанной в теории статистики является методология однофакторного корреляционно-регрессионного анализа или парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у.

Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление на основе анализа исходной информации соответствующей математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируем ими признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований или осуществляется эмпирически перебором и оценкой функций различных типов.

При изучении связи экономических показателей используют различного вида уравнения прямолинейной и криволинейных связей. Наибольшее внимание к линейным связям обеспечивается тем, что в большинстве случаев нелинейные формы для выполнения рас- четов путем логарифмирования или замены переменных могут быть преобразованы в линейную форму.

Уравнение парной линейной корреляции имеет вид где –теоретические значения результативного признака, полученные по уравнению регрессии; а 0, а 1 – коэффициенты (параметры) уравнения регрессии. Поскольку а 0 является средним значением у в точке х = 0, его экономическая интерпретация часто затруднена или вообще невозможна.

Коэффициент парной линейной регрессии а 1 имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Коэффициент показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т. е. вариацию у, приходящуюся на единицу вариации х. Знак а 1 указывает направление этого изменения.

Параметры уравнения а 0, а 1 находятся методом наименьших квадратов, в основу которого положено требование минимальности сумм квадратов отклонений эмпирических данных у i от теоретических : Для нахождения минимума данной функции ее частные производные приравниваются к нулю и решается следующая система нормальных уравнений:

Решение системы позволяет определить параметры уравнения регрессии. В общем виде параметры определяются следующим образом:

Параметры уравнения регрессии в ряде случаев удобно вычислять по следующим формулам, дающим тот же результат: Рассчитанные таким образом значения a 0, a 1 подставляются в уравнения регрессии.

Для практического использования моделей регрессии большое значение имеет их адекватность, т. е. соответствие фактическим статистическим данным. А поскольку корреляционный и регрессионный анализ зачастую проводится для небольшой по объему совокупности, то показатели регрессии и корреляции могут быть искажены действием случайных факторов и требуется проверка адекватности модели.

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют, насколько вычисленные параметры х характерны для отображения комплекса существующих условий и не являются ли полученные значения параметров результатом действия случайных причин.

Значимость коэффициентов простой линейной регрессии осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия: для параметра a 0 : для параметра a 1 : где n – объем выборки.

- среднее квадратическое отклонение фактических значений результативного признака y от теоретических значений : - среднее квадратическое отклонение значений факторного признака x от общей средней :

Вычисленные значения и сравнивают с критическими t табл, которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы вариации V=n– K–1, где К – число факторных признаков в уравнении. В социально-экономических исследованиях уровень значимости обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если t расч t табл. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить тесноту корреляционной связи между переменными х и у. Теснота корреляционной связи может быть измерена теоретическим корреляционным отношением:

Тогда 2 представляет собой коэффициент детерминации, который показывает долю вариации результативного признака под влиянием вариации признака-фактора. Теоретическое корреляционное отношение (индекс корреляции) применяется для измерения тесноты связи при линейной и криволинейной зависимостях между результативным и факторным признаками. Оно может находиться в пределах от 0 до 1, т. е. 0 η 1). Чем ближе корреляционное отношение к 1, тем сильнее связь между признаками.

Отметим, что при линейной форме уравнения приме- няется другой показатель тесноты связи – линейный коэф- фициент корреляции: где n – число наблюдений. Для практических вычислений при малом числе наблюдений линейный коэффициент корреляции удобнее вычислять по формуле

Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному и принимает значение в интервале -1 r 1 Отрицательные значения указывают на обрат- ную связь, положительные на прямую. При r = о линейная связь отсутствует. Чем ближе коэффици- ент корреляции по абсолютной величине к 1, тем теснее линейная связь между признаками. При r = ±1 связь линейная функциональная.

Квадрат линейного коэффициента корреляции r 2 называется линейным коэффициентом детерминации. При оценке степени тесноты линейной связи он линейный коэффициент корреляции полностью совпадает с теоретическим корреляционным отношением. Этот факт используется для оценки формы связи значения – и r совпадают только при наличии прямолинейной связи.

Несовпадение этих величин свидетельст- вует, что связь между изучаемыми признаками криволинейная. Установлено, что если раз- ность квадратов 2 и r 2 не превышает 0,1, то гипотезу о прямолинейной форме связи мож- но считать подтвержденной. Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистичес- кой совокупности, могут искажаться дейст- вием случайных величин. Это вызывает необходимость проверки их существенности.

Для оценки значимости коэффициента корре- ляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального. При линейной однофакторной связи t-критерий можно рассчитать по формуле где (n-2)- число стереней свободы при заданном уровне значимости α и объеме выборки n.

Полученное значение t расч сравнивают с табличным значением t-критерия (для =0,05 и 0,01). Если рассчитанное значение t расч пре- восходит табличное значение критерия t табл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями, т. е. гипотеза о случайности отвергается.

После проверки адекватности построенной модели (уравнение регрессии) ее необходимо проанализировать, дать экономическую интерпретацию параметров регрессии. Прежде всего нужно проверить, согласуются ли знаки параметров с теоретическими представлениями и соображениями о направлении влияния признака-фактора на результативный признак. Далее необходимо проанализировать значение параметра а 1.

Очевидно, что для линейной регрессии параметр а 1 говорит о том, на сколько абсолютных единиц изменится результативный признак при изменении факторного на 1. Для удобства интерпретации параметра а 1 используют коэффициент элас- тичности. Он показывает, на сколько процентов от его среднего значения изменится результативный признак при изменении факторного признака на 1% от его средней величины, и вычисляется по формуле

Далее имеет смысл вычислить остатки характеризующие отклонение i-x наблюдений от значений, которые следует ожидать в среднем (т. е. в соответствии с уравнением регрессии). Наибольший интерес бу- дут представлять наблюдения с наибольшими положительным и отрицательным остатками.

Пример. Методами корреляционного и регрессионного анализа требуется оценить зависимость производительности труда рабочих от стажа их работы по следующим исходным данным.

Исходные данные Расчетные значения Но- мер рабо- чего Стаж рабо- ты, годы, x Днев- ная Выра- ботка рабо- чего, шт. y x2x2 y2y2 xy ,310,894,6-0,60,36-2,77, ,35,295,2-0,20,04-2,14, ,31,695,80,20,04-1,52, ,30,096,40,60,36-0,90, ,30,0970,0 -0,30, ,70,497,60,40,160,30, ,70,498,2-0,20,040,90, ,72,898,80,20,041,52,25

Продолжение таблицы Исходные данные Расчетные значения Но- мер рабо- чего Стаж рабо- ты, годы, x Днев- ная Выра- ботка рабо- чего, шт. y x2x2 y2y2 xy ,77,289,40,60,362,14, ,72,8910, 0 -1,01,02,77,29 итого ,173, 0 02,4029,7 Сред- нее 5,57,338,556,545,103,217,300,2402,97

Исходя из экономических соображений стаж является независимой переменной х. Сопоставление данных параллельных рядов признаков х и у показы- вает, что с возрастанием признака х, как правило, растет результативный признак у (производитель- ность труда). Следовательно, между х и у сущест- вует прямая зависимость. Зависимость неполная, но выраженная достаточно ясно. Для уточнения формы связи между рассматриваемыми признаками используется графический метод. Нанеся на график точки, соответствующие значениям х и у, получим корреляционное поле, а соединив точки отрезками – ломаную регрессии.

Анализируя ломанную линию, можно пред- положить, что возрастание выработки у идет равномерно, пропорционально росту стажа работы. В основе этой зависимости в данных конкретных условиях лежит прямо- линейная связь, которая может быть выра- жена простым линейным уравнением регре- ссии:

Произведем вспомогательные расчеты в таблице и, пользуясь расчетными значениями, определим параметры уравнения регрессии:

Итак, регрессионная модель распределения выра- ботки в зависимости от стажа работы выглядит следующим образом: Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм В нашем случае равенство выполняется (73=73).

Для проверки значимости коэффициентов регрес-сии определим t-критерий Стьюдента с V=10–2=8 степенями свободы. Предварительно для этого рассчитаем соответствующие среднеквадратические отклонения.

Расчетные значения t-критерия Стьюдента: По таблице распределения Стьюдента для V=8 степеней свободы находим критическое значение: t табл =3,307 при α= 0,05. Поскольку расчетные значения значительно превышают критическое значение, оба параметра признаются значимыми.

Проверку адекватности регрессионной модели дополняем корреляционным анализом. Рассчитаем двумя способами теоретическое корреляционное отношение: Полученное значение теоретического корреляцион- ного отношения свидетельствует о наличии весьма тесной зависимости между рассматриваемыми приз- наками.

Коэффициент детерминации 2 =0,925 свидетельствует о том, что 92,5% объема вариации выработки в изучаемой бригаде обусловлено вариацией стажа работы рабочих и только 7,5% общей вариации нельзя объяснить изменением стажа работы.

Как известно, при линейной форме уравнения применяется другой показатель тесноты связи – линейный коэффициент корреляции. Рассчитаем его для данного примера: Совпадение значений η и r (η=r=0,962) дает осно- вание считать связь между выработкой рабочих и их стажем прямолинейно.

Поскольку изучаемая статистическая совокуп-ность является небольшой, возникает необходи-мость проверки значений коэффициента корреляции с помощью t-критерия Стьюдента: Рассчитанное значение существенно больше критического значения t для n–2=8 степеней и =0,05 (t табл =3,307), что свидетельствует о значимости коэффициента корреляции и существовании связи между выработкой и стажем работы.

Таким образом, построенная регрессионная мо- дель = 4,0 + 0,6 х в целом адекватна, и можно приступить к ее анализу. Из уравнения известно, что а 1 =0,6 0, следова- тельно, с возрастанием стажа выработка рабочих увеличивается. Возрастание на 1 г. стажа рабочего приводит к увеличению им дневной выработки на 0,6 изделия. Рассчитаем коэффициент эластично- сти для рассматриваемого примера:

Таким образом, с возрастанием стажа работы на 1% следует ожидать повышения произво- дительности труда на 0,45%. Анализируя остатки Е, характеризующие от- клонения отдельных фактических значений от значений, которые следует ожидать в среднем можно говорить о том, что экономический интерес представляют выработки рабочих, обозначенных номерами 5; 1; 4; 8; 7, поскольку они отличаются наибольшими отклонениями. Тем самым выделяются передовые рабочие – 1; 8; 7 и отстающие – 5; 4.