Летняя школа «Предпринимательство в России: теория и практика, методология исследований» Звенигород, «Солнечная Поляна», 5 – 10 июля 2010 Статистические.

Презентация:



Advertisements
Похожие презентации
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Advertisements

Измерение – это процедура, с помощью которой измеряемый объект сравнивается с некоторым эталоном и получает численное выражение в определенном масштабе.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
ПРИМЕНЕНИЕ МАТЕМАТИЧЕСКИХ МЕТОДОВ В ГЕОЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
«Технико-экономический анализ деятельности предприятия» Гиндуллина Тамара Камильевна, к.т.н., доцент кафедры АСУ.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ ПАНЕЛЬНЫХ ДАННЫХ (36 ЧАСОВ ) д. э. н. Е. А. Коломак.
Общая теория статистики Регрессионно- корреляционный анализ.
Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »
Анализ измерений Классификация методов Наследов А. Д, 2012.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Анализ связи между атрибутивными признаками. Взаимосвязь между атрибутивными признаками анализируют­ся посредством таблиц взаимной сопряженности. Они.
Проф. д. мед.н. Ледощук Б.А. 1 Классификация статистических методов.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Понятие эконометрики и эконометрических моделейO Эконометрика это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым.
Тема «Корреляционный анализ (КА)» 1. КА предназначен для количественной оценки статистической связи показателей 2. Основой КА является корреляционная матрица,
Дисперсионный анализ Врач-ординатор: Чайкисов Ю.С. Иркутский Государственный Медицинский Университет Кафедра Факультетской терапии Иркутск 2007 г.
Транксрипт:

Летняя школа «Предпринимательство в России: теория и практика, методология исследований» Звенигород, «Солнечная Поляна», 5 – 10 июля 2010 Статистические методы в изучении предпринимательства ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ – ВЫСШАЯ ШКОЛА ЭКОНОМИКИ ФАКУЛЬТЕТ ЭКОНОМИКИ КАФЕДРА СТАТИСТИКИ О. И. ОБРАЗЦОВА

Статистика – совокупность методов, которые дают нам возможность принимать решение в условиях неопределённости. Абрам Вальд Основные проблемы анализа предпринимательства в странах постсоветского пространства : Ограниченность данных государственной статистики предпринимательства Низкий уровень готовности экспертов и предпринимателей к сотрудничеству Пропуски в данных Широкий круг непараметрических данных Неоднородность данных альтернативной статистики, малые выборки

Источники данных о предпринимательстве

Статистика – позитивная наука Она… занимается тем, "что есть", а не тем, что "должно быть" Кейнс Статистика – язык экономической науки, инструмент функциональной диагностики живого экономического организма Статистика принципиально нейтральна, независима от какой-либо этической позиции или нормативных суждений. Конечная цель - формулирование и проверка гипотезы, которая дает правильные и значимые (т.е. не являющиеся трюизмами) предсказания относительно пока ещё не наблюдавшихся или в принципе не поддающихся наблюдению явлений

Колесо знаний Уоллеса Теория Гипотеза Статистическая конкретизация Наблюдение Эмпирический анализ Знания, не рождённые опытом, матерью всякой достоверности, бесплодны и полны ошибок. Леонардо да Винчи Для стран постсоветского пространства западные теории предпринимательства не подтверждаются эмпирическими данными ?? Эволюция теорий P i ТТ ЕЕ

Этапы статистического исследования 5. Интерпретация результатов 1. Планирование и организация 2. Наблюдение 3а. Логический и содержательныйконтроль 3б. Сводка и группировка 3в. Визуализация данных 4. Вторичная обработкаданных Теория, цель Рi, задачи Устранение ошибок ЕЕ Конкретизация пробных теорий ТТ

PiPi PiPi Измерение эффекта воздействия одного или нескольких факторов на результат Классификация объектов и многокритериальный выбор Прогноз развития ситуации Экспертные оценки Статистические данные Ситуации

Ограничения в оценке зависимостей Шкала измерения влияющих переменных Шкала измерения зависимых переменных Применяемые методы Интервальная или отношений Регрессионный и корреляционный анализ ВремениИнтервальная или отношений Анализ временных рядов Номинальная или порядковая Интервальная или отношений Дисперсионный анализ Смешанная ситуация Интервальная или отношений Ковариационный и регрессионный анализ Номинальная или порядковая Анализ ранговых корреляций и таблиц сопряженности Номинальная или порядковая Интервальная или отношений Кластерный анализ, дискриминантный анализ, таксономия

Результаты группировки повышают информационную силу статистических данных Упорядоченный ряд наблюдения (абсолютная шкала) Вариационный ряд распределения (интервальная шкала) k = 1+3,322*lg87= 6 n = 87 n = 87 k =6 частота fj

Группировка позволяет оценить структурные закономерности в форме обобщающих показателей распределения Атрибутивный ряд распределения (порядковая шкала) Вариационный ряд распределения (интервальная шкала) n = 87 k =6 x ср = 11,2 т.р. х Мо = 7,6 т.р. х Ме = 9,0 т.р. fiчастотаfiчастота

Измерение эффекта воздействия одного или нескольких факторов на результат Как влияет образование на предпринимательскую активность индивида? Дисперсионный анализ Как влияет возраст на предпринимательскую активность индивида? Регрессионный анализ Как влияют признаки индивида (возраст, доход, ресурсы, экономическая нагрузка в семье, продолжительность безработицы, профессиональный стаж и т.п.) на предпринимательскую активность Факторный и компонентный анализ

Прогноз развития ситуации Как изменится предпринимательская активность с течением времени? Экстраполяция динамического ряда Автокорреляционная функция Корреляция рядов динамики (с лагом или без)

Классификация объектов и многокритериальный выбор Ab haedis segregare oves. Евангелие от Матфея 25, 32 Какие группы стран GEM можно выделить по уровню предпринимательской активности? К какой из выделенных групп следует отнести страну, не участвующую в GEM? Кластерный анализ (таксономия) Дискриминантный анализ Распознавание образов Чем определяются различия между группами, если они значимы?

Кластерный анализ - разбиение множества объектов на однородные группы на основе изучения вариации классифицирующей переменной Количество кластеров может быть известно или неизвестно заранее Количество кластеров может быть известно или неизвестно заранее Отсутствуют обучающие выборки Отсутствуют обучающие выборки Разрыв пространства существования фактора может возникать также и при определенной комбинации независимых переменных Разрыв пространства существования фактора может возникать также и при определенной комбинации независимых переменных Агломеративная процедура (сначала объединяют самые близкие объекты, затем к ним присоединяют более дальние) Агломеративная процедура (сначала объединяют самые близкие объекты, затем к ним присоединяют более дальние) Количество кластеров может быть известно или неизвестно заранее Количество кластеров может быть известно или неизвестно заранее Отсутствуют обучающие выборки Отсутствуют обучающие выборки Разрыв пространства существования фактора может возникать также и при определенной комбинации независимых переменных Разрыв пространства существования фактора может возникать также и при определенной комбинации независимых переменных Агломеративная процедура (сначала объединяют самые близкие объекты, затем к ним присоединяют более дальние) Агломеративная процедура (сначала объединяют самые близкие объекты, затем к ним присоединяют более дальние) КА

Алгоритм кластеризации Формирование выборки для анализа Выбор классифицирующих признаков Выбор и расчет меры сходства между наблюдениями Формирование кластеров Анализ и интерпретация результатов КА

КА Мера сходства - расстояние d ij (O i,O j ) между объектами Oi и Oj : чем меньше расстояние, тем более похожими считаются наблюдения Евклидово расстояниеЕвклидово расстояние Хеммингово расстояние (городских кварталов, Манхэттэнское, путь таксиста)Хеммингово расстояние (городских кварталов, Манхэттэнское, путь таксиста) Евклидово расстояниеЕвклидово расстояние Хеммингово расстояние (городских кварталов, Манхэттэнское, путь таксиста)Хеммингово расстояние (городских кварталов, Манхэттэнское, путь таксиста) Частные случаи расстояния Махаланобиса (симметричного, монотонного в призначном пространстве, минимального к самому себе)

Расстояние между кластерами «ближайшего соседа» (одиночная связь)«ближайшего соседа» (одиночная связь) «дальнего соседа» (полная связь)«дальнего соседа» (полная связь) между «центроидами»между «центроидами» по «средней связи»по «средней связи» «ближайшего соседа» (одиночная связь)«ближайшего соседа» (одиночная связь) «дальнего соседа» (полная связь)«дальнего соседа» (полная связь) между «центроидами»между «центроидами» по «средней связи»по «средней связи» КА Разные процедуры КА для одних и тех же данных могут давать различное разбиение на кластеры. Только метод k-средних имеет строгое статистическое обоснование!

ДИСКРИМИНАНТНЫЙ АНАЛИЗ Группа экспертов исследует возможность переговоров с террористами, захватившими заложников. Их интересуют те особенности ситуации, при которых возможно безопасное освобождение заложников, даже если требования террористов не выполнены.... Дискриминантный анализ может обеспечить получение необходимых данных. Клекка У. Р. Дискриминантный анализ Группа экспертов исследует возможность переговоров с террористами, захватившими заложников. Их интересуют те особенности ситуации, при которых возможно безопасное освобождение заложников, даже если требования террористов не выполнены.... Дискриминантный анализ может обеспечить получение необходимых данных. Клекка У. Р. Дискриминантный анализ ДА

Классы – значения классифицирующей переменной (шкала не сильнее порядковой) ДА Классифицирующая переменная зависит от дискриминантных аналог многофакторного регрессионного анализа для отклика в атрибутивной шкале Дискриминантные переменные зависят от классифицирующей аналог обобщенного многомерного дисперсионного анализа

Назначение: изучение различий между двумя и более классами объектов по комбинации описывающих переменных получение по обучающей выборке правил (цензов, формул) для определения групповой принадлежности объекта ДА Интерпретация определение количества и значимости дискриминантных функций и границ их значений для объяснения различий между классами Классификация определение класса, к которому принадлежит новый объект

Предпосылки:Предпосылки: ДА Наблюдения принадлежат к двум или более классам Наблюдения принадлежат к двум или более классам В каждом классе есть как минимум два объекта В каждом классе есть как минимум два объекта Количество дискриминантных переменных не более чем (N – 2) Количество дискриминантных переменных не более чем (N – 2) Дискриминантные переменные измерены в шкале интервалов или шкале отношений Дискриминантные переменные измерены в шкале интервалов или шкале отношений Дискриминантные переменные линейно независимы Дискриминантные переменные линейно независимы Дискриминантные переменные, измеренные в абсолютной шкале, распределены по многомерному нормальному закону распределения (каждая распределена нормально при фиксированных прочих переменных) Дискриминантные переменные, измеренные в абсолютной шкале, распределены по многомерному нормальному закону распределения (каждая распределена нормально при фиксированных прочих переменных) Ковариационные матрицы классов можно считать равными между собой Ковариационные матрицы классов можно считать равными между собой Наблюдения принадлежат к двум или более классам Наблюдения принадлежат к двум или более классам В каждом классе есть как минимум два объекта В каждом классе есть как минимум два объекта Количество дискриминантных переменных не более чем (N – 2) Количество дискриминантных переменных не более чем (N – 2) Дискриминантные переменные измерены в шкале интервалов или шкале отношений Дискриминантные переменные измерены в шкале интервалов или шкале отношений Дискриминантные переменные линейно независимы Дискриминантные переменные линейно независимы Дискриминантные переменные, измеренные в абсолютной шкале, распределены по многомерному нормальному закону распределения (каждая распределена нормально при фиксированных прочих переменных) Дискриминантные переменные, измеренные в абсолютной шкале, распределены по многомерному нормальному закону распределения (каждая распределена нормально при фиксированных прочих переменных) Ковариационные матрицы классов можно считать равными между собой Ковариационные матрицы классов можно считать равными между собой

Совет: будьте внимательны при формировании обучающих выборок! Типичная ошибка: эти выборки не содержат переменных, по которым фактически происходит классификация объектов классификация невозможна. Проверка: объедините классы обучающей выборки в один и попробуйте разделить их с помощью кластерного анализа. Если исходной классификации не получилось, то подбор переменных выполнен неправильно Типичная ошибка: эти выборки не содержат переменных, по которым фактически происходит классификация объектов классификация невозможна. Проверка: объедините классы обучающей выборки в один и попробуйте разделить их с помощью кластерного анализа. Если исходной классификации не получилось, то подбор переменных выполнен неправильно

ДА Алгоритм анализа для k классов, объекты характеризуются р переменными (обучающие выборки Х (j), объемом n i ) 1.Рассчитываются средние значения по каждой переменной для каждого класса 2.Определяются оценки ковариационных матриц для каждого класса S j 3.Рассчитывается несмещенная оценка объединенной ковариационной матрицы 1.Рассчитываются средние значения по каждой переменной для каждого класса 2.Определяются оценки ковариационных матриц для каждого класса S j 3.Рассчитывается несмещенная оценка объединенной ковариационной матрицы

ДА Алгоритм анализа для k классов, объекты характеризуются р переменными (обучающие выборки Х (j), объемом n i ) 4. Рассчитываются векторы оценок коэффициентов дискриминантной функции (независимость исходных переменных!) 5. Оцениваются дискриминантные константы (собственные значения) и каноническая корреляция 6. Определяется принадлежность новых объектов к классу на основе дискриминантной функции Z j 4. Рассчитываются векторы оценок коэффициентов дискриминантной функции (независимость исходных переменных!) 5. Оцениваются дискриминантные константы (собственные значения) и каноническая корреляция 6. Определяется принадлежность новых объектов к классу на основе дискриминантной функции Z j

ДА Если необходима классификация… Канонические дискриминантные функции (независимы, центроиды различаются): f ki значение канонической дискриминантной функции для i-го объекта в k-м классеf ki значение канонической дискриминантной функции для i-го объекта в k-м классе u j нестандартизованные коэффициенты дискриминантной функции u j нестандартизованные коэффициенты дискриминантной функции Х jki значение дискриминантной переменной X j для i-го объекта в классе k.Х jki значение дискриминантной переменной X j для i-го объекта в классе k. k x i минимально (лямбда Уилкса) и не превышает (k – 1) или дискриминантных переменных j max (в зависимости от того, какая из величин меньше)k x i минимально (лямбда Уилкса) и не превышает (k – 1) или дискриминантных переменных j max (в зависимости от того, какая из величин меньше) Канонические дискриминантные функции (независимы, центроиды различаются): f ki значение канонической дискриминантной функции для i-го объекта в k-м классеf ki значение канонической дискриминантной функции для i-го объекта в k-м классе u j нестандартизованные коэффициенты дискриминантной функции u j нестандартизованные коэффициенты дискриминантной функции Х jki значение дискриминантной переменной X j для i-го объекта в классе k.Х jki значение дискриминантной переменной X j для i-го объекта в классе k. k x i минимально (лямбда Уилкса) и не превышает (k – 1) или дискриминантных переменных j max (в зависимости от того, какая из величин меньше)k x i минимально (лямбда Уилкса) и не превышает (k – 1) или дискриминантных переменных j max (в зависимости от того, какая из величин меньше)

Территориальная карта

ДА Интерпретация (дискриминация): переход к стандартизованным к-там и стандартизованным функциям n общее число наблюдений,n общее число наблюдений, К число классов (групп),К число классов (групп), W ii диагональный элемент матрицы оценки рассеиванияW ii диагональный элемент матрицы оценки рассеивания Вклад стандартизованного коэффициента в дискриминантную функцию пропорционален его величине n общее число наблюдений,n общее число наблюдений, К число классов (групп),К число классов (групп), W ii диагональный элемент матрицы оценки рассеиванияW ii диагональный элемент матрицы оценки рассеивания Вклад стандартизованного коэффициента в дискриминантную функцию пропорционален его величине

Распознавание образов: классификация без интерпретации Основа классификации – каноническая дискриминантная функция Критерий отнесения наблюдения к определённому классу – квадрат расстояния Махаланобиса (до центроида) или Для групп с разной наполненностью:

Что ещё почитать? Миллс Ф. Статистические методы – М.:Госстатиздат Плюта В. Сравнительный многомерный анализ в эконометрическом моделировании. - М.: ФиС Прикладная статистика: классификация и снижение размерности: справ. изд. / Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. - М.: ФиС Сошникова Л.А. и соавт. Многомерный статистический анализ в экономике. – М.: ЮНИТИ-ДАНА, 1999 Факторный, дискриминантный и кластерный анализ: Пер с англ. - М.: ФиС Хейс Д. Причинный анализ в статистических исследованиях – М.: Финансы и статистика, 1981 Статистический анализ в экономике / Под ред. Громыко Г.Л.. – М.: Изд-во МГУ, 1992 Общая теория статистики: Учебник / Боярский А.Я., Ясин Е.Г. – М.: МГУ, 1977

Благодарю за внимание!