Methodology of the Research\Методология исследования доц. Касимовская Е.Н Выбор методов исследования.

Презентация:



Advertisements
Похожие презентации
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 8 Временные ряды в эконометрических исследованиях.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Лекция 10 Временные ряды в эконометрических исследованиях.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В.И. Дихтяр Теория и методология социально- экономических исследований в.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Временные ряды в эконометрических исследованиях..
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Транксрипт:

Methodology of the Research\Методология исследования доц. Касимовская Е.Н Выбор методов исследования

Выбор методики исследования На этапе сбора данных следует выделить несколько главных вопросов: для каких целей собираются данные? что именно нужно измерять? с какой точностью нужно измерять? какое количество данных нам требуется? каким способом следует выбирать данные? Ответы на первые три вопроса должны быть даны на стадии формулирования проблемы, гипотез и\или вопросов исследования Стадия операционализма ции проблемы

Задача построения информационного запроса Составление структурной схемы показателей предмета (предметов) исследования. Оценка возможности измерения каждого из показателей конкретным индикатором. Поиск структурных суп показателей. Доведение конкретизации показателей до такой ступени, чтобы каждому из них мог соответствовать вопрос анкеты (или переменная).

Масштаб исследования Основные черты зависимости между переменными: (1) Величина(2) Надежность ("истинность") Соотношение между значимостью и количеством испытаний (выполненных анализов)? Слабые связи могут быть значимо доказаны только на больших выборках

Генеральная совокупность и выборка Какое количество данных нам требуется? Определение 1: Исследуемая совокупность единиц называется генеральной совокупностью. Определение 2: Выборка – подмножество единиц генеральной совокупности.

Генеральная совокупность и выборка Наилучший подход: каждый участник генеральной совокупности имеет равную вероятность быть включенным в выборку Генеральная совокупность Выборка

Понятие «выборка»(sample) 1. Синоним понятия «выборочная совокупность» часть населения (популяции, population), которая, подвергается опросу\исследуется, с тем чтобы полученные результаты могли быть распространены на изучаемую популяцию в целом 2. Процесс отбора единиц наблюдения (технология, способы и методы такого отбора определяют тип выборки)

Построение выборки 1. Определение объема выборки (например, количества человек, которых следует опросить для получения качественной информации) 2. Определение типа выборки построение конкретной схемы процедуры отбора 3. Оценка качества выборки определение, с какой вероятностью и степенью точности результаты опроса выборочной совокупности можно будет переносить на ту или иную часть популяции (генеральной совокупности)

Основной вопрос – как велика она должна быть? Абсолютные размеры выборки. Важнее именно абсолютный размер, а не относительный. Чем больше выборка, тем больше вероятность отразить характеристики генеральной совокупности ( меньше вероятность сделать ошибку, это следует из закона больших чисел). Статистики и Central Limit Theorem: чем больше размер выборки, тем ближе распределение к нормальному типу. Минимальный размер стат. Выборки – более 30 наблюдений. Пределы ошибки ( margin error): ожидаемая ошибка связана с размерами выборки. Считается, что ошибка в 5% ( т.е. 95%-ная вероятность) – это допустимый максимум для аккуратного исследования ( больше нельзя!!!)

Продолжение– как велика она должна быть? Время и затраты. Большая выборка требует больше времени и затрат, результат задерживается, маленькая выборка может оказаться нерепрезентативной и не отражать основные закономерности исследуемой совокупности. «Безответность» респондентов. Часть опрашиваемых не заполняет анкеты, другие заполняют неправильно и т.д. Важно определить актуальный уровень ответов и рассчитать размер необходимой выборки с учетом этого. Вариации ( различия) в изучаемой совокупности. Если различия велики, то размер выборки должен быть больше.

Качество информации Репрезентативность - свойство выборочной совокупности воспроизводить характеристики генеральной Надежность - определенная гарантия того, что полученный результат правильно отражает изучаемую действительность Валидность (обоснованность) информации - подтверждение (доказательство), что исследовались (измерялись) именно те явления, которые предполагалось исследовать Проверка устойчивости - основная и контрольная группы

Репрезентативность выборки Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности. ПРИМЕР: если в городе проживает человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной. Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов. Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.

Репрезентативность выборки: как посчитать??? Формула для расчета учитывает доверительный интервал и вероятность ошибки ( обычно на уровне 0.05, т.е. Ошибка 5%) Он лайн калькуляторы: и пр Пример:

Каким способом следует выбирать данные? Выборка имеет больше шансов быть репрезентативной, если она построена таким образом, что (1) каждый объект генеральной совокупности имеет одинаковую вероятность быть отобранным и (2) объекты отбираются независимо друг от друга. Есть несколько методов извлечения выборки: применение таблиц случайных чисел, метод перемешивания генеральной совокупности, стратифицированная случайная выборка, систематическая выборка.

Типы выборок Основной принцип – принцип рандомизации случайности Случайная выборка -Random Sampling=Probability sampling ( на основе таблицы случайных чисел) Систематическая случайная выборка – Systemic Sample Стратифицированная случайная выборка – Stratified sampling ( учитывает конкретные характеристики\переменные в выборке, например, пол, возраст и пр)

Примеры Систематическая выборка: Население: 300 Величина выборки: \10=30 Начинаем со случайного выбора числа в промежутке от 1 до 30. Например, 23. Затем берем каждое 30 е показание, пока не наберем 10: 23, 53, 83,113,143,173, 203, 233, 263, 293

Пример:метод перемешивания генеральной совокупности (с использованием Excel) Шаг 1. Пронумеруйте все элементы генеральной совокупности от 1 до N и введите эти порядковые номера в первый столбец таблицы Excel. Шаг 2. В верхнюю ячейку второго столбца введите формулу =СЛЧИС() и скопируйте эту ячейку вниз по столбцу, чтобы получить случайное число напротив каждого номера. Шаг 3. Выделив оба столбца (с номером элементов в основе выборки и со случайными числами), выполните команду Данные->Сортировка из меню Excel. Сортировка по столбцу со случайными числами. После этого, числа в первом столбце будут упорядочены случайным образом, и для получения искомой случайной выборки достаточно будет взять первые n элементов.

Примеры: стратифицированная выборка Население: 850(580 женщин и 270 мужчин) Величина выборки: /850 Х 100=68 женщин 270/850 Х 100=32 мужчин

Другие типы выборок Convenience Sampling(«до кого легче добраться», слабо репрезентативна, исп. При пилотных исследованиях) Snowball Sampling Multi-stage cluster sampling ( случайная выборка + геогр.кластеры) Purposive Sampling ( на основе суждения исследователя) Non-Probability Sample И т.д.

Классификация исследований По типу собранных данных методы исследований можно подразделить на Качественные Количественные

Качественное исследование Как?Почему?Зачем? Рекомендуется, когда необходимо качественное описание какого-либо процесса. Примеры: Как потребитель осуществляет выбор того или иного товара? Каковы мотивы поведения избирателей?

Примеры качественных исследований Опросы анкетирование интервью Фокус-группы ( обычно 6-8 человек) Case Studies Action Research Наблюдение ( структурированное) Дневник участника Этнографические исследования Эксперимент

Типы интервью Structured – на основе опросника ( довольно строго) Semi-structured – на основе опросника, но можно отклоняться + личные впечатления Unstructured (= in-depth interview)

Компоненты «отношения» Эмоциональная (чувства, эмоции) Осознанная (знания и уверенность (вера)) Поведенческая - предрасположенность (готовность) к действиям - намерения - поведенческие ожидания

Мнения и отношения Индивидуальность Социум Ценности Отношение Суждения

Способы измерения «отношения» Ранжирование Рейтингование Сортировка Выбор

Способы измерения «отношения» Ранжирование – требуется, чтобы опрашиваемые выстроили по порядку небольшое количество объектов на основе какого-то указанного им принципа Рейтинг - требуется, чтобы опрашиваемые определили положение объекта на предложенной им шкале в соответствии с своим восприятием свойств (качеств) объекта. Сортировка – требуется сгруппировать объекты на основе определенного критерия или экспертного знания Выбор – требуется выбрать из двух или более альтернатив Психологические способы измерения – определение отношения без вербального ответа опрашиваемого (например, по изменению кровяного давления)

Требования к анкете - целенаправленность; - простота (четкость, понятность, краткость вопросов, по возможности допускающая ответы «да» или «нет»); - однозначность понимания вопросов, что предполагает однозначные на них ответы; -нейтральность (невозможность практического использования ответов против опрашиваемого); -логическая последовательность (от простого к сложному, от общего к частному, конкретизирующему)

Типы анкет\вопросов с вариантами ( close-end): общие Списочные– выбрать любой ответ Категориальные – выбрать ОДИН ответ ( multiple choice) Ранжирование ( ranking) – расставить по порядку Рейтингование (rating) – оценить, расставить оценки ответам Количественные – ответить числом\величиной Табличные (grid) – заполнить матрицу с более чем одним ответом

Доп. Вопросы и техники Вопросы по персональным данным – возраст, образование, пол, соц. Статус и пр. Рейтинговая шкала Ликерта: сила ответа ( strongly agree – strongly disagree) в кол.выражении Рейтинговая шкала Ликерта: то же самое в вербальной форме Семантический дифференциал – противоположные характеристики на противоположных концах численной шкалы Шкала частот – вербальная или численая- между «всегда» и «никогда» Да\нет Верно\неверно

ПРИМЕР: шкала Ликерта

Open question format «Открытый лист» - неск.вопросов без вариантов ответов. Ответ дается в свободной форме Open essay – комментарий в свободной форме. Обычно – в заключение анкеты Вопрос о личном мнении Вопрос о личном поведении Vignette or scenario – вопрос включен в контекст, описание ситуации. Дается в свободной форме

Общие правила анкетирования Объясните цель анкетирования участникам Старайтесь, чтобы вопросы были максимально простыми Не используйте слэнг или профессиональный жаргон Избегайте двусмысленности и вопросов в негативной форме Избегайте неконкретных определений типа «большой. Маленький» Задавайте вопросы, ТОЛЬКО связанные с темой ( а не все, которые пришли Вам в голову) Включайте вопросы, которые являются проверочными для ответов на другие вопросы Избегайте вопросов, требующих расчетов Избегайте наводящих вопросов, обидных и агрессивных вопросов Постарайтесь, чтобы список вопросов был как можно короче, но включал все необходимые для достижения цели

Полезные ресурсы (www. zoomerang.com) Базовый пакет ( 10 вопросов в анкете, 100 ответов/опрос) – бесплатно Электронный учебник по статистике и эконометрике

Программные пакеты для анализа данных качественных исследований CAQDAS – computer-assisted qualitative data analysis software NVivo – AQUAD 7 –

Количественное исследование Сколько?Каков вид взаимосвязи? Связано с операционализмацией проблемы\гипотезы Рекомендуется, когда необходима ( и возможна) количественная оценка существующих взаимосвязей

Количественный анализ данных Статистика - это набор методов и теорий, применяемых для количественного анализа данных ( для принятия решения в условиях неопределенности) Позволяет распознать и оценить ошибки количественного измерения параметров Два типа кол.анализа: разведочный анализ данных ( или описательная статистика) используется для обобщения и представления данных подтверждающий анализ ( confirmatory data analysis) позволяет обработать данные,сделать выводы и построить прогнозы

Confirmatory Data Analysis: основные техники (методы) Параметрические методы применяются в случае, когда данные характеризуются нормальным распределением ( Normal Distribution) Непараметрические методы применяются в случае возможного искажения данных ( отсутствие нормального распределения), например, при нерепрезентативной выборке

Основные моменты, влияющие на выбор метода 1. Тип (вид, форма) данных (разведывательный или подтверждающий) 2. Характер выборки ( нормальное распределение или искаженное): соответственно параметрические или непараметрические инструменты 3. Количество переменных исследования: одномерные и многомерные 4. Шкалы ( типы) измерения: номинальные, порядковые, интервальные, относительные

Тип данных ( шкалы измерения) Интервальные ( абс. И относ): 70 кг, 80 кг.... Равные промежутки Порядковые ( ordinal) – можно расставить по порядку, но промежутки разные Номинальные – не могут быть упорядочены ( холодный-горячий) Дихотомные – да-нет, муж-жен

Тип данных Cross-section - данные по к-л показателю для разных однотипных объектов ( страны, регионы) Time series –данные, описывающие один и тот же объект во времени ( инфляция,темпы роста...) Характеризуются опр. Тенденциями\зависимостями Могут быть временные лаги

Собственное исследование: выбор методов Вопрос 1. Какой тип данных рассматривается? Вопрос 2. Сколько переменных?

ИНТЕРВАЛЬНЫЕ ДАННЫЕ

Порядковые и номинальные данные

Метод анализа: что хотим увидеть? Одна переменная ( univariante analysis) Описываем конкретное значение Разброс в значениях Основную тенденцию ( графики, гистограммы) Отклонение от среднего ( дисперсию) Смотрим на данные во временном промежутке ( графики) Смотрим на долю в массиве данных ( диаграммы, гистограммы)

Одномерный анализ: осн. Инструменты и формы представления данных Таблицы частоты Графики, гистограммы, диаграммы Имеряем основную тенденцию: Среднее ( mean) Медиана (ср. Значение в упорядоч. Списке) Мода Измеряем дисперсию: Range (размах, разрыв между мин и макс) Inter-quartile range ( данные д.б. Проранжированы) Standard Deviation ( чем больше значение, тем больше вариация в данных) Коэф. Вариации ( показывает однородность\неоднородность массива данных\выборки)

Разведывательный анализ: частота наблюдений и распределение Mean – (истинное) среднее (х) Медиана (М) – то значение, которое располагается строго посередине массива упорядоченных данных Мода (m) – наиболее часто встречающееся значение Позволяют выявить центральную тенденцию и сделать выводы о характере распределения

Нормальное распределение Частота Среднее, мода и медиана Значение переменной

Выводы Когда кривая распределения симметрична, значения трех показателей совпадают. Это называется нормальным распределением. Когда кривая искажена, средняя, медиана и мода имеют разные значения При положительном характере искажения данных «хвост» кривой распределения вытянут вправо и большая часть данных концентрируется в диапазоне меньших значений При отрицательном - наоборот

Выводы ( продолжение) В случае мономодальности кривой ( т.е. один пик) и ее относительно слабой искаженности, соотношение показателей выражается: Среднее – Мода = 3(Среднее – Медиана)

Измерение дисперсии Позволяет описать разброс данных (spread of values) При использовании одновременно с показателями частоты распределения позволяет получить адекватное представление о массиве данных в двух измерениях Два простейших показателя дисперсии данных – range and interquartile range

Измерение дисперсии Range ( размах) это разница между наибольшим и наименьшим значением параметра Range = Eu – E L Interquartile range = Q3 – Q1 Semi-interquartile range = (Q3 – Q1)\2 Стандартное отклонение ( Standard Deviation)

Пример: потребление нефти, 19 периодов (n=19)

Упорядочиваем данные(есть в Excell) 1 EL Q Q Eu

Расчеты: Среднее=(n+1)/2=10 – десятое наблюдение упорядоченных данных Quartile = (n+1)/4=(19+1)/4=5, т.е. берем каждое пятое наблюдение Range= =10.8 Interquartile range= Q3-Q1= =3.8 Semi-interquartile range=(Q3-Q1)/2=1.9

Выводы: определяем осн. тенденцию Нижний квартиль Q1 показывает потребление нижних 25% 50% ( два средних квартиля) имеют потребление между 34.7 и 38.5

Box plot El=29.8Eu= % данных Q1 M Q

Дисперсия, ст. Отклонение и коэффициент вариации

Коэффициент вариации и однородность выборки Имея коэффициенты вариации, можно сравнивать однородность самых разных явлений независимо от их масштаба и единиц измерения. Данный факт и делает коэффициент вариации столь популярным.однородность В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной.

Ст.отклонение: S = (x – x) 2 \n Учитывает все отклонения от ср. показателя Рассчитать StDev. Пери од Значение (х)

Ответ: XX-X(x – x) Total112 Ср. значение = 10 S = 112\6 = 4.32

Измерение изменений: индексы Простые индексы: измерение изменения параметра по отношению к базовому году Базовые и цепные индексы Взвешенные ( композитные или агрегированные) индексы: индекс Пааше, индекс Ласпейреса Прочие индексы

Пример Индекс потреб.цен: 15*10+24*6+425*3 10*10+27*6+655*3 0,7 Дефлятор: 15*8+24*7+425*5 10*8+27*7+655*5 0,68 год ценаобъемценаобъем книги рубашки TV

Дополнение: прочие показатели инфляции, используемые в современной международной статистике. Циклические колебания на товарных рынках не изменяют общего тренда инфляции. С этой целью в США выделяется показатель «базовой инфляции» (core CPI), для расчета которой из общего индекса инфляции исключаются цены на продукты питания и топливо. В современных условиях спектр торгуемых товаров на мировом рынке расширяется, и колебания инфляции могут быть вызваны не только изменением цен на продовольствие и топливо. Поэтому наряду с показателем базовой инфляции в США рассчитывается показатель «средней инфляции» (mean CPI) или «инфляция без выбросов» (trimmed CPI). Принцип расчета такого индекса состоит в том, что из индекса исключаются не просто отдельные группы товаров, а строится матрица изменения цен по отдельным продуктам на каждый период из общего индекса исключаются определенная доля максимальных и минимальных значений.

Базисные индексы Базисный индекс сравнивает цены в любой из рассматриваем ых периодов с одним и тем же базовым периодом: например, цены в марте, в апреле, в мае и т. д. сравниваются с ценами в декабре прошлого года

Темпы роста и темпы прироста При использовании таких индексов, для того чтобы определить, на сколько изменились цены, к примеру, в марте по сравнению с январем, необходимо: поделить соответствующие базовые индексы: 101/102 = 0,99 (т. е. уровень цен в марте составил 0,99, или 99% от январского уровня) или рассчитать процентное их изменение: (101–102)/102 *100% = –1% (т. е. цены в марте снизились на 1% по сравнению с январским уровнем). Между двумя полученными величинами имеется взаимно однозначное соответствие. Первую (0,99) часто называют темпом роста, а вторую (–1%) темпом прироста. Темп роста больший 1 (100%) или положительный темп прироста показывает, что цены растут. Темп роста меньший 1 (100%) или отрицательный темп прироста показывает, что цены падают.

На всякий случай: вспоминаем Абсолютный прирост – размер увеличения показателя за определенный временной период (разница значений показателей между конечным и базовым периодами). Темп роста – отношение конечного значения показателя к базовому. Темп прироста – относительная скорость изменения показателя за определеный временной период. (отношение абсолютного прироста к значению базового периода). Темп прироста = темп роста -1 или 100% Средний темп роста показывает во сколько раз в среднем за единицу времени изменилось значение показателя (корень степени (n-1) из отношения конечного значения показателя к базовому, где n – число рассматриваемых периодов). Средний темп прироста = средний темп роста – 1 или 100% Тенденция – закономерность. Тренд (линия тренда) – графическое изображение тенденции.

Цепной индекс сравнивает цены в рассматриваемый период с предыдущим: например, цены в марте с ценами в феврале, цены в апреле с ценами в марте, цены в мае с ценами в апреле и т. д.

Сравнение двух методов При использовании таких индексов, для того чтобы определить, на сколько изменились цены, к примеру, за два месяца январь и февраль, необходимо: перемножить соответствующие индексы, которые в данном случае представляют собой темпы роста цен за месяц: 1,02 * 1,01 = 1,03; или сложить соответствующие темпы прироста: 2% +1% = 3% (данная форма вычислений является приблизительной и для больших изменений дает приблизительный ответ с большой погрешностью). Как правило, базисный метод применяется в стабильных условиях и при низкой инфляции. Цепной метод при нестабильном характере предложения и ассортимента товаров и услуг, за ценами на которые ведется наблюдение, при частой смене организаций, участвующих в наблюдении за ценами.

Прочие индексы Индекс Херфиндаля-Хиршмана Индекс внутриотраслевого обмена Грубела- Ллойда (ITT – Intraindustry Trade Index) Коэффициент Джини Индексы конкурентоспособности ВАЖНО! Можно строить собственные индексы в рамках исследования!!

Пример: индекс деловой активности PMI (Purchasing Managers Index индекс используется для оценки изменений в области новых производственных заказов, объема промышленного производства, занятости, а также товарных запасов и скорости работы поставщиков. Индикатор измеряется в % в пределах от 0 до 100%, причем в зависимости о значений составляющих: PMI = 0.30*(New Orders) *(Production) *(Employment) *(Supplier Deliveries) *(Inventories) По динамике PMI index обычно прогнозируют изменения в промышленном производстве, заказах, промышленных ценах, занятости, и, главное, динамика ВВП на полгода вперед - при значении PMI index выше 50% темп роста ВВП будет увеличиваться, если значение ниже 50%, то темпы роста ВВП будут падать и при достижении PMI 44% следует ожидать отрицательного роста ВВП. ВВП ВВП

PMI: продолжение Каждый компонент отчета компилируется в диффузный индекс (diffusion index), который вычисляется как сумма простых процентных изменений значений "выше" и "ниже" плюс половина процента ответов "то же" или "никаких изменений". Диффузный индекс может колебаться между 0 и 100% с различной характеристикой диапазонов: значение 50% означает отсутствие какого-либо изменения; выше 50% - улучшение; и ниже 50% означает снижение. Итоговый показатель делового оптимизма является составным диффузным индексом, который называется Индекс Менеджеров по Закупкам (PMI)(PMI)

PMI: осн. позиции В вопросник включаются следующие позиции: · Production - Производство ; · New orders (New orders from customers) - Новые заказы ; · New export orders - Новые заказы на экспорт ; · Order backlogs - Отставание Заказов ; · Commodity Prices - Цены на товары ; · Inventories of purchased materials - Запасы покупаемых материалов ; · Imports (New import orders) - Новые заказы импорта ; · Employment - Занятость ; · Vendor Deliveries (Delivery time) - Время поставок ; · Items in short supply (Supplier) - товары краткосрочного предложения.export orders

Подтверждающий анализ данных: многомерные исследования Основные проблемы: Трудно выявить и учесть ВСЕ переменные Многие воздействия случайны Ограниченный набор данных + возможны ошибки Математическая статистика – эконометрика – попытка решить эти проблемы Типы эк. Данных: перекрестные данные (cross-section data) и временные ряды ( time series)

Пример: Методы математической статистики подробнее см. Методы ранжирования Корреляционный анализ Построение регрессии Методы группировки – дисперсионный анализ Методы классификации – кластерный анализ Дискриминантный анализ Факторный анализ Многомерное шкалирование Анализ временных рядов И пр.

Измерение взаимосвязей между переменными Выявление взаимосвязи – корреляционный анализ Коэф. Корреляции Пирсона (r) – параметрический Коэф. Корреляции Спирмана (r s ) – непараметрический Коэф.Phi – связь между дихотомными переменными Коэф. Крамера V – между номин. Переменными ( показывает только силу, всегда положит.) Коэф. Eta - связь между интервальными и номинальными переменными, показывает только силу, но не направление, предполагает нелин.зависимость Если связь есть – построение регрессии ( модель)= регрессионный анализ Коэф. Детерминации ( или коэф. Регрессии = квадрат значения коэф. Пирсона * 100) показывает относит. Зависимость изменений одной переменной от другой

Коэффициент Пирсона: формула где Xi - значения, принимаемые переменной X, Yi - значения, принимаемые переменой Y, X - средняя по X, Y - средняя по Y. Или ее преобразовнный аналог

Анализ линейной стат.связи между переменными: корреляция Коэф.корреляции Пирсона (r) r 0.9-0,99Очень высокая пол. корреляция Высокая пол. корреляция Средняя пол. кор Низкая пол. Кор 0- (-0.39) -0.4 – (-0.69) Низкая отр. Кор Средняя отр. Кор -0.7 – (-0.89)Высокая отр. Кор -0.9 – (-0.99)Очень высокая отр. кор

ПРИМЕР: есть ли корреляция? weekNumber of orders (x)Number of calls (y)

ОТВЕТ

Определить степень корреляции (значение коэфф.и сделать выводы о характере зависимости)

Решение: Коэффициент корреляции Пирсона: r xy = /( x11.317)= На основании исходных данных, приведенных в таблице, расчитаем средние значения для X и Y: Х= , Y=5.489 XYX-X ср Y-Y ср (Y-Y ср )*(X-X ср )(X-X ср )

Доверительный интервал( уровень значимости, р-уровень ) и число степеней свободы Доверительный интервал (confidence interval) – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности. Доверительная вероятность (или уровень доверия, confidence level) – это вероятность того, что доверительный интервал содержит значение параметра. Доверительную вероятность принято устанавливать на уровнях 90%, 95% и 99%. Будет зависеть от выборки Число степеней свободы: k=m-2 ( где m-размер выборки)

В нашем примере r= 0,655. Что это значит???? Размер выборки 9 наблюдений Степень свободы 9-2=7 Уровень значимости м.б. 90,95,99% См.Таблицу критических значений коэфф.корреляции Пирсона Сравниваем полученное значение с табличным: если оно меньше табличного ( т.е. Находится вне зоны значимости), то принимаем альтернативную (нулевую) гипотезу об отсутствии линейной зависимости параметров

Таблица критических значений коэф.Пирсона

Критические значения корреляции r xy Пирсона Инструкция для поиска вероятности ошибки (p) для вычисленного коэффициента: 1. Рассчитайте k (степени свободы) по формуле m–2, где m – размер выборки; 2. Найдите в таблице строчку с соответствующим либо наиболее близким k; 3. В найденной строке найдите значение коэффициента корреляции большее либо равное тому, которое Вы рассчитали. Таким образом, определите необходимый столбец; 4. Значение в заглавии столбца (0,05 или 0,01) будет вероятностью ошибки;

Корреляция: коэф. ранговой Корреляции Спирмана (Spearman) (Rs) Непараметрический, используется когда трудно измерить параметры, но можно их проранжировать. Данные должны быть много ( би)вариантны Проранжированы Формула: D – разница между двумя значениями m – количество наблюдений Rs =1 – абс. Пол.лин кор-я; Rs = 0 – кор-ии нет Rs

Корреляция: коэф. Корреляции Спирмана (Spearman) (Rs) Непараметрический, используется когда трудно измерить параметры, но можно их проранжировать. Данные должны быть много ( би)вариантны Проранжированы Формула: D – разница между двумя значениями N – количество наблюдений Rs =1 – абс. Пол.лин кор-я; Rs = 0 – кор-ии нет Rs=1- (6D 2 )/N(N 2 -1)

Пример: есть ли корреляция Производство и расход материалов Месяц Производство(шт)Расход материалов (кг) янв фев март апр май июнь июль

ОТВЕТ ( при n = 7) Произв.Расход Разница(в квадрате) всего

Задание:рассчитать коэф. Спирмана для того же массива данных В таблице представлены значения признаков X и Y:

Решение: Коэффициент корреляции Спирмена: ρ=1-(6*240)/(9*(81-1)=-1 nXранг, R x Yранг, R y разность рангов D, R x - R y D2D

Проверка значений коэф.Спирмана Значение коэф.= -1 Связь существует, отклоняем нулевую гипотезу. Т.к. По коэф.Пирсона связи нет, а по Спирману есть, то Связь нелинейна

Z-значения для часто используемых доверительных интервалов и формулы для расчетов доверит. интервалов

Минимальный объем выборки, требуемый для получения интервальной оценки с заданной доверительной вероятностью и попадающей в интервал заданного размера:

ПРИМЕР: оценка ср. Возраста магистрантов. Каков д.б. Размер выборки? (оценка должна быть сделана сточностью до 1 года и с вероятностью 99%. ) Из ранее проведенного исследования известно, что стандартное отклонение возраста – 2 года. Решение. Для α = 1 – 0,99 = 0,01 z-значение равно 2,58. Е = 1, σ = 2. Подставим в формулу и получим размер выборки равный 27 человек

А если стандартное отклонение неизвестно и размер выборки меньше 30??? Вместо нормального распределения – распределение Стьюдента ( t- распределение) Предложено в 1908 г. В.Госсетом ( опубликовано под псевдонимом Стьюдента)

Основное отличие Отличается от стандартного нормального распределения тем, что дисперсия t-распределения больше 1, распределение представляет собой семейство кривых, различающихся числом степеней свободы. Число степеней свободы t-распределения при построении доверительного интервала для среднего равно: df = n – 1. С увеличением объема выборки распределение приближается к нормальному. Для нахождения t-значений используются таблицы

Проверка значений коэф.Спирмана по таблицам Стьюдента Расчет значимости коэф. По формуле: m- число наблюдений, р-значение коэф. =-1*2.646/( )= Вывод: получ. Значение превышает табличное, отклоняем нулевую гипотезу

Хи- квадрат ( Chi-squared test) Коэф. Корреляции (Пирсона) измеряет силу связи переменных Коэф. Спирмана – то же самое для упорядоченных наблюдений Но иногда данные приводятся в номинальном выражении Непараметрический метод хи-квадрат тест для определения стат. Значимости данных путем проверки случайности( их получения) (contingency)

Хи- квадрат ( Chi-squared test) Коэф. Корреляции (Пирсона) измеряет силу связи переменных Коэф. Спирмана – то же самое для упорядоченных наблюдений Но иногда данные приводятся в номинальном выражении Непараметрический метод хи-квадрат тест для определения стат. Значимости данных путем проверки случайности( их получения) (contingency)

Формула для расчета Расчет хи-квадрат тест Х 2 = сумма ((О-Е )2 \ Е) Где О – фактические значения Е – ожидаемые значения

Пример. Нулевая гипотеза: посещение столовой и прогулы не связаны. Проверяем Факт. Частота наблюдений (О) Посещ.столовую Не посещ.ВСЕГО Кол-во прогульщиков Кол-во судентов посещ.лекции ВСЕГО

Расчеты: Ожидаемая частота наблюдений (Е) Посещ.столовую Не посещ.ВСЕГО (100*50)\180=28(80*50)\180=2250 (100*130)\180=7280*130)\180= ОЕ(О-Е)2\Е \28= \22= \72= \58= ВСЕГО

Проверка значений хи- квадрат теста Таблицы Доверительный интервал ( например 5%-ный, т.е. наша гипотеза верна на 95%) Степень свободы: v = (r-1)(c-1), где r – кол-во строк, с – кол-во столбцов ( в нашем случае v =1) В нашем случае крит. Значение = 3.841, а мы получили значительно больше, след. Нулевая гипотеза отвергается ( т.е. Связь есть)

Расчетное задание: проверить гипотезу методом хи-квадрат теста Принято считать, что учителя более предвзято относятся к мальчикам, чем к девочкам, Т.е. более склонны хвалить девочек. Гипотеза: гендерная составляющая влияет на оценки учеников. Проверка гипотезы: психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались. Данные о частоте встречаемости слов были занесены в таблицу:

Решение: Шаг 1. Построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем: "Активный""Старательный""Дисциплинирова нный" Итого: Мальчики Девочки Итого:161715s=48

Шаг 2: Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s). "Активный""Старательный""Дисциплинирова нный" Итого: Мальчики(21 * 16)/48 = 7(21 * 17)/48 = 7.44 (21 * 15)/48 = Девочки(27 * 16)/48 = 9(27 * 17)/48 = 9.56 (27 * 15)/48 = Итого:161715s=48

Шаг 3: итоговая таблица Категория 1Категория 2Эмпирич. (Э)Теоретич. (Т)(Э - Т)² / Т Мальчики"Активный"1071,28 "Старательный"57,740,8 "Дисциплиниров анный" 66,560,47 Девочки"Активный"691 "Старательный"129,560,62 "Дисциплиниров анный" 98,440,04 Сумма: 4,21 В нашем случае хи-квадрат = 4,21; n = 2. По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99. Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Моделирование и прогнозирование ( forecasting) Анализ временных рядов Прогноз Две осн.модели: аддитивная и мультипликативная

Основные шаги Предсказываем тренд (T): простая лин. Регрессия, скользящее среднее Выделяем сезонную составляющую (S), рассчитываем сезонные индексы Выделяем циклическую составляющую и случайные колебания ( если возможно) Y\T*S = C+I

Множественная регрессия: важные понятия Коэффициент детерминации R 2 (0< R 2

t-статистика Показывает значимость коэф. Регрессии Определяется по таблицам распределения Стьюдента, например: t 8;0,95 =1.860 (где 8 – степень свободы, озн., что имеется 10 наблюдений, 0,95 – доверит.интервал) Общее правило: Если t

Множественная регрессия: репрезентативность данных n – число наблюдений m – количество объясняющих переменных n > m+1 n=m+1 – минимально необх.число наблюдений n-m-1 – показатель степени свободы

Статистика Дарбина-Уотсона Показывает, случайны ли отклонения от регрессионной прямой: если близок к нулю, то имеется пол.авткорреляция остатков Если DW=2 – отклонения носят случайный характер Если DW = 4 – случай отрицат автокор. ( редко)

Статистика Дарбина-Уотсона: критические значения ( при n не менее и при 1-3 переменных в уравнении регрессии) 1

Некоторые доп. понятия Мультиколлинеарность ( только в случае множ.регрессии) – коррелированность двух и более переменных Гомоскедатичность – дисперсия отклонений вокруг среднего стабильна Гетероскедатичность выбор весов параметров вручную

Распространенные сокращения LS метод – метод наименьших квадратов WLS – взвешенный метод наименьших квадратов ( важен для гетероскедатичных данных) МА – Moving Averages ARIMA – Autoregressive Integrated Moving Averages- комбинация авторегрессионных преобразований и скользящего среднего ( обычно в случае автокорреляции остатков) ANOVA – analysis of variation

Пример исследований Моделирование функции спроса на квартиры Прогноз объема продаж с сезоннойсоставляющей (см. Примеры в Excel)