Информационные технологии прогнозирования SPSS, STATISTICA.

Презентация:



Advertisements
Похожие презентации
1. Сущность выборочного наблюдения, причины и условия его применения. 2. Теоретические основы выборочного наблюдения. Виды и способы отбора единиц в выборочную.
Advertisements

СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
Расчет оптимальной численности выборки. Статистическое наблюдение сплошное Обследование всех единиц изучаемой совокупности не сплошное Обследование части.
Статистические оценки параметров распределения Доверительные интервалы.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Доверительный интервал и доверительная вероятность.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Нормальное распределение: свойства и следствия из них
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
В ЫБОРОЧНОЕ НАБЛЮДЕНИЕ. Под выборочным наблюдением понимается такое несплошное наблюдение, при котором статистическому обследованию (наблюдению ) подвергаются.
Случайные величины: законы распределения. Что было: понятие о случайной величине СЛУЧАЙНОЙ ВЕЛИЧИНОЙ называется величина, которая в результате испытания.
Элементы математической статиститки. Статистика – дизайн информации.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
Экономическая статистика Преподаватель – Грабовский А.Е.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
1 Понятия выборочного исследования Генеральная совокупность – вся социальная группа, про которую необходимо собрать информацию. В большинстве случаев «генеральная.
Транксрипт:

Информационные технологии прогнозирования SPSS, STATISTICA

Литература и ресурсы Дубина И.Н. Математические основы эмпирических социально- экономических исследований. Барнаул, Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, Орлов А.И. Прикладная статистика. – М.: Экзамен, Боровиков В.П., Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows: Основы теории и интенсивная практика на компьютере: Учеб. пособие. – М.: Финансы и статистика, Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL. – М.: ФОРУМ: ИНФРА-М, Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. – СПб.: Речь, Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. – М.: ИНФРА-М, Хили Дж. Статистика: Социологические и маркетинговые исследования. – СПб.: Питер, Кендалл М. Временные ряды. – М.: Финансы и статистика, 1981.

Прогноз Y t =f(Y t-1, Y t-2, …)+ε Y=f(x 1,x 2,…,x n )+ε

Тема 1. Типы измерительных шкал. Оценка основных статистических параметров

Измерительная шкала – это математическая характеристика переменной, определяемая процессом измерения и типом измеряемой переменной

Атрибуты измерительных шкал Упорядоченность шкалы означает, что одна позиция шкалы, определяемая числом и соответствующая выраженности измеряемого свойства, больше, меньше или равна другой позиции. Интервальность шкалы означает, что интервалы между позициями шкалы равны между собой. Нулевая точка (или точка отсчета) шкалы означает, что набор чисел, соответствующих выраженности измеряемого признака, имеет точку отсчета, обозначаемую за 0, которая соответствует полному отсутствию измеряемого свойства.

Номинативная шкала Используется для классификации или идентификации объектов (группировки по классам, каждому из которых приписывается число) Примеры: пол, семейное положение, национальность, религиозная принадлежность, место рождения

Порядковая шкала Присутствует упорядоченность, но отсутствуют атрибуты интервальности и нулевой точки Результатом измерений в порядковой шкале является упорядочение объектов Пример 1. Социально-экономический статус определяется в следующих категориях: 1) «верхний класс»; 2) «средний класс»; 3) «низший класс»

Пример 2. Четверым гонщикам присвоены «места» в соответствии с тем, кто раньше достиг финиша: А1, B2, C3, D4. Пример 3. Выступления спортсменов-фигуристов, как правило, оцениваются по шкале от 1 до 10. При этом оценки, например, от 3 до 5 встречаются гораздо реже, чем оценки от 7 до 9, а наиболее значимыми оценками являются оценки от 9 до 10. Очевидно, что интервал между 9,9 и 10,0 для судей и для спортсменов гораздо больше, чем интервал между 4,9 и 5,0. Пример 4. В школе и в вузе используется 5-балльная система оценки знаний (1, 2, 3, 4, 5). Можем ли мы ответить, насколько 5 «лучше», чем 4?

Использование многих операций с порядковыми данными (например вычисление среднего арифметического) математически некорректно

Интервальная шкала Присутствуют упорядоченность и интервальность, но нет нулевой точки Исследуемому объекту присваивается число единиц измерения, пропорциональное выраженности измеряемого свойства Соответствующие интервалы разных участков шкалы имеют одно и то же значение, поэтому измерения в интервальной шкале допускают не только классификацию и ранжирование, но и точное определение различий между категориями

Примеры интервальной шкалы: фиксация времени и даты, температурные шкалы Цельсия и Фаренгейта Имея данные, представленные в интервальной шкале, мы можем судить о том, насколько больше или насколько меньше выражено измеряемое свойство, но не о том, во сколько раз больше или меньше. Для интервальных шкал характерна произвольность выбора нулевой точки

Шкала отношений Присутствуют все атрибуты измерительных шкал: упорядоченность, интервальность, нулевая точка Примеры: количество сотрудников, доход, определение физических характеристик (веса, длины, высоты, площади, температуры по температурной шкале Кельвина), запись возраста респондента, денежных потоков, численности населения, временных периодов

Базовые процедуры обработки данных и проблема выбора измерительной шкалы Процедуры получения агрегированных и комплексных оценок В эксперименте, основанном на выборочном исследовании, измеряются показатели отдельных элементов выборки. Для анализа показателя по всей выборке необходимо агрегировать измерения, т.е. получить агрегированные (коллективные, групповые, обобщенные) оценки. Получение агрегированных оценок должно выполняться корректно. Для величин, измеренных в метрических шкалах (интервальной и относительной), агрегирование, как правило, осуществляется путем вычисления среднего арифметического по группе. Наиболее распространенная ошибка (с точки зрения математической корректности) – использование арифметических действий для агрегирования данных в неметрических шкалах (чаще всего порядковых), например вычисление среднего балла успеваемости по отдельному предмету по студенческой группе. Синтезирование отдельных показателей в некоторый интегрированный (комплексный) показатель. Например, показатель инновационности компании интегрируется на основе нескольких показателей, характеризующих ее организационный климат. Другим, более распространенным, примером является усреднение баллов успеваемости студента (или студенческой группы) по нескольким дисциплинам.

Для получения корректных результатов исследования необходимо обеспечить корректность получаемых измерений и применяемых процедур обработки Одним из самых «сильных» аргументов в пользу метрического характера шкалы является распределение измерений по нормальному закону Исходным принципом здесь является предположение о том, что измеряемое свойство распределено в генеральной совокупности в соответствии с нормальным законом. Следовательно, измерение данного свойства также должно обеспечивать нормальное распределение. Если это так, то шкала может считаться по крайней мере интервальной

На практике используются два основных способа проверки нормальности распределения данных: визуально-графический способ (нормальность оценивается по различным диаграммам и графикам частот встречаемости признака); статистические критерии нормальности (Колмогорова-Смирнова, Шапиро-Уилка др.).

Нормализация данных Наиболее простым и распространенным нормализирующим преобразованием исходных данных является приведение данных к так называемому стандартному z- распределению со средним, равным 0, и стандартным отклонением, равным 1: где r – исходные данные; m – среднее значение по признаку; s – стандартное отклонение по признаку.

Стандартная T-шкала T=10z+50 Т-распределение имеет среднее, равное 50, и стандартное отклонение, равное 10.

Формирование и анализ выборочной совокупности Выборка (sample) – это ограниченная по численности группа объектов (например респондентов), отбираемая из генеральной совокупности для изучения ее свойств

Выборочное исследование не имеет смысла, если все элементы генеральной совокупности различны (дисперсия измеряемых параметров значительна) Репрезентативность выборки – способность выборки представлять изучаемые явления достаточно полно с точки зрения их изменчивости в генеральной совокупности. Эта характеристика показывает, можно ли распространить результаты, полученные на данной выборке, на всю генеральную совокупность, из которой взята эта выборка. Репрезентативная выборка должна воспроизводить все важные характеристики изучаемой генеральной совокупности. Например, если мы определяем среднюю заработную плату работников отрасли, и генеральная совокупность на 60% состоит из женщин и на 40% – из мужчин, то и выборка из нее должна отражать те же пропорции.

Методы формирования выборок: вероятностные и условно-вероятностные. Методы формирования вероятностных выборок основаны на принципе равновероятностного отбора: вероятность попадания в выборку должна быть одинакова для любого элемента (объекта) исследуемой генеральной совокупности. Вероятность того, что выборка, сформированная по такому принципу, будет репрезентативной, очень высока

Выборка может формироваться на основе повторного или бесповторного вероятностного отборов. Сущность повторного отбора состоит в том, что каждый отобранный элемент (например идентификационный номер) «возвращается» в генеральную совокупность, т.е. существует вероятность, что он снова попадет в выборку. Но на практике такой подход осуществляется редко. Обычно выборочные исследования проводятся по схеме бесповторного отбора, когда повторное попадание одного и того же элемента генеральной совокупности в выборку исключено (например, повторяющийся идентификационный номер игнорируется и тем самым попадает в выборку только один раз). Если объем формируемой выборки намного меньше объема генеральной совокупности, то тогда вероятность извлечения одного и того же элемента дважды весьма мала, поэтому игнорирование повторений не приводит к искажению наших заключений о генеральной совокупности.

Заблуждение 1: Чем больше выборка, тем она репрезентативнее. То, что это не всегда так, демонстрирует пример с прогнозированием исхода президентских выборов в США в 1936 г.: выборка объемом свыше 2 млн. респондентов не обеспечила репрезентативности, прогноз оказался не верен. Выборка, состоящая из 100 элементов, может обеспечить лучшую репрезентативность, чем выборка, состоящая из элементов.

Заблуждение 2: Выборка должна состоять из как минимум 10% элементов генеральной совокупности. На самом деле абсолютный объем выборки – фактор гораздо более важный, чем объем выборки относительно объема генеральной совокупности. Так, например, выборка объемом 100 элементов, извлеченная из 1000 элементов генеральной совокупности, может обеспечить примерно такую же точность оценки, как выборка объемом 1000 элементов, отобранных из 100 миллионов элементов, формирующих генеральную совокупность. Например, при опросах общественного мнения о возможном исходе выборов президента США обычно формируется выборка, насчитывающая «всего» 1500–2000 респондентов, тогда как весь электорат США насчитывает около 150 млн. чел.

Заблуждение 3: Заранее невозможно ответить на вопрос о необходимой и достаточной численности выборки. Это отчасти так. Действительно, требуемый объем выборки можно определить после того, как проведен анализ хотя бы нескольких случайным образом предварительно отобранных элементов генеральной совокупности. Но это может (и должно) быть сделано на стадии предварительного тестирования, что является обязательным этапом любого серьезного исследования. Кроме того, сделать заключение о необходимом объеме выборки можно по результатам предыдущих исследований.

Необходимый объем выборки представляет собой функцию вариации измеряемых параметров генеральной совокупности и точности оценки этих параметров, требуемой исследователем. Например, в зависимости от требуемой точности для одной и той же совокупности может быть достаточно 50, 500 или 5000 элементов выборки. И напротив, заданную точность могут обеспечить 100, 1000 или элементов в зависимости от того, насколько велика дисперсия полученных измерений. Чем больше дисперсия оцениваемых параметров генеральной совокупности, тем больший объем выборки требуется для того, чтобы обеспечить требуемую точность

Точность интервальной оценки параметра, измеряемого при выборочном исследовании, определяется двумя показателями: а) интервалом, в котором ожидается обнаружить оцениваемый параметр; б) вероятностью обнаружения этого параметра в данном интервале. Эти два показателя объединяет понятие доверительного интервала.

Процедура определения доверительного интервала основана на центральной предельной теореме – одной из основных теорем теории вероятностей и статистики. Согласно этой теореме, распределение средних значений выборок, извлекаемых из одной и той же совокупности, соответствует нормальному распределению. Стандартная ошибка среднего

Для любого z можно однозначно определить площадь под кривой любого нормального распределения вне зависимости от величины среднего значения и стандартного отклонения. Так, например, для z=1 около 68,27% всех значений признака располагаются в пределах одного стандартного отклонения по обе стороны от среднего значения при любом нормальном распределении. В пределах трех стандартных отклонений (z=3) умещается почти вся генеральная совокупность, а именно 99,73%. Важным практическим следствием этого свойства является возможность оценить точность определения изучаемого параметра на основе выборочного исследования. Так, с вероятностью P=0,6827 значение изучаемого параметра по генеральной совокупности, который оценивается по элементам выборки, будет попадать в интервал +σх Для z=2 значение вероятности составит 0,9544, т.е. в 95,44% случаев значение исследуемого параметра будет попадать в интервал +2σх. Для z=3 значение вероятности составит 0,9973, т.е. в 99,73% случаев значение параметра будет лежать в интервале +3σх. Значения z для других значений вероятности можно определить из таблиц или с помощью функции Excel НОРМСТОБР, возвращающей значение z при заданной вероятности.

Величина =+zσ х называется доверительным интервалом Величина δ=+zσ х называется предельной ошибкой среднего (или предельной ошибкой выборки) Доверительный интервал фактически характеризует точность оценки измеряемой величины. Для оценки точности выборочных измерений достаточно определить среднее значение и стандартное отклонение по выборке, а также задать уровень значимости.

В случае, когда выборка состоит из менее 100 элементов или когда нет достаточных оснований считать выборочное распределение нормальным, для определения доверительного интервала рекомендуется использовать другое теоретическое распределение – t-распределение Стьюдента Это значение зависит от объема выборки и задаваемого уровня вероятности. Значение t- критерия можно определить из таблиц или с помощью функции Excel СТЬЮДРАСПОБР(1–Р; n–1)

Среднее арифметическое взвешенное Стандартное отклонение взвешенное

Минимально необходимый размер выборки (повторный отбор)

Минимально необходимый размер выборки (бесповторный отбор)

Стандартная ошибка определения пропорции при повторном отборе

Минимально необходимый размер выборки при определении пропорции