Предварительный анализ данных: характеристика этапов подготовки данных к анализу – табулирование Анализ данных – позволяет подобрать информацию, которая.

Презентация:

Advertisements

Похожие презентации

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.

Advertisements

Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.

Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.

СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.

1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:

Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.

Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.

Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.

Минаева Татьяна Александровна Демьяненко Ирина Николаевна.

Описательные характеристики распределения тестовых результатов 1.Меры среднего положения (меры центральной тенденции). Мода, медиана, среднее 2.Меры вариации.

ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.

ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.

ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.

Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »

Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.

Дисперсионный анализ Врач-ординатор: Чайкисов Ю.С. Иркутский Государственный Медицинский Университет Кафедра Факультетской терапии Иркутск 2007 г.

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.

Проверка статистических гипотез Лекция 20. План лекции: 1.Проверка статистических гипотез. 2.Критерии асимметрии и эксцесса. 3.Критерий Пирсона.

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции

Измерение – это процедура, с помощью которой измеряемый объект сравнивается с некоторым эталоном и получает численное выражение в определенном масштабе.

Транксрипт:

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – табулирование Анализ данных – позволяет подобрать информацию, которая поможет ответить на все вопросы маркетинговых исследований и проверить гипотезы. Анализ данных – позволяет подобрать информацию, которая поможет ответить на все вопросы маркетинговых исследований и проверить гипотезы. Важнейшие процедуры 1. Табулирование предполагает простой подсчет количества случаев, попадающих в ту или иную категорию. Эта процедура помогает провести очистку данных, а так же определить эмпирическое распределение переменной, подсчитать показатели описательной статистики. Табулирование может принимать форму простой или перекрестной табуляции.

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – табулирование Виды табулирования 1) Простая (одномерная) табуляция – это подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной. Одномерная табуляция может использоваться для реализации ряда целей: выявление связей между двумя переменными; выявление связей между двумя переменными; определение степени безответственности позиций в анкете; определение степени безответственности позиций в анкете; локализация грубых ошибок и посторонних значений (грубые ошибки возникают при редактировании, кодировании, клавиатурном наборе или табулировании данных; постороннее значение – это наблюдение, настолько отличающееся по величине от остальных наблюдений, что аналитик предпочитает обрабатывать его как особое событие); локализация грубых ошибок и посторонних значений (грубые ошибки возникают при редактировании, кодировании, клавиатурном наборе или табулировании данных; постороннее значение – это наблюдение, настолько отличающееся по величине от остальных наблюдений, что аналитик предпочитает обрабатывать его как особое событие); для определения эмпирического распределения переменной; для определения эмпирического распределения переменной; для расчета итоговых статистик. для расчета итоговых статистик.

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – табулирование 2) Перекрестная табуляция – это подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно. Она позволяет проверить наличие взаимосвязи между двумя номинальными переменными. Если переменные измерены по интервальной или относительной шкале, то их первоначально преобразуют в номинальные переменные, а затем уже проводят перекрестное табулирование данных. При перекрестном табулировании выборка делится на подгруппы и определяется степень варьирования зависимой переменной в подгруппах. Эти таблицы можно использовать для реализации различных статистических методов, например, критерий хи-квадрат. Проценты могут вычисляться как для каждой ячейки таблицы, так и для строк и столбцов. Важно правильно определить направление, в котором следует рассчитывать проценты. Для этого используют условную вероятность.

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – табулирование Условная вероятность – это вероятность, которая назначается событию «А», когда известно, что произошло событие «Б», или вероятность, которая могла бы быть назначена событию «А», если бы было известно, что произойдет событие «Б». Условная вероятность – это вероятность, которая назначается событию «А», когда известно, что произошло событие «Б», или вероятность, которая могла бы быть назначена событию «А», если бы было известно, что произойдет событие «Б». Связь между переменными в таблице может быть: Полная связь (связь нулевого уровня) существует между переменными вне зависимости от уровня любых других переменных. Полная связь (связь нулевого уровня) существует между переменными вне зависимости от уровня любых других переменных. Условная связь существует между переменными, когда в процессе анализа рассматриваются уровни одной или более других переменных. Эти переменные называют условными переменными. Условная связь существует между переменными, когда в процессе анализа рассматриваются уровни одной или более других переменных. Эти переменные называют условными переменными. 2. Определение эмпирического распределения (распределения частот) показывает количество ответов, попадающих в определенную категорию, и позволяет построить гистограмму эмпирического распределения переменной. Гистограмма представляет собой набор прямоугольников, ширина каждого из которых пропорциональна диапазону значений соответствующей категории, а высота – количеству элементов, попадающих в категорию.

Распределение выборки по возрасту показано в виде гистограммы на рисунке: Предварительный анализ данных: характеристика этапов подготовки данных к анализу – построение эмпирического распределения

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – оценка показателей описательной статистики и выборочного среднего 3. Оценка показателей описательной статистики – это показатели, связанные с распределением частот. Они помогают проанализировать информацию, представленную в таблице частот. К показателям описательной статистики относятся: 1) показатели центральной тенденции (среднее, медиана, мода); 2) показатели вариации (размах, стандартное отклонение, коэффициент вариации); 3) показатели формы (асимметрия и эксцесс). 4. Определение выборочного среднего – это среднее значение, полученное в результате деления суммы ответов на размер выборки. Доля отражает относительную частоту ответов в категории. Она определяется путем деления количества ответов в определенной категории на общее количество ответов по всем категориям. Процент – это доля респондентов, ответивших на вопрос определенным образом, выраженная в процентах. Пропорция используется для определения соотношений между числами Х и У. Пропорция одного числа Х в отношении другого числа У определяется как Х деленное на У. Пропорция дает возможность видеть соотношения между относительным размером двух категорий.

5. Выбор метода анализа данных. На выбор подходящего метода анализа данных влияет ряд факторов: 1) Тип данных и их характеристики. Данные можно классифицировать по шкалам измерения на: номинальные (номинальные данные позволяют использовать самые простые методы анализа; наиболее значимым показателем, который можно определить по этим данным является мода), номинальные (номинальные данные позволяют использовать самые простые методы анализа; наиболее значимым показателем, который можно определить по этим данным является мода), порядковые (на их основе можно рассчитать моду и медиану, провести большинство непараметрических проверок), порядковые (на их основе можно рассчитать моду и медиану, провести большинство непараметрических проверок), интервальные, интервальные, относительные. относительные. Интервальные и относительные данные позволяют проводить как непараметрические, так и параметрические проверки. Интервальные и относительные данные позволяют проводить как непараметрические, так и параметрические проверки. Предварительный анализ данных: характеристика этапов подготовки данных к анализу – выбор метода анализа данных

2) План исследования оказывает существенное влияние на выбор методов анализа данных. Исследователю придется выбирать методы анализа данных в зависимости от ряда обстоятельств: Зависимые или независимые выборки предполагает план исследования. Зависимые или независимые выборки предполагает план исследования. Количество групп в плане эксперимента (если в качестве метода сбора данных выбран эксперимент). Чем большее количество групп формируется, тем более сложные методы анализа данных применяет исследователь. Количество групп в плане эксперимента (если в качестве метода сбора данных выбран эксперимент). Чем большее количество групп формируется, тем более сложные методы анализа данных применяет исследователь. Количество переменных в исследовании (число измерений на один объект). Чем их больше, тем сложнее методы анализа. Количество переменных в исследовании (число измерений на один объект). Чем их больше, тем сложнее методы анализа.

Предварительный анализ данных: характеристика этапов подготовки данных к анализу – выбор метода анализа данных 3) Допущения, на которых основана статистическая проверка. Контроль переменных, влияющих на результаты, и допущения, заложенные в основу статистической проверки, так же следует учитывать при выборе методов анализа данных. Различные методы имеют свои характеристики, преимущества и недостатки и все эти параметры следует изучить еще до того, как будет принято решение о выборе конкретного метода. На выбор стратегии анализа данных влияют опыт исследователя и методология исследования. Опытный исследователь использует большое количество методов, включая самые сложные, но он всегда подбирает наиболее подходящие способы для решения поставленной задачи. Обычно для обеспечения достоверности исследований применяют одновременно несколько методов.

Вопросы для обсуждения по теме «Предварительный анализ данных» 1. Охарактеризуйте этапы анализа качественных данных. Какие сложности могут возникать на каждом из них? Как их преодолеть? 2. Какие этапы предварительного анализа количественных данных Вам известны? Приведите характеристику этих этапов. На примере самостоятельно подобранного примера проиллюстрируйте использование различных методов предварительного анализа количественных данных. 3. Что представляет собой процедура редактирования данных? Охарактеризуйте виды редактирования. Какие проблемы могут возникнуть в процессе редактирования? Каковы способы их решения. Проиллюстрируйте свой ответ на этот вопрос примерами из практики работы российских или приморских компаний. 4. Что представляет собой процедура кодирования? Охарактеризуйте базовые правила кодирования.

Вопросы для обсуждения по теме «Предварительный анализ данных» 5. Какие этапы необходимо соблюдать при проведении кодирования? В чем особенности кодирования неструктурированных вопросов? Проиллюстрируйте свой ответ примерами из российской практики маркетинговых исследований. 6. Что такое преобразование данных и какие процедуры включает этот процесс? 7. Что такое очищение данных и какие процедуры включает этот процесс? 7. Охарактеризуйте решения, которые может принять исследователь при работе с пропущенными данными. В чем преимущества и недостатки каждого из них? 8. Что такое взвешивание данных? Для каких целей оно проводится? Приведите примеры использования этой процедуры в практике маркетинговых исследований.

Вопросы для обсуждения по теме «Предварительный анализ данных» 9. Что такое переопределение переменной? Каковы его цели и способы проведения? В чем преимущества и недостатки каждого из способов? Приведите примеры использования этой процедуры в практике маркетинговых исследований. 10. В чем сущность процедуры табулирования? Охарактеризуйте виды табуляций. Приведите примеры использования различных видов табуляций в практике маркетинговых исследований. 11. Что такое эмпирическое распределение? Для каких целей его используют при проведении анализа данных? Постройте эмпирическое распределение на основе данных, которые Вы получили в процессе самостоятельно проведенного маркетингового исследования. 13. Что представляют собой показатели описательной статистики? Охарактеризуйте их. 14. Что такое выборочное среднее? Для каких целей оно используется при проведении анализа данных? 15. Какие факторы влияют на выбор метода анализа данных? Приведите их характеристику.

Рекомендуемая литература по теме «Предварительный анализ данных» ОСНОВНАЯ ЛИТЕРАТУРА 1. Аакер, Д. Маркетинговые исследования / Д. Аакер, В. Кумар, Дж. Дэй. – СПб.: Питер, – 848 с. 2. Беляевский, И. Маркетинговые исследования: информация, анализ, прогноз / И. Беляевский. – М.: Финансы и статистика, с. 3. Божук, С.Г. Маркетинговые исследования / С.Г. Божук. – СПб.: Питер, – 325 с. 4. Гелберт А. Черчилль. Маркетинговые исследования. СПб.: изд- во Питер, с. 5. Голубков, Е.П. Маркетинговые исследования: теория, методология, практика / Е.П. Голубков. - М.: Изд-во «ДИС», с. 6. Данько Т.,Косоруков О., Самыловский А., Скоробогатых И. Количественные методы анализа в маркетинге. – СПб.: Питер, Дэвис, Джоэл Дж. Исследования в рекламной деятельности: теория и практика: Пер. с англ.-М.: Издательский дом «Вильямс», 2003.

Рекомендуемая литература по теме «Предварительный анализ данных» ОСНОВНАЯ ЛИТЕРАТУРА 8. Ковалик Л.И., Божук С.Г. Маркетинговые исследования. 1-е изд., СПб.: изд-во «Питер», Коротков, А.В. Маркетинговые исследования / А.В. Коротков. – М.: ЮНИТИ-ДАНА, – 304 с. 10. Малхотра, Н.К. Маркетинговые исследования. Практическое руководство / Н.К. Малхотра. - М.: Издательский дом «Вильямс», с. 11. Токарев, Б.Е. Маркетинговые исследования / Б.Токарев. - М.: Издательство «Экономистъ», с. 12. Токарев, Б.Е. Методы сбора и обработки информации: практическое пособие / Б.Токарев. - М.: Издательство «Экономистъ», с.

Рекомендуемая литература по теме «Предварительный анализ данных» ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА 1. Анурин, В. Маркетинговые исследования потребительского рынка / В.Анурин, И. Муромкина, Е.Евтушенко. – СПб.: Питер, с. 2. Березин, И. Практика исследования рынков / И. Березин. - М.: Бератор- Пресс, – 376 с. 3. Дейан, А. Изучение рынка / Пер с фр. Под ред. С.Г. Божук. – СПб: издательский дом «Нева», с. 4. Дэвид, Д. Принципы и практика маркетинговых исследований. – М.: Издательский дом «Вильямс», – 459 с. 5. Елисеева И. И., Юзбашев М. М.. Общая теория статистики. М., Финансы и статистика, Коваль А. И., Войленко В. В. Маркетинговый анализ. М., Центр экономики и маркетинга, Комисарова, Т.А. Методические подходы к исследованию и анализу потребительских предпочтений // Маркетинг и маркетинговые исследования С Наследов, А.Д. SPSS: компьютерный анализ данных в психологии и социальных науках. – СПб.: Питер, – 416 с. 9. Таганов, Д.Н. SPSS: статистический анализ в маркетинговых исследованиях. – СПб.: Питер, – 192 с.

Тема 10. Углубленный анализ данных ЦЕЛЬ: ознакомить слушателей с этапами и методами углубленного анализа данных ЗАДАЧИ: - изучить факторы, влияющие на выбор методов углубленного анализа данных; - рассмотреть классификацию методов анализа данных и последовательность проверки гипотез; - исследовать сущность, область применения, последовательность реализации, преимущества и недостатки методов углубленного анализа данных.

Изучив тему, слушатели должны ЗНАТЬ: сущность, области применения, преимущества и недостатки различных методов углубленного анализа данных;сущность, области применения, преимущества и недостатки различных методов углубленного анализа данных; последовательность реализации различных методов углубленного анализа данных;последовательность реализации различных методов углубленного анализа данных; классификацию методов углубленного анализа данных;классификацию методов углубленного анализа данных; процедуры проверки гипотез;процедуры проверки гипотез; факторы, влияющие на выбор методов углубленного анализа данных.факторы, влияющие на выбор методов углубленного анализа данных. Тема 10. Углубленный анализ данных Изучив тему, слушатели должны УМЕТЬ: правильно выбирать методы углубленного анализа данных;правильно выбирать методы углубленного анализа данных; проверять гипотезы, сформулированные в маркетинговом исследовании;проверять гипотезы, сформулированные в маркетинговом исследовании; грамотно проводить углубленный анализ данных с использованием различных методов;грамотно проводить углубленный анализ данных с использованием различных методов; применять ППП продуктов для проведения углубленного анализа данных.применять ППП продуктов для проведения углубленного анализа данных.

Углубленный анализ данных: Классификация методов анализа данных 1. Одномерные методы применяются для анализа данных в случаях, если существует единый измеритель для оценки каждого элемента выборки, или если этих измерителей несколько, но каждая переменная анализируется отдельно ото всех остальных. Одномерные методы подразделяются в зависимости от того, какие данные анализируют: метрические или неметрические, а так же от количества выборок, используемых в процессе исследования и степени их взаимосвязи. Метрические данные – это данные, которые по своей природе интервальные или относительные. Неметрические данные – это данные, полученные на основе измерений по номинальной или порядковой шкале. Выборки считаются независимыми если они выбраны из разных генеральных совокупностей произвольно. Если данные по двум выборкам относятся к одной и той же группе респондентов, то выборки называют объединенными в пары.

Одномерные методы статистического анализа Метрические данные Неметрические данные Одна выборка Две или более выборок Одна выборка Две или более выборок Независимые методы Взаимосвязанные методы t- критерий z- критерий Двухгрупповой t- критерий z-критерий Однофакторный дисперсионный анализ вариационный ряд; критерий Хи-квадрат; критерий Колмагорова- Смирнова ; критерий серий; биномиальный критерий Независимые Взаимосвязанные критерий Хи- квадрат; критерий Манна- Уитни; медианы; критерий Колмагорова- Смирнова ; критерий Крускала- Уоллиса и ANOVA; дисперсионный анализ критерий знаков; критерий Уилкоксона; критерий МакНемара; критерий Хи-квадрат; Q-тест Кохрэна. Парный t- критерий Углубленный анализ данных: Классификация методов анализа данных

Углубленный анализ данных: классификация методов анализа данных 2. Многомерные методы применяются для анализа данных, если для оценки каждого элемента выборки используются два или более измерителя и эти переменные анализируются одновременно. Данные методы применяются для определения одновременных взаимосвязей между двумя или более явлениями. В случае использования многомерных методов основное внимание уделяется изучению степени взаимосвязи между этими явлениями. Многомерные статистические методы подразделяют на виды в зависимости от того зависимыми или взаимозависимыми являются анализируемые переменные, а так же от количества зависимых переменных. Методы зависимости – это методы, применяемые в случаях, когда одна или более переменных идентифицированы как зависимые, а остальные – как независимые. Методы взаимозависимости – это многомерные статистические методы, цель которых – сгруппировать данные по лежащему в основе сходству, что позволяет интерпретировать разные структуры данных. При этом переменные не подразделяются на зависимые и независимые.

Многомерные методы статистического анализа Методы для зависимых переменных Методы для взаимозависимых переменных Одна зависимая переменная Несколько зависимая переменная Взаимозависимые переменные Межобъектное сходство Кросс-табуляция (более двух переменных); Дисперсионный и ковариационный анализ; Множественная регрессия; Двухгрупповой дискриминантный анализ; Совместный анализ. Многомерный дисперсионный и ковариационный анализ; Анализ канонической корреляции; Множественный дискриминантный анализ. Факторный анализ Кластерный анализ; Многомерное шкалирование. Углубленный анализ данных: классификация методов анализа данных

Углубленный анализ данных: краткая характеристика некоторых методов углубленного анализа данных 1. Множественная линейная регрессия – это линейная регрессия с более чем одной независимой переменной. Этот метод основан на построении уравнения множественной регрессии, в котором рассматривается влияние на результирующий фактор различных переменных. 2. Дисперсионный анализ – это метод проверки гипотезы о различиях нескольких средних. 3. Дискриминантный анализ – это статистический метод поиска набора независимых переменных, позволяющих объединять людей или объекты в одну или более групп. 4. Каноническая корреляция – это метод корреляционного анализа более чем для одного результирующего фактора.

Углубленный анализ данных: краткая характеристика некоторых методов углубленного анализа данных 5. Факторный анализ – это набор методов для изучения взаимосвязей между переменными с целью редукции данных и выявления конструкторов, стоящих за данными. Конструкторы – это концепции, обычно психологические, которые невозможно наблюдать напрямую. 6. Кластерный анализ – это метод группировки индивидуумов или объектов по принципу сходства. 7. Многомерное шкалирование – набор методов, предназначенных для формирования карт восприятия. 8. Совместный анализ – это метод определения относительной ценности каждого из уровней нескольких атрибутов на основе ранжирования данных по предпочтениям различных комбинаций характеристик.

Углубленный анализ данных: вариационный ряд Если при проведении маркетинговых исследований необходимо получить информацию об одной переменной, то целесообразно провести изучение распределения частот значений переменной. Такое распределение направлено на подсчет количества ответов, связанных с различными значениями одной переменной и выражение их в процентном отношении. Распределение частот значений переменной называют вариационным рядом. Анализ вариационного ряда дает возможность построить таблицы с указанием частоты, частости и накопленных частот для всех значений этой переменной.

Углубленный анализ данных: вариационный ряд Степень осведомленности Значение Частоты (N) Частости Достоверные частости Накопленные частоты Плохо осведомлены ,716,716,7 3723,323,340,0 4620,020,060,0 5310,010,070,0 6413,313,383,3 Хорошо осведомлены 516,716,7100, Итого таблицы с указанием частоты, частости и накопленных частот Пример таблицы с указанием частоты, частости и накопленных частот

В графе 1 приведенной таблицы содержатся отметки, присвоенные различным значениям переменной, в графе 2 – коды, присвоенные каждому значению переменной, в графе 3 – количество ответивших респондентов, в четвертой графе – процент респондентов, давших тот или иной ответ. В пятой графе – проценты с учетом пропущенных значений, так как в нашем примере пропущенных значений нет, то значения граф 4 и 5 совпадают. В графе 6 приведены накопленные частости с учетом корректировки на пропущенные значения. Углубленный анализ данных: вариационный ряд

Задачи, решаемые с помощью вариационного ряда: определить долю не ответивших респондентов; определить долю не ответивших респондентов; определить долю ошибочных ответов; определить долю ошибочных ответов; определить количество ответов с экстремальными ответами; определить количество ответов с экстремальными ответами; определить форму эмпирического распределения значений переменной; определить форму эмпирического распределения значений переменной; данные можно использовать для построения гистограмм. данные можно использовать для построения гистограмм.

Углубленный анализ данных: вариационный ряд Статистики, связанные с распределением частот 1. Показатели центра распределения (статистики, которые характеризуют значение признака, вокруг которого концентрируются наблюдения, или, как говорят, показывает центральную тенденцию распределения). Среднее арифметическое, выборочное среднее – это величина получаемая делением суммы всех имеющихся значений переменной на число значений. Среднее арифметическое, выборочное среднее – это величина получаемая делением суммы всех имеющихся значений переменной на число значений. Х – среднее значение количественного признака; j – индекс элементов выборочной совокупности; Хj – количественный признак j-го элемента выборочной совокупности; n количество элементов выборочной совокупности.

Углубленный анализ данных: вариационный ряд Мода – это значение переменной, которое чаще всего встречается в выборочном распределении. Мода – это значение переменной, которое чаще всего встречается в выборочном распределении. Медиана – это значение переменной, которое приходится на середину распределения частот, т.е. одна половина всех значений больше медианы, а другая половина – меньше. Медиана – это значение переменной, которое приходится на середину распределения частот, т.е. одна половина всех значений больше медианы, а другая половина – меньше. 2. Показатели вариации (статистики, показывающие меру разброса значений переменной). Размах вариации – это разность между наибольшим и наименьшим значением переменной в вариационном ряду: Размах вариации – это разность между наибольшим и наименьшим значением переменной в вариационном ряду:

Углубленный анализ данных: вариационный ряд Межквартильный размах – это размах вариации распределения, охватывающий центральные 50% всех наблюдений. Иначе это разница между 75 и 25 % наблюдений. Квартиль - это 25% всех наблюдений.Межквартильный размах – это размах вариации распределения, охватывающий центральные 50% всех наблюдений. Иначе это разница между 75 и 25 % наблюдений. Квартиль - это 25% всех наблюдений. Дисперсия – это среднее из квадратов отклонений переменной от ее средней величины.Дисперсия – это среднее из квадратов отклонений переменной от ее средней величины. - выборочная дисперсия; - значение количественного признака в выборочной совокупности; п i – количество элементов в выборке, имеющих значение количественного признака Xi; - выборочное среднее;

Углубленный анализ данных: вариационный ряд Среднеквадратическое отклонение – это корень квадратный из значения дисперсии. Среднеквадратическое отклонение – это корень квадратный из значения дисперсии. Коэффициент вариации – это величина относительной изменчивости переменной, представляющая собой отношение ее стандартного отклонения к ее среднему значению. Коэффициент вариации – это величина относительной изменчивости переменной, представляющая собой отношение ее стандартного отклонения к ее среднему значению. 3. Показатели формы распределения. Распределение переменной может быть асимметричным или симметричным. При симметричном распределении частоты любых двух значений переменной, которые расположены на одном и том же расстоянии от центра распределения, одинаковы. Равны между собой значения среднего арифметического, моды и медианы. Распределение асимметрично, если значения переменной, равноудаленные от среднего, имеют разную частоту. Асимметрия – это характеристика распределения, которая оценивает симметрию расположения значений данных относительно средней. Асимметрия – это характеристика распределения, которая оценивает симметрию расположения значений данных относительно средней.

Углубленный анализ данных: вариационный ряд Эксцесс – это показатель относительной крутости кривой вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной случайной величины равен 0. Если эксцесс положителен, то распределение более островершинное по сравнению с нормальным распределением. При отрицательном значении распределение более плосковершинное по сравнению с нормальным распределением. Эксцесс – это показатель относительной крутости кривой вариационного ряда по сравнению с нормальным распределением. Эксцесс нормально распределенной случайной величины равен 0. Если эксцесс положителен, то распределение более островершинное по сравнению с нормальным распределением. При отрицательном значении распределение более плосковершинное по сравнению с нормальным распределением. СреднееМедианаМода Асимметричное распределение СреднееМедианаМода

Углубленный анализ данных: проверка гипотез Этапы проверки гипотез Формулировка нулевой гипотезы Но и альтернативной гипотезы Н1. 1. Выбор подходящего метода статистической проверки гипотезы (статистический критерий) и соответствующей статистики критерия (выборочную статистику, тест-статистику). 2. Выбор уровня значимости α. 3. Определение объема выборки и сбор данных. Вычисление значений выборочной статистики. 4. Определение вероятности, которую примет статистика критерия при выполнении нулевой гипотезы, используя соответствующее выборочное распределение. Альтернативный вариант этого этапа: определение критического значения статистики, которое делит интервал на области принятия и непринятия нулевой гипотезы. 5. Сравнение полученной вероятности для тест-статистики (статистики, построенной на основе выборочного наблюдения) с заданным уровнем значимости. Альтернативный вариант данного этапа: определение попадает ли выборочное значение тест-статистики в область принятия или отклонения нулевой гипотезы. 6. Принятие статистического решения, касающегося того, принять или отвергнуть нулевую гипотезу. 7. Выражение статистического решения с точки зрения проблемы маркетингового решения.