Статистические методы анализа Курс «Анализ данных» Панченко Любовь Феликсовна lubap_lg@rambler.ru.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
Описательные характеристики распределения тестовых результатов 1.Меры среднего положения (меры центральной тенденции). Мода, медиана, среднее 2.Меры вариации.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Измерение – это процедура, с помощью которой измеряемый объект сравнивается с некоторым эталоном и получает численное выражение в определенном масштабе.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ Волков Денис Николаевич denisvolkov.com.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
РАЗДЕЛ 1. "ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ОБЩЕСТВЕННОГО ЗДОРОВЬЯ И ОРГАНИЗАЦИИ ЗДРАВООХРАНЕНИЯ" Тема 1.2. «Основы медицинской статистики и организации статистического.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Транксрипт:

Статистические методы анализа Курс «Анализ данных» Панченко Любовь Феликсовна

План Классификация методов исследования Классификация количественных (статистических) методов Элементы теории измерений Описательная статистика Корреляционный и регрессионный анализ Проверка гипотез Факторный и кластерный анализ

Наука начинается там, где есть измерения ( Д.Менделеев) Измеряй все доступное измерению и делай недоступное измерению – доступным (Г.Галилей )

Литература Рекомендации по преподаванию программной инженерии и информатики в университетах =Software Engineering 2004:Curriculum Guidelines for Undergraduate Degree Programs in Software Engineering;Computing Curricula 2001:Computer Science:пер.с англ. М..:ИНТУИТ.РУ «Интернет-Университет Информационных Технологий »,2007. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. - М., Паніотто В.І., Максименко В.С., Харченко Н.М. Статистичний аналіз соціологічних даних. – К.,2004. Адаменко Е.В. Математические методы в педагогике и психологии. Луганск, Панченко Л.Ф. Математические методы в психологии. Луганск, 2005.

Саймон Д. Анализ данных в Excel. М.,2004 Брандт З. Анализ данных. Статистические и вычислительные методы для научных работников и инженеров. М., Мир, Таганов Д.Н. SPSS: статистический анализ в маркетинговых исследованиях. Спб.,2004. Технологии анализа данных. Спб., Винстон У.А. Microsoft Excel: анализ данных и построение бизнес моделей. М., Мидлтон М.Р. Анализ статистических данных с использованием Microsoft Excel. М., Бююль А., Цефель П. SPSS: искусство обработки информации. Спб, 2001

Петрушин Ю.Ю. Информационные технологии анализа данных. М., Тюрин Ю.Н. Анализ данных на компьютере. М., – 544с. Наследов А.Д. SPSS: компьютерный анализ данных в психологии и социальных науках. Спб., Плис А.И. Практикум по прикладной статистике в среде SPSS. М., Анализ статистических данных с использованием Microsoft Excel для Office XP.

Классификация методов исследования (по Ананьеву) Методы исследования Организационные Методы сбора данных Методы обработки данных Методы интерпретации данных

Организационные методы Сравнительный Лонгитюдный Комплексный

Методы сбора данных Опрос Анализ документов Наблюдение Эксперимент

Методы обработки данных Методы обработки данных Качественные Количественные

Количественные методы Количественные (статистические) методы Описательная статистика Проверка гипотез Корреляционный и регрессионный анализ Методы многомерного анализа ( факторный, кластерный)

Элементы теории измерений Измерение – приписывание чисел объектам и их свойствам в соответствии с определенными правилами. Любое измерение производится в той или иной шкале, и выбранная шкала определяет тип получающихся данных и множество операций, которые с этими данными можно осуществлять.

Типы шкал Шкалы измерений Шкала наименований Шкала рангов Шкала интервалов Шкала отношений Мощность шкалы

Номинальная шкала разделяет все объекты на непересекающиеся классы; классы обозначаются номерами; то, что номер одного класса больше или меньше номера другого класса, ничего нам не говорит о свойствах объектов, кроме того, что они различаются.

Пример номинальной шкалы Ваше семейное положение: 1. Женат 2. Холост 3. Разведен 4. Вдовец 5. Состою в гражданском браке

Пример номинальной шкалы для опроса соучеников Гарри Поттера Ваш факультет 1) Гриффиндор 2) Слизерин 3) Когтевран 4) Пуффендуй

Дихотомическая шкала Разновидность шкалы номинальной, которая имеет всего две градации, например: 1) справился с написанием диссертации 2) не справился с написанием диссертации

Порядковая(ранговая) шкала - это шкала, в которой объекты разделены на классы, классы обозначены номерами, но еще и упорядочены по возрастанию или убыванию измеряемого признака.

Пример ранговой шкалы Альбус Дамблдор 1) подходит для занятия вакантной должности директора школы волшебства Хогвартс 2) подходит с оговорками 3) не подходит

Замечания о ранговой (порядковой) шкале Знания, умения, навыки, уровень квалификации, - все эти признаки измеряются ранговыми шкалами. В ранговой шкале мы не знаем истинного расстояния между классами. Класс " подходит для занятий вакантной должности" и "подходит с оговорками" могут быть реально ближе к друг другу, чем "подходит с оговорками" и "не подходит".

В минералогии - шкала твердости минералов Мооса тальк имеет балл 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10.

Бофортова шкала ветров штиль слабый ветер умеренный ветер сильный ветер шторм ураган

В медицине порядковыми шкалами являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско- Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону)

заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия…

В квалиметрии (оценке качества продукции) имеются критические дефекты (делающие невозможным использование) есть значительные дефекты присутствуют только незначительные дефекты нет дефектов.

Интервальная шкала В интервальной шкале существует единица измерения, с помощью которой объекты можно классифицировать, упорядочить, и приписать им числа так, чтобы классы отстояли друг от друга на равном расстоянии. Точка 0 на такой шкале произвольна и не говорит об отсутствии свойства, которое измеряется. Примеры шкал: шкала календарного времени и шкала температур (по Цельсию).

Пример интервальной шкалы Комфортная температура в компьютерном классе 2-15 во время вычислительной практики 1) градусов 2) градусов 3) градусов

Шкала отношений Шкала отношений определяется как интервальная, однако точка 0 на такой шкале свидетельствует об отсутствии измеряемого свойства. Примеры: время выполнения задания, число ошибок, число правильно решенных задач, доход, цена, вес…

Описательная статистика предназначена для компактного описания имеющихся данных Шкалы для измерения данных Табулирование данных Графическое представление (гистограммы, полигоны, кумулятивные кривые) Вычисление статистических показателей ( абсолютных, относительных, процентных частот, накопленных частот, процентилей, мер центральной тенденции, мер изменчивости, асимметрии, эксцесса, определение формы распределения измеряемых величин)

Задача на описательную статистику В связи с вхождением в Болонский процесс администрацию школы чародейства и волшебства Хогвартс интересует информация о предметах, выбранных учениками в качестве «экзамена по выбору». В результате опроса было установлено, что «зельеваренье» выбрали 10 человек, «трансфигурацию» – 15, «нумерологию» - 3, «прорицание» - 8, «историю магии» -5. Постройте частотное распределение для этих данных, рассчитайте относительные, процентные и накопленные частоты. Постройте диаграммы и графики.

«Экзамен по выбору» в школе волшебства Хогвартс ПредметЧисло учеников Зельеварение10 Трансфигурация15 История магии5 Нумерология8 Прорицание3 Всего41

Расчет относительных и процентных частот Предмет Число учеников Относитель- ная частота Процентная частота Зельеварение100,2424,4 Трансфигурация150,3736,6 История магии50,1212,2 Нумерология30,077,3 Прорицание80,2019,5 Всего 41

Гистограмма частотного распределения учеников школы волшебства Хогвартс (экзамен по выбору)

Меры центральной тенденции Мода Медиана Среднее арифметическое

Мода Мода – это такое значение в множестве наблюдений, которое встречается наиболее часто. В совокупности значений (2, 6, 6, 8, 9, 9, 9, 10) модой является 9.

Соглашения об использовании моды В случае, когда все значения в группе встречаются одинаково часто, принято считать, что группа оценок не имеет моды. Т.о. в группе (0,5; 0,5; 1,6; 1,6; 3,9; 3,9) моды нет. Когда два соседних значения имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений. Итак, мода группы значений (0, 1, 1, 2, 2, 2, 3, 3, 3, 4) равна 2,5. Если два несмежных значения в группе имеют равные частоты и они больше частот любого значения, то существует две моды. В группе значений (10, 11, 11, 11, 12, 13, 14, 14, 14, 17) модами являются 11 и 14; в таком случае говорят, что группа является бимодальной.

Медиана Это значение, которое делит упорядоченное множество данных пополам, так, что одна половина значений оказывается больше медианы, а другая – меньше. Если данные содержат нечетное число различных значений, например, 11, 13, 18, 19, 20, то медиана есть центральное значение, когда они упорядочены, т.е. Md=18. Если данные содержат четное число различных значений, например, 4, 9, 13, 14, то медиана есть точка, лежащая посередине между двумя центральными значениями, когда они упорядочены: Md=(9+13)/2=11.

Среднее арифметическое Среднее совокупности n значений определяется как или

Выбор меры центральной тенденции При выборе меры необходимо учитывать следующее: В малых группах мода может быть совершенно нестабильной На медиану не влияют величины "больших" и "малых" значений. На величину среднего влияет каждое значение. Некоторые множества данных просто "не имеют центральной тенденции", что часто вводит в заблуждение при вычислении только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду. Центральная тенденция группы данных, содержащих крайние значения, возможно наилучшим образом измеряется медианой, когда гистограмма унимодальна.

Меры изменчивости Размах Дисперсия Стандартное отклонение

Вариационный размах Размах – это разность максимального и минимального значений в группе. Например: размах, значений 0, 2, 3, 5, 8 равен 8-0=8. Размах не учитывает распределения всех значений, помимо максимального и минимального. Размах является довольно грубой, но общераспространенной мерой изменчивости.

Дисперсия

Стандартное отклонение Мерой изменчивости, тесно связанной с дисперсией, является стандартное отклонение. Стандартное отклонение, обозначаемое s, определяется как положительное значение квадратного корня из дисперсии.

Асимметрия: два асимметричных распределения частот

Формула для асимметрии

Эксцесс Иногда важно получить представление о том, являются ли полигон частот или гистограмма островершинными или плоскими. Эксцесс – это греческое слово, обозначающее свойство "остроконечности" кривой.

Островершинная, плосковершинная и средневершинная кривая распределения частот

Формула для эксцесса

Описательная статистика с помощью MS Excel для Windows Меню: Сервис, Анализ данных, Описательная статистика

Описательная статистика ( MS Excel) числа правильно решенных задач в контрольной группе до эксперимента Число правильно решенных задач в контрольной группе до эксперимента Среднее13,57 Станд. ошибка1,65 Медиана13,00 Мода#Н/Д Станд. отклонение4,35 Дисперсия18,95 Эксцесс-1,16 Асимметрия0,34 Интервал12,00 Минимум8,00 Максимум20,00 Сумма95,00 Счет7,00

Корреляционный анализ Используется тогда, когда цель исследования состоит в обнаружении или доказательстве связи между двумя или более переменными, наблюдающимися у всех членов выборки. Задача корреляционного анализа установление корреляционной зависимости между переменными и определение величины этой зависимости в виде коэффициентов корреляции.

Взаимосвязь бесполезно потраченного студентом времени и среднего балла студента Время, потраченное на просмотр мыльных опер Средний балл 1421,8 2233,0 3312,2 4352,9 5163,7 6263,0 7392,4 8193,4

Диаграмма рассеивания

Схематическое представление силы и направления корреляции Сильная + Сильная - Полная + Полная - Отсутствие

Корреляция в Excel

Регрессионный анализ Задача регрессионного анализа выражение корреляционной зависимости в виде функциональных отношений. Имея функциональное отношение связи между переменными можно оценивать У по Х. Переменная, которую мы хотим оценить называется зависимой переменной У, а переменная используемая для ее оценки - независимой переменной или фактором Х.

Диаграмма рассеивания, линия предсказания, уравнение регрессии

Регрессия в Excel

Сервис, Анализ данных, Регрессия

Проверка гипотез ( теория статистического вывода) Проверка гипотез, состоит в том, что исследователь заранее формулирует некоторое утверждение о параметрах генеральной совокупности, затем оценивает степень соответствия результатов, полученных в выборочном исследовании, сформулированной гипотезе и принимает решение об истинности или ложности гипотезы.

Статистические гипотезы разделяются на Нулевая гипотеза - это гипотеза об отсутствии различий Она обозначается как Но. Альтернативная гипотеза - это гипотеза о значимости различий. Она обозначается как H1.

Структура эксперимента Начальное состояние Конечное состояние Экспериментальная группа Экспериментальная группа Контрольная группа Контрольная группа Экспериментальная методика Традиционная методика Время

Алгоритм действия исследователя На основании сравнения 1 показать отсутствие статистически значимого различия между группами до эксперимента Реализовать воздействие на экспериментальную группу На основании сравнения 2 установить статистически значимое различие между группами после эксперимента

Алгоритм проверки гипотез 1.Формулирование нулевой и альтернативной гипотезы H0 : Не существует зависимости между количеством времени, бесполезно потраченным студентом, и его средним баллом 2. Выбор подходящего статисти- ческого критерия, назовем его К. Коэффициент корре- ляции Пирсона-Браве 3. Расчет по данным выборки эмпирического значения Кэмп r эмп = - 0,89 4. На основании объема выборки, уровня значимости, числа степеней свободы определение критического значения критерия Kкрит из таблиц n=8, =0,05 r крит = 0, Сопоставление эмпирического и критического значений критерия: Если Kэмп>Kкрит,то Ho отвергается. r эмп > r крит Нo отвергается

Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению Число сравни- ваемых выборок ЗависимостьТест 2Независимыеt-тест Стьюдента 2Зависимыеt-тест Стьюдента для зависимых выборок

Для зависимых выборок

Для независимых выборок

Цели факторного анализа сокращение числа переменных (редукция данных) определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.

Изучение личности человека Следующая схема иллюстрирует последовательные шаги экспериментальной психологии в уменьшении размерности пространства признаков при изучении личности человека с помощью семантического и факторного анализа.

18 факторов 1 порядка 1. Тревожность 2. Раздражительность 3. Ипохондрия 4. Шизоидность 5. Паранойяльность 6. Подозрительность 7. Фобии( страхи) 8. Гипотимия (подавленность) 9. Интропсихическая неупорядоченость 10. Конфликты узкого круга 11. Независимость 12. Расторможенность 13. Совестливость 14. Общительность 15. Робость, стеснительность 16. Активность, стеничность 17. Эстетическая впечатлительность 18. Женственность

6 факторов 2 порядка После применения факторного анализа выявлено 6 факторов 2 порядка. 1-й фактор типичен для неврастенических состояний (невротизм) 2-й - симптомы психических расстройств 3-й - снижение настроения (депрессия) 4-й - асоциальность 5-й - интроверсия (социально контактная личность) 6-й - интерес к духовным ценностям, мягкость, доброта (сензитивность)

Кластерный анализ Другим направлением конденсации информации является кластерный анализ (таксономия, автоклассификация, распознавание образов). Аналогично факторному анализу задачей кластерного анализа является такое представление многомерного массива информации в сжатом виде, чтобы потеря информации не была чрезмерной. Он позволяет объединить множество объектов в небольшое число однородных групп, называемых кластерами.

Графическая иллюстрация кластеров для двух признаков: стаж и зарплата Стаж зарплата

Компьютерные программы для статистических вычислений Мicrosoft Excel Statistica ( SPSS для Windows (

Заключение Элиота Аронсона, выдающегося социального психолога спросили, что помогает ему в исследованиях. - «Три вещи. Во-первых я страстно интересуюсь поведением людей в обществе, во-вторых, мне нравится делать открытия, способные улучшить жизнь людей, и наконец, сам процесс исследования – это большое удовольствие».