Занятие 9 Основы многомерных методов анализа. Факторный анализ.

Презентация:



Advertisements
Похожие презентации
Занятие 7 Краткий обзор дискриминантного, факторного, кластерного анализов.
Advertisements

АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Анализ измерений Классификация методов Наследов А. Д, 2012.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
В задачу регрессионного анализа входит исследование остаточных величин. Исследование остаточных величин.
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучение функции.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Лекция 10 Временные ряды в эконометрических исследованиях.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Проверка качества спецификации модели. Качество спецификации модели Под качеством спецификации модели понимается: - качество выбора функции уравнения.
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Лекция 3 множественная регрессия и корреляция. Уравнение множественной регрессии.
Транксрипт:

Занятие 9 Основы многомерных методов анализа. Факторный анализ.

Методы многомерного анализа (multivariate analyses) Предназначены для анализа многомерных данных Много независимых переменных – Многофакторная ANOVA Множественная регрессия Много зависимых переменных (или переменных, которые нельзя разделить на зависимые и независимые) – multivariate analyses В массиве данных n объектов, для каждого измерено p переменных.

multivariate analyses Многомерное распределение Многомерные методы в большой степени описательны, но если предполагается тестирование гипотез, надо чтобы данные соответствовали многомерному нормальному распределению. Его «центр» - центроид (в одномерном - среднее значение). Как оценить разброс в нём? (в одномерном – суммы квадратов и дисперсия). У нас есть: 1) изменчивость внутри каждой переменной; 2) взаимозависимость переменных. Как же работать с этими разными изменчивостями?

multivariate analyses Используют особые таблицы - матрицы. Одна матрица у нас уже есть – матрица исходных данных (Y). Clevenger & Waltho изучали, сколько раз и как (на велосипеде-верхои- пешком) люди переходят дорогу в заповеднике на разных 11 переходах.

multivariate analyses Матрица (p x p) с суммами квадратов на диагонали (sums-of-squares-and-cross-products, SSCP) Матрица дисперсий и ковариаций (covariances, C) – предыдущая матрица, где все элементы поделили на число степеней свободы (n-1). Сумма элементов её диагонали – сумма дисперсии.

multivariate analyses Матрица корреляций (correlation matrix, R) – получится, если в предыдущей матрице каждый элемент поделить на его стандартное отклонение. На главной диагонали – единицы, все остальные элементы – коэффициенты корреляции

multivariate analyses Фундаментальная процедура в многомерном анализе – получение линейных комбинаций исходных переменных, так, что общая изменчивость по-новому распределяется между ними. Для каждого i-го (от 1 до n) объекта и p исходных переменных можно рассчитать значение новой k-той переменной как Здесь y – значения исходных переменных для данного объекта, с – коэффициенты, показывающие величину вклада данной исходной переменной в новую переменную. В некоторых моделях добавляют ещё константу - intercept Новые переменные называются дискриминантными функциями, каноническими функциями, главными компонентами (principal components) или факторами (в зависимости от типа анализа). Линейная комбинация аналогична уравнению линейной регрессии.

multivariate analyses Новые переменные формируют так, чтобы первая объясняла максимум изменчивости исходных переменных, вторая – максимум оставшейся изменчивости, и.т.д., но так, чтобы новые переменные не коррелировали друг с другом. Так можно получить р новых переменных, но большая часть дисперсии должна сосредоточиться в нескольких первых. Собственное значение ( ) = eigenvalue – показатель того, какая доля общей изменчивости приходится на компоненту. Это популяционные параметры, у них есть выборочные оценки – l Их сумма = сумме дисперсий (если мы их строим на основе матрицы ковариаций), или = числу исходных переменных (для матрицы корреляций). Собственный вектор = eigenvector – просто список коэффициентов при исходных переменных для каждой компоненты.

multivariate analyses Выделим новые компоненты для переходов: В примере используется матрица ковариаций Значения собственных значений для новых переменных Коэффициенты для новых переменных (столбец = eigenvector)

multivariate analyses Теперь можно для каждого конкретного перехода посчитать значения новых переменных = компонент. И, например, использовать в дальнейшем анализе. Мы рассмотрели способ получения компонент (и их значений для объектов) из матриц ковариаций или корреляций (p x p). – R-mode analysis. Есть другой способ: построить матрицу «корреляций» = «дистанций» между объектами (n x n) в исходных переменных, и из линейных комбинаций объектов рассчитать значения новых компонент, и затем найти eigenvectors - Q-mode analysis. Разные пути используются в разных типах многомерного анализа, но вообще-то они алгебраически связаны.

multivariate analyses Матрица «дистанций» меду объектами (dissimilarity matrix):

multivariate analyses Есть много показателей «дистанции» между объектами (самый очевидный – евклидовы расстояния). Дистанции можно посчитать между объектами с любыми переменными, в т.ч. Качественными и даже бинарными!

multivariate analyses Подготовка данных для многомерного анализа Трансформация данных: нормализует распределения и делает отношения между переменными линейными (важно для выделения компонент). Логарифмическая, квадратного корня и пр. можно предварительно построить картинки и оценить сходство – различие между объектами (лица Чернова, «звёздный» график). важно избавить от аутлаеров! Многомерные аутлаеры: их можно найти с помощью дистанций Махаланобиса (квадрат расстояния от объекта до центроида). если переменные измерены в разных шкалах, принципиально использовать матрицу корреляций (не ковариаций) для получения компонент. Если нет – лучше пробовать оба варианта. пропущенные измерения – не casewise, а pairwise deletion.

multivariate analyses Лица Чернова «звёздный» график – star plot

ФАКТОРНЫЙ АНАЛИЗ У нас в руках измерения большого числа переменных для выборки объектов. Наши цели: 1.Уменьшить число исходных переменных с минимальными потерями исходной информации (что, например, уменьшит эффект множественных сравнений) ; 2.Обнаружить скрытые закономерности в данных, которые не выявляются при анализе отдельных переменных, путём помещения в пространство новых переменных (scaling). Например, выявление реальных действующих факторов (причинно-следственных связей), или просто выявление структуры взаимосвязи переменных.

Анализ главных компонент (principal component analysis, PCA) Factor analysis У нас есть n объектов и p переменных. Мы собираемся трансформировать переменные в k (от 1 до p) новых главных компонент = факторов. Для каждого объекта мы получим значения этих компонент – z-значения. В анализе – 6 этапов.

Factor analysis Этап 0. Подготовка данных к анализу. Проверка распределений на соответствие нормальному; Трансформация данных (напр., логарифмирование некоторых переменных); Исключение аутлаеров. Этап 1. Получение eigenvalues для новых компонент В программе их получают из матрицы корреляций, их сумма = числу переменных. Разумно использовать компоненты, для которых eigenvalues > 1. т.е., число компонент будет меньше числа исходных переменных. Напоминание: они независимы между сбой, т.е., ортогональны. Этап 2. получение коэффициентов для каждой компоненты. (Factor Score Coefficients). Они показывают вклад каждой переменной в компоненты. Необязательный этап.

Factor analysis Этап 3. получение factor loadings Это показатели корреляции (Пирсона) компонент с каждой из исходных переменных. Если какие-то переменные почти одинаково коррелируют с несколькими компонентами, можно улучшить структуру компонент: Этап 4. вращение выбранных компонент для получения более чётких связей с исходными переменными. (чтобы loadings приблизились к 0, 1 или -1). Varimax rotation – самый распространённый и удобный метод. Этап 5. получение factor loadings после вращения Рассмотрение корреляций новых, повёрнутых компонент с исходными переменными, понимание их биологического смысла. Этап 6. получение значений новых переменных для каждого объекта (для дальнейшего анализа.)

Factor analysis Несколько слов о компонентах (факторах): В многомерном пространстве первая компонента располагается вдоль наибольшей дисперсии, т.е., это почти аналог линии линейной регрессии. Компоненты взаимно перпендикулярны Компоненты – линейные комбинации исходных переменных Если исходные переменные не коррелируют между собой, не получится собрать много дисперсии в первых компонентах, т.е., уменьшить их число. Сколько компонент оставлять? Это решает исследователь так, чтобы обеспечить биологическую интерпретируемость результатов. Нет смысла оставлять компоненты, с которыми не коррелирует сильно ни одна исходная переменная. Правило «eigenvalue =1».

Вращение компонент (факторов) Factor analysis Выбранные нами факторы (их мало) поворачивают для получения более чёткой структуры переменных. Обычно используют ортогональное вращение – факторы остаются перпендикулярными друг другу. Например, varimax. Не ортогональное вращение – oblique rotation, у него есть свои поклонники, но этот метод не прост. Анализ остатков – residuals – имеет смысл посмотреть, насколько много информации мы потеряли при сокращении числа переменных. На основе наших факторов генерируются корреляции между исходными переменными и сравниваются с реальными корреляциями. Если разница где-то велика, мы взяли слишком мало факторов.

Мы изучаем пищевые предпочтения павианов и разработали комплексные оценки привлекательности разных типов пищи для каждой особи. Павианы едят разную еду, поэтому типов пищи – 10. особей в анализе – 100. Но реальных факторов, определяющих эти предпочтения, наверняка меньше. Мы хотим узнать, сколько (и каких) факторов определяют пищевые предпочтения павианов. Factor analysis

Итак, Мы хотим Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества измеренных нами реальных переменных. Подразумевается, что таких факторов гораздо меньше, чем исходных переменных. Factor analysis

Поясняющий пример: Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на безмене, потом на весах с гирьками, потом на электронных кухонных весах. Потом мы хотим исследовать влияние питания на вес кроликов. Неужели мы возьмём в анализ все три переменные? Ведь, очевидно, вес кролика – только одна его характеристика, а не три. Скорее всего, мы захотим превратить все переменные в одну. Factor analysis

линейными комбинациями Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих факторов. Примерно так будет проходить новая ось OX – первая компонента. Factor analysis

Итак, мы изучаем питание павианов. Типов пищи у павианов 10: апельсины, бананы, яблоки, помидоры, огурцы, мясо, курица, рыба, насекомые, червяки. Мы измеряем привлекательность пищи каждого типа, для каждого зверя. Сколько факторов скрывается за разными предпочтениями павианов в еде?

Principal component analysis (прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций: исключить переменные, слишком сильно коррелирующие с другими)

Просмотрим матрицу корреляций: Не должно быть слишком сильно коррелирующих друг с другом переменных ( иначе матрица не может быть транспонирована: matrix ill- conditioning ) Можно задать min количество дисперсии, которое должен объяснять фактор, чтобы его включили в анализ (обычно min = 1, что соответствует случайной изменчивости одной переменной (критерий Кайзера))

Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.

Этот график показывает, что первые два фактора лучше остальных, они объясняют большую часть общей изменчивости (the scree test).

Посмотрим, как полученные факторы связаны с реальными переменными

оставим две компоненты и проведём вращение, чтобы улучшить их структуру.

Фактор 1 в основном связан с растительной пищей, фактор 2 – с животной. После вращения факторов их структура становится более ясной: Итак, пищевые предпочтения павианов составлены из двух основных факторов – отношением к животной и растительной пище.

Посмотрим, как исходные переменные расположились в пространстве новых факторов

Если мы в дальнейшем хотим проводить анализ связи питания павианов с другими переменными, мы можем заменить наши 10 переменных на полученных два фактора.

Требования к выборкам для проведения факторного анализа нормальное распределение 1.Внутри групп должно быть многомерное нормальное распределение (оценка – на основе построения гистограмм частот); дисперсий 2.Гомогенность дисперсий (для метода главных компонент; не очень критичное требование); линейной 3.Связь переменных должна быть линейной; 4.Размер выборки не должен быть меньше 50, оптимальный – 100 наблюдений. ненулевая корреляция единице 5.Между переменными должна быть ненулевая корреляция, но коэффициентов корреляции, близких единице, тоже быть не должно. Factor analysis

Связь с MANOVA и регрессионным анализом. Factor analysis 1.Если мы на самом деле хотим сравнить группы (из объектов с многими переменными) можно провести MANOVA (это тоже многомерный анализ, но он генерирует только одну переменную), а можно сначала факторный анализ, а потом – однофакторные ANOVA (у второго варианта есть преимущества). 2.Если мы хотим провести множественный регрессионный анализ, можно сначала сделать факторный анализ для независимых переменных (можно - без сокращения их числа), а потом – регрессионный анализ, убрав проблему скоррелированности исходных переменных.

1.Principal factor analysis – если PCA генерирует компоненты, объясняющие изменчивость исходных переменных, то PFA генерирует common factors, объясняющие корреляции между переменными. 2.Correspondence analysis – для анализа таблиц сопряжённости (большого числа качественных переменных). Сумма eigenvalues = общей статистике χ 2 (называется total intertia). 3.Canonical correlation analysis – если у нас есть два блока переменных и мы хотим анализировать корреляции между ними. Генерирует пары переменных из этих блоков (canonical variates) так, чтобы между ними была максимальная корреляция. Другие многомерные методы, близкие анализу главных компонент communality of a variable is the portion that can be reproduced from the respective number of factors

4.Redundancy analysis – усложнённая версия Canonical correlation analysis, предсказывает линейную комбинацию зависимых переменных из комбинации независимых. 5.Canonical correspondence analysis – расширенный вариант Correspondence analysis, в котором дополнительно учитывается влияние добавочных количественных переменных. Другие многомерные методы, близкие анализу главных компонент На свете много многомерных методов!

Расширенный вариант PCA в программе Больше возможностей для манипуляций с переменными, но нет возможности вращения факторов