Метод главных компонент Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и затем вновь открыт и детально разработан Хоттелингом /1933/.

Презентация:



Advertisements
Похожие презентации
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Advertisements

Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Лекция 10 Временные ряды в эконометрических исследованиях.
Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.
Лекция по МОП ТЕМА: Измерение связи двух признаков.
Математические модели Динамические системы. Модели Математическое моделирование процессов отбора2.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
1 Построение регрессионных моделей и решение задачи предсказания.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Компьютерная геометрия и графика. Лекция 6. План занятия: Виды проектирования. Обобщенные координаты пространства. Матричные преобразования.
Статистическое моделирование экспериментального плана Лекция 3.
Транксрипт:

Метод главных компонент Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и затем вновь открыт и детально разработан Хоттелингом /1933/.

Переменные, значения которых можно измерять в эксперименте, имеют для исследуемого объекта или явления нередко достаточно условный характер, лишь опосредовано отражая его внутреннюю структуру, движущие силы (механизмы) или действующие на объект факторы. Здесь исследователь ограничен набором физических явлений или другого типа показателей, доступных для экспериментального измерения и ориентированной на их регистрацию существующей измерительной аппаратурой или субъективными мнениями опрашиваемых. Когда неизвестный фактор проявляется в изменении нескольких переменных, в процессе анализа можно наблюдать существенную корреляцию или связь между этими переменными. Тем самым глубинных (скрытых) факторов может быть существенно меньше, чем измеряемых переменных, даже само число которых выбирается исследователем достаточно субъективно.

Многомерные случайные величины изображают в многомерном признаковом пространстве облаком точек. Предполагается, что облако имеет форму, близкую к многомерному эллипсоиду.

Преобразование исходных данных сводится к переносу и вращению системы координат в признаковом пространстве. Начало координат переносится в центр тяжести облака Осуществляется поворот таким образом, чтобы оси многомерного эллипсоида совпали с осями координат. Оси эллипсоида ранжируются по длине, и та координатная ось, которая совпадает с наиболее длинной осью эллипсоида, называется первой, следующая по длине – второй и т.д. Первая главная ось Вторая главная ось и т.д.

Рассчитываются координаты точек в новой системе. X1 F1 F2 f2f1 Эти новые координаты называются главными компонентами. Коэффициенты и - косинусы углов между старыми и новыми осями. Они равны собственным векторам матрицы дисперсий и ковариаций исходных данных. Дж. С. Дэвис «Статистический анализ данных в геологии», том1, стр. 147 [74], Г.С. Поротов «Математические методы моделирования в геологии», стр. 127 О собственных векторах и собственных значениях матриц можно прочитать:

В процессе вращения сумма дисперсий остается постоянной, т.е. является инвариантом (она зависит только от взаимного расположения точек в облаке), но происходит перераспределение дисперсий. x1x1x f1f , ,96, x1x2 f1f2 Максимальная дисперсия оказывается сосредоточенной в первых главных компонентах, которые и несут основную информацию. Минимальной дисперсией обладают последние компоненты. Они несут малую информацию, и ими можно пренебречь. Дисперсия в процентах Можно говорить о выделении новых признаков (факторов), более важных и существенных для изучаемого феномена по сравнению с исходными переменными

f1f2 x x Факторные нагрузки Чем больше абсолютная величина факторной нагрузки, тем сильнее зависимость переменной от фактора. Чем сильнее связь исходной переменной с факторной, тем больше её вклад в значения «существенного» признака. Эта связь характеризуется коэффициентом линейной корреляции между исходной переменной и её проекцией на главную ось и называется нагрузкой этой переменной на главную ось (или факторной нагрузкой).

Факторные нагрузки часто имеют геологическое содержание. Фактор 1Фактор 2 Pb Ag Cd Zn Общ.дис Доля общ Проекция факторных нагрузок на плоскость факторных осей.

Задачами факторного анализа являются: нахождение системы существенных или действенных факторов в пространстве регистрируемых переменных; сокращение числа переменных без существенной потери информации; Целесообразность выполнения факторного анализа определяется наличием корреляций между переменными. На практике так обычно и бывает. Если же корреляции между всеми переменными небольшие, то факторный анализ бесполезен.

Пример

Корреляции могут вычисляться различными методами. Наиболее часто в практике используются: 1) параметрические коэффициенты корреляции Пирсона применяются в случае метрических и нормально распределенных исходных данных; 2) ковариации представляют собой взаимные вариации между переменными, их использование сравнительно менее употребительно, но позволяет в вычислениях учитывать не только степень взаимосвязанности (коррелированности) переменных, но и абсолютную величину ковариаций; 3) непараметрические коэффициенты корреляции Спирмана применимы в случае ненормально распределенных числовых данных и ранговых переменных; Исходным материалом для процедуры факторного анализа является корреляционная матрица mm, вычисленная между всеми парами переменных в исходной матрице mn. Если выбраны «Исходные данные», они будут преобразованы в матрицу корреляции. Исходные данные.

Из статистических соображений желательно, чтобы число объектов или измерений было бы не меньше числа переменных, еще предпочтительнее, чтобы их было в 23 раза больше. Невыполнение этого условия может привести к неадекватному завышению числа главных факторов, к искажениям факторных нагрузок исходных переменных и распределения объектов в факторном подпространстве. Желательно предварительно удалить из данных сильные выбросы (более трех стандартных отклонений), поскольку они могут существенно повлиять на перераспределение дисперсии между переменными. Желательно также найти все пары переменных, связанные между собой сильными функциональными зависимостями, и оставить по одному представителю из каждой такой пары. В противном случае такие зависимые переменные будут существенно смещать дисперсию объектов, а следовательно и вектора факторов. Выбор переменных.

Основное различие между ними состоит в том, что в анализе главных компонент предполагается, что должна быть использована вся изменчивость переменных, тогда как в анализе главных факторов используется только изменчивость переменной, общая и для других переменных (так называемая, «общность»). С вычислительной точки зрения различие состоят в том, что в анализе главных компонент используется матрица корреляции, у которой на главной диагонали стоят единицы (коэффициент корреляции признака с самим собой), а в факторном анализе – матрица, у которой на главной диагонали единицы заменены общностями. Общность для каждой переменной, в большинстве случаев, вычисляется как коэффициент множественной корреляции между этой переменной и всеми остальными. В большинстве случаев эти два метода приводят к весьма близким результатам. Существует 2 модели факторного анализа: метод главных компонент анализ главных факторов (собственно факторный анализ). Выбор метода

Количество факторов. Критерий Кайзера: отбрасывание компонент, собственные значения которых меньше единицы (если все корреляции между переменными равны нулю, то все собственные значения равны 1, поэтому компоненты со значениями меньше 1 менее значимы, чем сами переменные) Вы можете предположить (из геологической ситуации) какое количество факторов (процессов) обуславливает наблюдаемые значения признаков; использовать критерий Кайзера выделить большое количество факторов, а потом отобрать наиболее существенные, используя график «каменистой осыпи». отбрасить компоненты, суммарно отражающие менее 530% общей дисперсии

Результаты и интерпретация. Нагрузки. Три выделенных фактора (главные компоненты) «объясняют» в сумме 66% общей изменчивости переменных, выбранных для анализа. Первый фактор – 35,6%; второй – 17,5 и третий – 13% Первый фактор обуславливает согласованное поведение Cr,Co,Ni и, отчасти, Sn. Второй фактор - Zn, Ag и, отчасти, Pb (у Pb сравнимая нагрузка на третий фактор). Третий фактор - «медный» + частично Sn и Pb

Предложены различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Вращение выделенных факторных осей. Типичными методами вращения являются варимакс, квартимакс и эквимакс. В данном примере вращение факторных не изменяет факторной структуры.

Интерпретация факторов существенно упрощается при выполнении принципа простой структуры переменных (Thurstone, 1931): каждая переменная имеет большие нагрузки (более 0,7) на один фактор и малые (менее 0,2) по всем остальным. Приблизиться к простой структуре можно путем пошагового сокращения числа факторов и переменных: а) исключение факторов, по которым ни одна из переменных не получила максимальной нагрузки; б) исключение переменных, получивших сравнимые и высокие нагрузки по двум и более факторам.

Визуализация факторной структуры.

Выбор количества «существенных» факторов. График «Каменистая осыпь» Используется точка перегиба к выполаживанию графика (критерий Кеттелла).

Сохранение результатов для дальнейшего анализа (кластеризация, регрессия, пространственный анализ)