Занятие 7 Краткий обзор дискриминантного, факторного, кластерного анализов.

Презентация:



Advertisements
Похожие презентации
Занятие 9 Основы многомерных методов анализа. Факторный анализ.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Проверка гипотез на примере уравнения регрессии Проверка гипотез и соответствующие статистические выводы являются одними из центральных задач математической.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучение функции.
Понятие эконометрики и эконометрических моделейO Эконометрика это наука, которая на базе статистических данных дает количественную характеристику взаимозависимым.
Лекция 3 множественная регрессия и корреляция. Уравнение множественной регрессии.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, изучении доходности акций, изучении.
1 Эконометрика Жукова Людмила Вячеславовна Каф. Математическая экономика(315 каб.)
Анализ измерений Классификация методов Наследов А. Д, 2012.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
Транксрипт:

Занятие 7 Краткий обзор дискриминантного, факторного, кластерного анализов.

Дискриминантный анализ У нас есть зверьки разного возраста, у которых измеряли 20 показателей. По каким из них лучше всего определяется возраст? Собирали данные про школьников 11-го класса (20 разнокачественных переменных); после этого школьники поступили в ВУЗ, колледж или вообще никуда не поступили. Какие показатели лучше всего предсказывают судьбу школьника?

Для решения таких задач создан ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis) Основная идея: Мы измерили целый набор переменных, и у нас ИЗНАЧАЛЬНО ЕСТЬ ГРУППЫ. Мы хотим понять, чем отличаются между собой эти группы (на основе данных переменных). (скажем, когда мы потом измерим эти переменные у новой особи, мы сможем с известной вероятностью отнести её к той или иной группе).

Дискриминантный анализ Суть анализа: Очень близок ANOVA. Проверяет, отличаются ли группы на основе СРЕДНИХ ЗНАЧЕНИЙ переменных. (Пример про мужчин и женщин, которые высокого и низкого роста). Если в ANOVA переменная одна, мы считаем F-статистику на основе внутригрупповой и межгрупповой дисперсий. Когда переменных много (MANOVA и дискриминантный анализ) – создают матрицу дисперсий. Строим «Модель» - способ определения, к какой группе относится данное измерение. Переменные включаем в модель по одной, начиная с той, которая лучше всех разделяет группы (Forward stepwise analysis) (Backward stepwise analysis – наоборот, сначала в модели все переменные и их по одной убирают).

На каждом шаге (для каждой переменной) считается статистика F, т.е. мы сравниваем группы по этой переменной. F to enter: показывает, насколько хорошо группы отличаются по этой переменной (для Forward stepwise analysis) Можно задать минимальное значение, ниже которого переменная не будет включена в модель (когда анализ дойдёт до соответствующего шага, он остановится). F to remove: то же самое; показывает, насколько «плохо» группы отличаются по этой переменной (для Backward stepwise analysis). Дискриминантный анализ (нельзя использовать эти статистики в качестве результатов ANOVA)

Мы изучаем лемуров на Мадагаскаре. У нас 3 вида лемуров, мы поймали зверьков разных видов, взвесили, померили голову и зубы. Вопрос: по какой из переменных мы лучше всего отличим виды? Дискриминантный анализ

масса Оказалось, что, несмотря на то, что средние значения для каждой переменной у разных видов отличаются, их распределения сильно перекрываются и для массы, и для головы, и для зубов! Как же быть? X1X1 X2X2 размер головы Дискриминантный анализ

X1X1 X2X2 размер головы Z Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше зверьков одного из видов получили высокие значения Z, и как можно больше зверьков другого вида – низкие значения Z. масса Поиск такой переменной ведётся на основе ANOVA и регрессионного анализа Дискриминантный анализ

Создание дискриминантной функции Из выбранных нами переменных (на основе F to enter) рассчитываем новую переменную Z (дискриминантную функцию) –линейную комбинацию исходных переменных, которая наилучшим образом разделит группы (напр., виды). X i - исходные переменные Дискриминантный анализ Если группы две: получается одно уравнение Group = a + b 1 x 1 + b 2 x b m x m. Когда групп много, получают несколько дискриминантных функций, «перпендикулярных» друг другу. Чем больше коэффициент при переменной, тем лучше она разделяет группы (не говорит, какие именно).

Дискриминантный анализ Программа сама выбирает «лучшую» дискриминантную функцию и строит её первой, потом «лучшую» из оставшихся возможных, и.т.д. – всего k-1 или j-1 функций (k – число групп, j – число переменных, выбирают меньшее из этих чисел). Выбор и построение функций осуществляется с помощью Канонического анализа (Canonical analysis) – это один из вариантов регрессионного анализа. Коэффициенты в дискриминантной функции (b или β) соответствуют тому, какой вклад вносит данная переменная в разделение групп.

Дискриминантный анализ Интерпретация дискриминантных (=канонических) функций: Каждую дискриминантную функцию характеризует Root (канонический корень), и мы можем проверить, сколько функций в нашем анализе действительно помогает различить группы, и какую часть изменчивости они объясняют (и исключить недостоверные). standardized b coefficient – позволяют оценить вклад каждой из переменных в различение групп данной дискриминантной функцией. Структура факторов (factor structure coefficients) – позволяет понять, насколько какие переменные коррелируют с дискриминантными функциями.

Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного вида, измерить у него X 1 и X 2, рассчитать значение Z на основе уже посчитанных коэффициентов, и с некоторой точностью причислить его к тому или другом виду. Дискриминантный анализ

Теперь можно предсказать, к какой группе относится та или иная особь, и оценить точность этого предсказания! Строятся классификационные функции (для каждой группы), и можно для каждой особи посчитать их и отнести в ту или иную группу. Можно провести на основе уже посчитанных функций классификацию тестовой выборки. Классификация:

Итак: известно, к какой группе они принадлежат Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к какой группе они принадлежат (т.е., только для тех особей, для которых вид известен). Если у нас есть набор признаков, и мы их на основе хотим создать группы (например, поделить вид на подвиды), это – задача для другого анализа! (для количественной таксономии, numerical taxonomy). Дискриминантный анализ

Discriminant function analysis

Выберем переменные для анализа. Выберем пошаговый анализ. Критерии, по которым мы будем включать переменные для построения дискриминантной функции. Толерантность – позволяет задать минимальный необходимый вклад переменной по сравнению с другими переменными, т.е., исключить избыточные переменные. Ступень 1: создание модели

Прежде чем приступить к анализу, посмотрим, есть ли разделение на группы по нашим переменным.

Предварительный анализ переменных: насколько по ним вообще различаются группы (на основе ANOVA) Wilks lambda – статистика, оценивает мощность дискриминации модели после введения в неё переменной. Чем она меньше – тем больше вклад F to enter – статистика для оценки достоверности вклада переменной в дискриминацию.

Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже включены в анализ. Partial lambda - статистика для вклада переменной в дискриминацию между совокупностями. Чем она меньше, тем больше вклад переменной. Переменная Голова лучше помогает различать виды, чем Масса.

Последний Шаг 3: дискриминация между видами значима Partial lambda: Переменная Голова даёт вклад больше всех, а вклад Зуба – недостоверный.

Ступень 2: создание дискриминантной функции Предпримем канонический анализ Дискриминантных функций у нас 2 Значимой оказалась только первая функция (root)

Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями. Standardized coefficients – коэффициенты для сравнения значимости. «Голова» лучше всех позволяет различать группы Первая функция объясняет 99,4% изменчивости

Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует с ней). Структура факторов (дискриминантных функций)

Мы можем посмотреть на разницу средних значений функций между группами. Кошачий лемур сильно отличается от других видов по значения первой функции

Ступень 3: классификация Функции классификации : мы получаем для них коэффициенты, и можем классифицировать новых лемуров: взять новую особь, посчитать для неё функцию для каждой группы, и отнести её в ту группу, для которой значение будет наибольшим! Значения p – вероятности случайного причисления лемура к той или иной группе, исходя из размеров группы.

Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или иной группе на основе функций классификации. Теперь можно взять других особей (они должны стоять в той же таблице) и посмотреть процент правильного причисления в группы

На основе дистанций Махаланобиса от каждого измерения до центра группы можно посмотреть, к какому виду тот или иной лемур причисляется. Неправильные причисления помечены звёздочками

Требования к выборкам для проведения дискриминантного анализа средних дисперсий 3. Не должно быть корреляции средних значений и дисперсий в группах; 4. Не должно быть чрезмерно коррелирующих друг с другом переменных. нормальное распределение 1. Внутри групп должно быть многомерное нормальное распределение (оценка – на основе построения гистограмм частот); дисперсий 2. Гомогенность внутригрупповых дисперсий (не очень критичное требование);

ФАКТОРНЫЙ АНАЛИЗ Мы много лет изучаем пищевые предпочтения павианов и разработали комплексные оценки того, как они относятся к разным типам пищи. Павианы едят разную еду, поэтому типов пищи – 10. Но реальных факторов, определяющих эти предпочтения, наверняка меньше. Мы хотим узнать, сколько (и каких) факторов определяют пищевые предпочтения павиана.

Итак, Мы хотим Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества измеренных нами реальных переменных. Подразумевается, что таких факторов гораздо меньше, чем исходных переменных.

Цели факторного анализа в биологии: многих небольшого числа 1.Преобразование взаимодействия многих переменных во взаимодействие небольшого числа факторов. Уменьшение числа переменных в анализе (что, например, уменьшит эффект множественных сравнений). реальных действующих структуры 2.Выявление реальных действующих факторов (причинно-следственных связей), лежащих в основе биологических корреляций, или просто выявление структуры взаимосвязи переменных. Например, поиск трендов в морфологии из корреляций многих морфологических признаков.

Поясняющий пример: Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на безмене, потом на весах с гирьками, потом на электронных кухонных весах. Потом мы хотим исследовать влияние питания на вес кроликов. Неужели мы возьмём в анализ все три переменные? Ведь, очевидно, вес кролика – только одна его характеристика, а не три. Скорее всего, мы захотим превратить все переменные в одну.

Факторный анализ: 1.Анализ главных компонент (principal component analysis); Основная идея: получить факторы, объясняющие как можно больше общей изменчивости; больше подходит, если основная цель – сократить число переменных в анализе; 2.Анализ главных факторов (principal factor analysis) Основная идея: для каждой переменной используется только доля изменчивости, общая с другими переменными; больше подходит для поиска структуры переменных, определения их иерархии.

линейными комбинациями Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих факторов. Факторы (главные компоненты) находят на основании матрицы корреляции переменных – на основе линий регрессии. Процедура анализа подобна вращению, максимизирующему дисперсию исходного пространства переменных. Примерно так будет проходить новая ось OX. Анализ главных компонент После выделения первого фактора выделяется следующий, который должен тоже максимизирует оставшуюся дисперсию и т.д. – все факторы будут ортогональны.

Итак, мы изучаем питание павианов. Типов пищи у павианов 10: апельсины, бананы, яблоки, помидоры, огурцы, мясо, курица, рыба, насекомые, червяки. Сколько факторов скрывается за разными предпочтениями павианов в еде?

Principal component analysis (прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций: исключить переменные, слишком сильно коррелирующие с другими)

Просмотрим матрицу корреляций: Не должно быть слишком сильно коррелирующих друг с другом переменных ( иначе матрица не может быть транспонирована: matrix ill- conditioning ) Можно задать min количество дисперсии, которое должен объяснять фактор, чтобы его включили в анализ (обычно min = 1, что соответствует случайной изменчивости одной переменной (критерий Кайзера))

Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.

Этот график показывает, что первые два фактора лучше остальных, они объясняют большую часть общей изменчивости (the scree test).

Посмотрим, как полученные факторы связаны с реальными переменными

Можно выбрать два фактора, расположить в их пространстве переменные; потом повернуть факторы (оси координат) так, чтобы максимизировать изменчивость переменных по ним.

Фактор 1 в основном связан с растительной пищей, фактор 2 – с животной. После вращения факторов их структура становится более ясной: Итак, пищевые предпочтения павианов составлены из двух основных факторов – отношением к животной и растительной пище.

Посмотрим, как исходные переменные расположились в пространстве новых факторов

Если мы в дальнейшем хотим проводить анализ связи питания павианов с другими переменными, мы можем заменить наши 10 переменных на полученных два фактора.

Требования к выборкам для проведения факторного анализа нормальное распределение 1.Внутри групп должно быть многомерное нормальное распределение (оценка – на основе построения гистограмм частот); дисперсий 2.Гомогенность дисперсий (для метода главных компонент; не очень критичное требование); линейной 3.Связь переменных должна быть линейной; 4.Размер выборки не должен быть меньше 50, оптимальный – 100 наблюдений. ненулевая корреляция единице 5.Между переменными должна быть ненулевая корреляция, но коэффициентов корреляции, близких единице, тоже быть не должно.

Если распределение не нормальное, связь переменных нелинейная, выборка небольшая: Многомерное шкалирование (Multidimentional scaling) На основе сходства (любых дистанций!) между наблюдениями позволяет расположить их в пространстве нескольких новых факторов так, чтобы факторы объясняли как можно больше изменчивости.

Но если данные более-менее удовлетворяют требованиям факторного анализа, лучше проводить его, т.к.: 1. Факторный анализ - гораздо более мощная процедура, намного лучше оценивает связи исходных переменных; 2. Результаты гораздо проще интерпретировать: в многомерном шкалировании очень трудно объяснить, что же значат полученные факторы. Это просто уменьшение числа переменных, а не статистический метод

Мы наблюдаем поведение молодых сурков. У нас есть 15 переменных, описывающих социальное поведение. Это частоты контактов, которые имеют распределение, далёкое от нормального. Мы хотим из 15 переменных получить 2-3, которые бы хорошо объясняли изменчивость в выборке.

Данные для анализа должны быть представлены МАТРИЦЕЙ ДИСТАНЦИЙ (как её получать – рассказ дальше) Число измерений (строк) не может быть больше 90

Программа вращает наши наблюдения в пространстве так, чтобы расстояния между ними в полученной модели лучше всего соответствовали исходным расстояниям между наблюдениями (чем больше измерений в модели, тем лучше модель будет отражать реальность, но тем она будет сложнее)

Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша. D-star и D-hat – вычисленные программой дистанции между измерениями; расстояния упорядочены по ним. Distance – реальные дистанции, должны стоять в том же порядке.

Диаграмма Шепарда покажет, хорошо ли модель согласуется с исходными данными: чем ближе точки к красной линии, тем лучше.

Наконец, получим значения новых переменных для наших наблюдений и построим картинку, где они расположены в пространстве этих переменных

Интерпретация результатов многомерного шкалирования – исключительно на основе картинки, где наблюдения расположены в пространстве новых переменных. Посмотреть, какая исходная переменная какой вклад вносит в полученные переменные, нельзя.

КЛАСТЕРНЫЙ АНАЛИЗ не статистический метод Это вообще не статистический метод, а чисто описательная математическая процедура группировки и классификации данных. Здесь вообще неприменима проверка статистической значимости Классификация: программа начинает с кластеров, содержащих не более одного элемента; потом – не больше двух, и.т.д, и в конце в одном большом кластере оказываются все элементы.

Идея анализа – дистанции 1.Рассчитываются дистанции между измерениями в пространстве исходных переменных; Евклидовы дистанции; Квадрат евклидова расстояния (если хотим увеличить вес отдельных больших разностей); Манхэттенское расстояние (если хотим уменьшить вес отдельных больших расстояний) … кластеры 2.На основе этих дистанций разными способами объекты объединяют в кластеры Метод ближайшего соседа (Single linkage = nearest neighbor; расстояние между кластерами = расстоянию между ближайшими объектами в них); Полная связь (Complete linkage; расстояние между кластерами определяется наиболее дальними объектами в них; не годится, если кластеры формируют цепочки); В целом, можно выбирать метод, который даёт лучший результат Основной результат – получение иерархического дерева

Пример. У нас есть молодые лемуры, которые после расселения заняли дупла в лесу. Известны координаты каждого дупла. Мы хотим узнать, формируют ли зверьки пространственные кластеры?

Cluster analysis

Мы будем рассматривать древовидную кластеризацию; Кластеры будем строить на основе евклидовых дистанций методом ближайшего соседа.

Можно нарисовать деревья разного вида и посмотреть, на каких уровнях выделяются кластеры Можно получить матрицу дистанций между наблюдениями (например, для многомерного шкалирования)

Посмотрим, на каких расстояниях какие особи объединяются в кластеры

По этому графику можно посмотреть, на каком расстоянии происходят скачки в дистанциях присоединения. Если такие скачки есть, значит, есть и кластеры соответствующего размера

Дискриминантный анализ Кластерный анализ исходно существующие группы У нас есть исходно существующие группы. Мы ищем переменные, которые лучше всего их разделяют. переменных У нас есть несколько переменных. Мы на основе них хотим классифицировать выборку – проверить, не объединяются ли наблюдения в группы. Факторный анализ; многомерное шкалирование переменных У нас есть несколько переменных. Мы хотим классифицировать их или уменьшить их число

Это было последнее занятие нашего семинара! Спасибо за внимание! Моя почта: (Нина Александровна Васильева)