Классификация и регрессия (продолжение) Храброва М.О.

Презентация:



Advertisements
Похожие презентации
1 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает.
Advertisements

Анализ данных Лекция 5 Методы построения математических функций.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
МЕТОДЫ ОПТИМИЗАЦИИ § 1. Основные понятия. Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных В процессе решения задачи оптимизации.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
Постановка задачи аппроксимации Линейная, нелинейная (второго порядка) аппроксимация Лекция 5.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
План лекции. 1.Метод наименьших квадратов. 2.Дифференциальные уравнения.
Теория прогнозирования включает: анализ объекта прогнозирования методы прогнозирования: 1. мaтематические(формализованные) -симплексные(простые) -статистические.
Свойства коэффициентов регрессии и проверка гипотез.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.
Лекция 8: Метод группового учёта аргументов (МГУА) Метод наименьших квадратов Общая схема алгоритмов МГУА Алгоритм с ковариациями и квадратичными описаниями.
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
Л АБОРАТОРНАЯ РАБОТА 6 Тема: Численные методы решения задачи Коши для обыкновенных дифференциальных уравнений.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 7: Метод потенциальных функций Предположим, что требуется разделить два непересекающихся образа V1 и V2. Это значит, что в пространстве изображений.
Транксрипт:

Классификация и регрессия (продолжение) Храброва М.О.

Алгоритм покрытия. Алгоритм заключается в построении деревьев решений для каждого класса по отдельности.

Пример. Подбор контактных линз Нужно построить правило для определения условий, при которых необходимо рекомендовать жесткие линзы: если (?) то рекомендация = жесткие Выполним оценку каждой независимой переменной и всех их возможных значений: возраст = юным - 2/8; возраст = пожилой - 1/8; возраст = старческий - 1/8; предписание = близорукость - 3/12; предписание = дальнозоркость - 1/12; астигматизм = нет - 0/12; астигматизм = да - 4/12; степень износа низкая - 0/12; степень износа = нормальная - 4/12. Выбираем переменную и значение с максимальной оценкой астигматизм =да. Таким образом, получаем уточненное правило следующего вида: если (астигматизм = да и ?) то рекомендация = жесткие.

Пример. Подбор контактных линз Выполним повторную оценку для оставшихся независимых переменных и их значений, но уже на новом множестве: возраст = юный - 2/4; возраст = пожилой - 1/4; возраст = старческий - 1/4; предписание = близорукость - 3/6; предписание = дальнозоркость - 1/6; степень износа = низкая - 0/6; степень износа = нормальная - 4/6. После уточнения получим правило и множество, представленное в табл. 3: если (астигматизм = да и степень износа = нормальная) то рекомендация = жесткие.

Пример. Подбор контактных линз Так как в полученном множестве все еще остаются объекты, не относящиеся к классу жесткий, то необходимо выполнить уточнение: возраст юный - 2/2; возраст пожилой - 1/2; возраст старческий - 1/2; предписание близорукость - 3/3; предписание дальнозоркость - 1/3. Очевидно, что уточненное правило будет иметь следующий вид: если (астигматизм = да и степень износа = нормальная и предписание близорукость) то рекомендация = жесткие. Однако в полученном подмножестве отсутствует один из объектов, относящихся к классу жесткие, поэтому необходимо решить, какое из последних двух правил более приемлемо для аналитика.

Методы построения математических функций

Метод наименьших квадратов Линейные функции множества F имеют вид: Задача заключается в отыскании таких коэффициентов, чтобы удовлетворить условие: При решении задачи регрессии коэффициенты можно вычислить, используя квадратичную функцию потерь и множество линейных функций F: Необходимо найти решение следующей задачи:

Метод наименьших квадратов Вычисляя производную R(f) по и вводя обозначение, получаем, что минимум достижим при условии: Решением этого выражения будет: Откуда и получаются искомые коэффициенты. Рассмотренный пример иллюстрирует поиск оптимальной функции f методом наименьших квадратов.

Нелинейные методы Нелинейные модели лучше классифицируют объекты, однако их построение более сложно. В простейшем случае построение таких функций сводится к построению линейных моделей. Для этого исходное пространство объектов преобразуется к новому. В новом пространстве строится линейная функция, которая в исходном пространстве является нелинейной. Для использования построенной функции выполняется обратное преобразование в исходное пространство.

Support Vector Machines (SVM) Идея метода основывается на предположении о том, что наилучшим способом разделения точек в m- мерном пространстве является m-1 плоскость.

Support Vector Machines (SVM) Формально данную задачу можно описать как поиск функции, отвечающей следующим условиям: Если f(x) линейна, то ее можно записать в виде:

Изначально алгоритм построения оптимальной разделяющей гиперплоскости алгоритм линейной классификации. Однако в 1992 году ученые предложили способ создания нелинейного классификатора, в основе которого лежит переход от скалярных произведений к произвольным ядрам, так называемый kernel trick, позволяющий строить нелинейные разделители. Результирующий алгоритм крайне похож на алгоритм линейной классификации, с той лишь разницей, что каждое скалярное произведение заменяется нелинейной функцией ядра (скалярным произведением в пространстве с большей размерностью).

Оcновные виды функций классификации, при меняемых в SVМ-методе. ЯдроНазвание Линейная Полиномиал степени d Базовая радиальная функция Гаусса Сигмодиальная

Достоинства и недостатки метода SVM: Достоинства метода SVM: теоретическая и практическая обоснованность метода; общий подход ко многим задачам; устойчивые решения, нет проблем с локальными минимумами; не подвержен проблеме overfitting; работает в любом количестве измерений. Недостатками метода являются: невысокая производительность по сравнению с более простыми методами; отсутствие общих рекомендаций по подбору параметров и выбору ядра; побочные эффекты нелинейных преобразований; сложности с интерпретацией результата.

Прогнозирование временных рядов Временной ряд – последовательность событий, упорядоченных по времени их наблюдения. События формируются через равные интервалы T и представляются: Задача построения прогноза: Пусть дан временной ряд, требуется на его основании определить значение при k>0

Прогнозирование временных рядов 1.Построение модели, характеризующей временной ряд. 2.Оценка построенной модели. 3.Если модель получила удовлетворительную оценку, то ее можно использовать для прогноза событий.

Методы прогнозирование временных рядов Метод экстраполяции Метод максимального сглаживания Метод скользящего окна

Метод экстраполяции Вид функции f может быть как линейный, так и линейный. В общем виде: где - искомые коэффициенты, подбираемые так, чтобы построенная функция имела бы минимальную ошибку прогноза.

Метод экспоненциального сглаживания Строит адаптивные модели прогнозирования 1.По нескольким первым уровням ряда оцениваются значения параметров модели. 2.По имеющейся модели строится прогноз на один шаг вперед, причем его отклонение от фактических уровней ряда расценивается как ошибка прогнозирования 3.Далее по модели со скорректированными параметрами рассчитывается прогнозная оценка на следующий момент времени и т.д.

Метод скользящего окна Гипотеза, что существует закон, по которому можно определить значение очередного члена ряда как функцию от нескольких предыдущих членов. Фиксируют число k и предполагают, что только k предшествующих членов влияют на дальнейшее поведение ряда: