1 Построение регрессионных моделей и решение задачи предсказания.

Презентация:



Advertisements
Похожие презентации
1 Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна Институт химической физики РАН, Российское.
Advertisements

1 Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Концепция скрытых (латентных) переменных в химическом анализе.
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.

1 Задачи классификации и дискриминации Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество.
Случайные и систематические погрешности при измерениях и расчетах.
Уравнение множественной регрессии y t = a 0 +a 1 x 1t +a 2 x 2t +a 3 x 3t +…+a k x kt +U t (8.1) Наилучшая линейная процедура получения оценок параметров.
Кандидат технических наук, доцент Поляков Константин Львович Учебный курс Эконометрика: идентификация, оценивание и анализ статических моделей Лекция 8.
Типовые расчёты Растворы
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Свойства функций Область определения, множество значений, чётность, нечётность, возрастание, убывание.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
1 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПЛАТА ASVABC S 1 ПЛАТА = S + 3 ASVABC + u Геометрическая интерпретация множественной регрессионной модели с.
Транксрипт:

1 Построение регрессионных моделей и решение задачи предсказания

2 Два класса решаемых задач Метод- ПГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование

3 Постановка задачи. Исходные данные Независимые наблюдения - предикторы Зависимые переменные - отклики m -количество переменных (факторов) n –количество образцов (наблюдений)

4 Цель исследования 1.Построить модель для известных наборов X и Y 2.Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X.

5 Множественная регрессия. Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов. 1. Количество переменных больше, чем количество образцов 2. Наличие связей между переменными в X -матрицеСложности

6 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn)

7 Двухэтапная процедура РГК Регрессия на главные компоненты (РГК) Для «нужного» количества ГК

8 Моделирование – хемометрический подход (y test, X test ) Проверка качества прогноза (y cal, X cal ) Построение модели

9 Обучающий набор данных Планирование эксперимента 1.Набор должен быть достаточно большим 2.Должны охватывать всю будущую совокупность 3.Измерения X, по возможности, должны быть несложными Теория пробоотбора Измеренные референтным методом

10 Построение модели Модель Ошибка моделирования Калибровочная остаточная дисперсия Стандартная ошибка калибровки

11 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Эксперимент Длительное термостарение Обработка Регрессия на главные компоненты Y- измерения Дифференц. калориметрия X- измерения Температура начала окисления

12 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v

13 ДСК данные и референтные данные

14 Предварительная обработка данных. X-измерения X-измерения однородные не взвешиваются Y и -измерения Y и -измерения дисперсия ошибки растет с ростом Y и способ приготовления образцов методом измерения X и Y - центрируются

15 Метод главных компонент в примере с АО График счетов (ГК1-ГК2) ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y Стандартная ошибка калибровки

16 Тестовый набор данных 1.Набор должен быть достаточно большим 2.Должны охватывать всю будущую совокупность 3.Не должны быть «слишком» похож на калибровочный набор Измеренные референтны методом Используются только для оценки ошибки предсказания

17 Моделирование – стадия проверки Используются для проверки качества прогноза Модель Ошибка прогнозирования Проверочная дисперсияСтандартная ошибка прогноза

18 Способы проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом Самый надежный способ Используется тогда, когда нельзя собрать тестовый массив 1.Самый быстрый и самый грубый способ 2. Не использует тестовый массив

19 Создают как бы «тестовый массив» Перекрестная проверка Тестовый набор отсутствует (y test, X test ) Моделируют тестовый набор используя калибровочный (y cal, X cal ) Самый медленный способ проверки и не всегда надежный

20 Полная перекрестная проверка Модель Модель 1Модель 2 …… Модель N «Тесто- вый набор»

21 Проверка корректировкой размахом «Грубый» Ошибка предсказания всегда оценивается слишком оптимистично «Быстрый» Требует построения лишь одной модели

22 Сколько выбрать главных компонент

23 Ошибка моделирования и ошибка предсказания Ошибка моделирования не зависит от вида проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом

24 Количество ГК для АО примера 2 главные компоненты

25 Прогноз эффективности АО RMSEP = Yпред=Y 2*RMSEP

26 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР Эта декомпозиция не учитывает связи между X и Y

27 Регрессия на латентные структуры (ПЛС - регрессия) Схематическое представление

28 Интерпретация ПЛС-модели T - матрица счетов Q - матрица нагрузок W –матрица взвешенных (эффективных) нагрузок U - матрица счетов P - матрица нагрузок

29 Графике зависимости X-Y Данные содержат выбросы Данные не содержат выбросы

30 График остаточной дисперсии Для ПЛС-моделей дисперсия должна падать Остаточная дисперсия Y – количества ГК

31 Заключительный график Предсказанные значения Y - измеренные значения Y

32 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий массив = 26 образца Прогнозный массив = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)

33 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. 1.Уменьшают размерность исследуемых данных 2.Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования