Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.

Презентация:



Advertisements
Похожие презентации
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
Advertisements

1 Построение регрессионных моделей и решение задачи предсказания.
1 Задачи классификации и дискриминации Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество.
1 Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Концепция скрытых (латентных) переменных в химическом анализе.
1 Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна Институт химической физики РАН, Российское.
«Технико-экономический анализ деятельности предприятия» Гиндуллина Тамара Камильевна, к.т.н., доцент кафедры АСУ.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
Моделирование. Требования к уровню подготовки учащихся по теме «Моделирование». Учащиеся должны: уметь создавать компьютерные модели с использованием.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
Тема урока:. Аннотация Понятие о модели Модель упрощенное представление о реальном объекте, процессе или явлении сохраняет наиболее важные характеристики.
Моделирование и исследование мехатронных систем Курс лекций.
1 Особенности распознавания поддельных/некачественных лекарств с помощью ИК- спектроскопии в ближней области Оксана Родионова, Алексей Померанцев Российское.
1. Что такое Эконометрика? Что она изучает, чему учит 2. Основные задачи эконометрики 3. Корреляционно-регрессионный анализ 4. Этапы построения эконометрической.
ЭЛЕКТРОННЫЕ ТАБЛИЦЫ КАК ИНФОРМАЦИОННЫЕ ОБЪЕКТЫ Разработала учитель информатики и ИКТ Некруткина Елена Владимировна МОУ СОШ 32 Средства и технологии создания.
Выполнили ученицы 10б класса Шубенкова Таня и Джимбиева Оксана.
Моделирование как метод познания. Модели Модель – это объект, который используется для представления другого объекта (оригинала) с определенной целью.
Компьютерное математическое моделирование в среде Excel.
МОДЕЛИРОВАНИЕ Классификация моделей. Моделирование Это метод познания, состоящий в создании и исследовании моделей Это метод познания, состоящий в создании.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Транксрипт:

Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна

План лекции 1.Ведение Немного истории Природа многомерна Пример - многомерный статистический контроль процессов Два подхода к анализу данных 2. Идеи, заложенные в проекционном подходе Данные – какие они бывают Классы решаемых задач 3. Метод главных компонент, основные понятия и примеры3. Метод главных компонент, основные понятия и примеры

Метод наименьших квадратов (простейший случай)

Многомерные данные

Контроль производственного процесса … … Контроль производства Возможность воздействовать на процесс для его стабилизации Цель исследования

Контроль производственного процесса Датчик 1 Датчик 2

Контроль производственного процесса

Точки съема Моделирование производилось на основе анализа измерений и внутренних связей присущих этому набору данных Не применялись содержательные физико- химические модели

Моделирование многомерных данных (процессов или явлений) Сложные физико- химические модели Формально-математические модели Проекционные методы (ПГК, ПЛС) 1.Позволяют работать с достаточно большими массивами данных 2.Существенно понижают размерность изучаемой системы 3.Анализируют и позволяют выделить латентные структуры данных 4.Позволяют отделять содержательную часть от шума

Содержательная составляющая задачи. Никакие многомерные методы не помогут, если данные не содержат полезной информации об изучаемом свойстве какие показатели измерять выбор правильного диапазона измерений Постановка задачи когда проводить измерения

Данные 1.Количественные и качественные 2.Управляемые и неуправляемые 3.Прямые измерения и косвенные

Данные СтруктураШум Поглощение Длина волны

Два класса решаемых задач Метод- МГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, ПЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование n – количество образцов m – количество переменных (факторов)

Проекционные методы P=3 P=2

Проекционные методы Данные без структурыДанные со скрытой структурой

Проекционные методы Исходные данные Плоскость данных Центр всех данных Главные компоненты Проекции данных

Метод главных компонент Исходные данные Scores Матрица счетов (Scores) Матрица нагрузок Loadings (Loadings) Матрица ошибок

Матрица счетов T (scores) Строка – координаты одного объекта в новой системе координат Столбец – проекция всех объектов на одну ось главных компонент

Матрица нагрузок P (loadings) P T X P T - матрица перехода из пространства X в пространство главных компонент

Остатки E E X матрица E имеет ту же структуру что и X e i e i - определяет расстояние от исходного объекта до подпространства главных компонент совокупная ошибка для всех объектов E 0, E 1, … E 0 X E 0 – ошибка при 0-м ГК, т.е. центрированная матрица X

Математическое обеспечение STATISTICA SPSS SAS … Стандартные статистические пакеты UNSCRAMBLER SIMCA PLS -ToolBox для MatLab … Специальные пакеты MatLabExcel+ VBA+.dll Использование стандартного мат. обеспечения для написания проекционных процедур

Пример. Демографические данные Количество объектов (n) = 32 Количество переменных (m) = 12

Предварительная обработка данных Цель – преобразование исходных данных в форму, наиболее удобную для анализа. Автошкалирование Центрирование относительно среднего Взвешивание

График счетов (ГК1-ГК2)

Графики счетов «карты образцов»

График нагрузок (ГК1-ГК2) «карта переменных»

ГК1-ГК2 счета и нагрузки

График ошибок ГК=5 ГК=2 ГК=3 Способ определения правильного количества ГК

Заключение 1 Основные цели МГК 1.Представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных 2.Понижение размерности системы, отделение содержательной части от шума Основные «инструменты» 1.Графики счетов – «карты образцов» 2.Графики нагрузок – «карты переменных» 3.Графики остатков – способ выбора количества ГК

Заключение 2 Что может быть не так? 1.Данные не содержат необходимой информации 2.Использовано недостаточное количество ГК 3.Использовано излишние количество ГК 4.Не удалены выбросы 5.Удалены точки (псевдовыбросы) содержащие важную информацию 6.Недостаточный анализ графиков счетов/нагрузок 7.Использована только стандартная (машинная) диагностика, без содержательного анализа. 8.Использованы неверные методы предварительной обработки данных

Продолжение - за компьютером ПРАКТИКА