Сети глубокого обучения. Локальное и нелокальное в пространстве признаков обучение Прототипом всякого локально-обучающего алгоритма является построение:

Презентация:



Advertisements
Похожие презентации
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
Advertisements

Моделирование и исследование мехатронных систем Курс лекций.
Нейросетевые технологии в обработке и защите данных Обработка данных искусственными нейронными сетями (ИНС). Лекция 5. Алгоритмы обучения искусственных.
Тема 10. Архитектура и алгоритмы обучения НС Основные парадигмы нейронных сетей обучения с учителем Однослойный перцептрон f f f х1.
Автор: студент группы С-83 Потапенко Владимир Москва 2012 г.
Классификация сигналов Под сигналом обычно понимают величину, отражающую состояние физической системы. Поэтому естественно рассматривать сигналы как функции,
Метод моделирования статических систем по экспериментальным данным.
10. 3 Повносвязные нейронные сети со смешанным обучением Нейронная сеть Хопфилда ( Hopfield Net)
Ассоциативная память. Ассоциативная сеть прямого распространения. 1 X 1 Y 1 X 2 Y 2 X i Y i X n Y n 2 i n... Y j = i=1 N w ij x i, j=1,M (*)
Одно из наиболее перспективных направлений разработки принципиально новых архитектур вычислительных систем тесно связано.
Лекция 6. Нейронные сети Хопфилда и Хэмминга Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых.
МОДУЛЬНАЯ АРХИТЕКТУРА НС. Каждая входная переменная связана только с одним из входов модулей. Выходы всех входных модулей соединены с модулем решения.
Система управления РТК Основная задача системы управления роботом – автоматизация деятельности человека-оператора. Составные части: Система технического.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Сеть поиска максимума (MAXNET) Сеть поиска максимума с прямыми связями – слогослойная нейронная сеть определяющая, какой из входных сигналов имеет.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
Матрицы Элементарные преобразования и действия над матрицами made by aspirin.
Степенные ряды Лекции12, 13, 14. Функциональные ряды Ряд, члены которого являются функциями, называется функциональным и обозначается. Если при ряд сходится,
Лекция 7: Метод потенциальных функций Предположим, что требуется разделить два непересекающихся образа V1 и V2. Это значит, что в пространстве изображений.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Транксрипт:

Сети глубокого обучения

Локальное и нелокальное в пространстве признаков обучение Прототипом всякого локально-обучающего алгоритма является построение: где i – пробегает всю выборку, x – предлагаемый для классификации вектор, K – функция ядра. Это линейная комбинация степеней близости ко всем векторам выборки – интерполяция принадлежности к тому или иному классу для x, попавшего между векторами выборки. K – локально, т. е. обычно вводится как метрика: условие K(x,y)> верно только для некоторой односвязной области вокруг y. Например, гауссово ядро: Точно так же работает однослойная нейронная сеть. K(x,y) определяется во входном слое, a – матриц связей (вектор для одного нейрона), b – сдвиг выходного нейрона.

Ситуация переобучения. Преобразование пространства признаков Обычно контролируется только правильность сопоставления пар векторов обучающей выборки x и y. Обучающая выборка характеризуется функцией плотности ρ(x) во входном пространстве X (мы ее можем не знать). Если равномерно заполнить пространство признаков Y, то какую функцию плотности мы получим в X? Иначе говоря, вектора выборки x с точки зрения нашей классификации могут оказаться маловероятными.

Ситуация переобучения. Преобразование пространства признаков Ошибку можно скорректировать за счет введения функции плотности (отличной от константы) в пространстве признаков H. Такой, что: И далее подвергнуть ρ(h) той же самой процедуре. Т. е. осуществить переход в равномерное пространство признаков через многократное применений функции ядра. В идеальном случае ρ(h)=1. Т. е. наше преобразование должно из 1 получать функцию плотности во входном пространстве. Это и естьглубокая нейронная сеть.

Больцмановский подход Сформулируем задачу еще раз: дана плотность ρ(v). В соответствии с гиббсовским распределением вероятности: Дополним наблюдаемый вектор v скрытой составляющей h. Требуется разомкнуть корреляции внутри вектора v на вектор h. В общем случае функцию энергии можно представить так: Нам необходимо исключить корреляции внутри v, поэтому:

Все-таки нейронные сети Элементы v – нейроны входного слоя, элементы h – нейроны выходного слоя, W – матрица связи. А то, что все это стоит под экспонентой дает нелинейные активационные функции. Важно: нейронная сеть формирует вектор вероятностей, а не сами значения. Кроме того, для отсутствия корреляций внутри v (и h) верно: Если нейрон бинарный {0,1}, то p(v i ) – т. е. активационная функция на i-м нейроне оказывается сигмоидой!

Обучение двухслойной нейронной сети Базовое правило: настроить матрицу связей так, чтобы максимизировать вероятность образцов обучающей выборки: Негативную фазу вычислять сложно. Обычно используют т. н. гиббсовские итерации.

Алгоритм обучения нейронной сети

Как это работает? Идеальное ядро это сумма дельта функций с особенностями в точках v i. Можно показать, что алгоритмы обучения нейронной сети не только максимизирую вероятность для наличных векторов выборки, но и минимизируют для отсутствующих. Решим уравнение : Разложив ядро в ф. ряд, например в Фурье: Тогда коэффициенты Фурье функции ρ(h) : Столбцы обратной матрицы λ – коэффициенты Ф. обратного ядра. Можно показать, что в обратном операторе коэффициенты при больших частотах убывают с ростом таковых в λ. Многократное применение интегрального оператора подавляет высокочастотные коэффициенты f m, следовательно и сглаживает ρ(h).

Обучение с учителем Равномерное распределение по h не означает равномерное распределения для классов. Т. е. 1 = ρ(h)= ρ I (h)+ρ II (h)+.. ρ n (h). Эти слагаемые любые, м. б. сложные. Нам нужно менять функцию ρ(h|v) (уже для многослойной системы), так, чтобы исключать ВЧ составляющие в ρ i (h). При этом мы не хотим менять ни ρ(v), ни ρ i (v). Т. е. Если в ρ(h) нет ВЧ составляющих, это выполняется автоматически.