Behind LDA Часть 1 Кольцов С.Н.. Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно.

Презентация:



Advertisements
Похожие презентации
Автор: Яковлева Екатерина. Об авторе Ученица 8 «А» средней школы 427. Яковлева Екатерина Александровна Дата рождения года. Проект по Теории.
Advertisements

Ст. преп., к.ф.м.н. Богданов Олег Викторович 2010 Элементы теории вероятности.
Элементы теории вероятности и математической статистики Теория вероятностей возникла как наука из убеждения, что в основе массовых случайных событий лежат.
Теория вероятностей раздел математики, изучающий закономерности случайных явлений: случайные события, случайные величины, их свойства и операции над ними.
ТТЕОРИЯ ВЕРОЯТНОСТЕЙ. Основные понятия Событием называется всякий факт, который может произойти или не произойти в результате опыта. События называются.
Классическое определение теории вероятности Работу выполнила ученица 9 «Б» класса Антонова Валерия.
Оценка случайных погрешностей прямых многократных измерений. (Математическая часть).
Математические методы Теория вероятностей. Математика случайного В результате деятельности человека или процессов, протекающих вокруг нас происходят различные.
Презентация по теме: Основы теории вероятностей
Изучает закономерности массовых случайных явлений.
Каникулярная школа курс Теория вероятностей Преподаватель Кузнецова Ольга Владимировна.
Тема 2 Операции над событиями. Условная вероятность План: 1.Операции над событиями. 2.Условная вероятность.. Если и, то Часто возникает вопрос: насколько.
Элементы теории вероятностей для основной и средней школы.
Лекция 3 Основные понятия теории вероятности. Опыт Событие Переменная величина.
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
Кафедра математики и моделирования Старшие преподаватели Е.Д. Емцева и Е.Г. Гусев Курс «Высшая математика» Лекция 9. Тема: Случайное событие. Вероятность.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Основные понятия теории вероятностей. Базовые понятия теории вероятности Событие Событие Событие Опыт Опыт Опыт Переменная величина Переменная величина.
1 Случайное событие. Вероятность события. 2 Теория вероятностей – математическая наука, изучающая закономерности в случайных явлениях. Под опытом (экспериментом,
Элементы теории вероятностей По материалам учебника Гнеденко Б.В. «Курс теории вероятностей», 7-е издание, 2001.
Транксрипт:

Behind LDA Часть 1 Кольцов С.Н.

Различия в подходах к теории вероятностей Случайная величина это величина, которая принимает в результате опыта одно из множества значений, причём появление того или иного значения этой величины до её измерения нельзя точно предсказать. 1. В частотном подходе (классический подход) предполагается, что случайность есть объективная неопределенность. Вероятность рассчитывается из серии экспериментов и является мерой случайности как эмпирической данности. Исторически частотный подход возник из практической задачи: анализа азартных игр области, в которой понятие серии испытаний имеет простой и ясный смысл. 2. В байесовском подходе предполагается, что случайность характеризует наше незнания. Например, случайность при бросании кости связана с незнанием динамических характеристик игральной кости, сопротивления воздуха и так далее. Многие задачи частотным методом решить невозможно (точнее, вероятность искомого события строго равна нулю). В то же время интерпретация вероятности как меры нашего незнания позволяет получить отличный от нуля осмысленный ответ.

Вероятность события Вероятностью события А называют отношение числа благоприятствующих этому событию исходов к общему числу всех равновозможных несовместных элементарных исходов. Например. Вероятность того, что на кубике выпадет четное число, равна следующему отношению Р=3/6=1/2. Понятие вероятности Условной вероятностью события А при условии, что произошло событие В, называется число P(A|B)=P(B, A)/ P(B), P(B, A) – произведение вероятностей, P(B) – вероятность события В. Например. В урне 3 белых и 3 черных шара. Из урны дважды вынимают по одному шару, не возвращая их обратно. Найти вероятность появления белого шара при втором испытании (событие В), если при первом испытании был извлечен черный шар (событие А). Вероятность события А=3/6=1/2 Произведение вероятностей P(B, A) =(3/6)*(3/5)=9/30 Итоговый результат: (9/30)/(1/2)=3/5 Понятие условной вероятности

Формула Байеса P(A) априорная вероятность гипотезы A (заранее известная вероятность); P (A|B) вероятность гипотезы A при наступлении события B (апостериорная вероятность); P(B|A) вероятность наступления события B при истинности гипотезы A; P(B) полная вероятность наступления события B. P(А|В) ) вероятность наступления события А при истинности гипотезы В; Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероятность того, что оно было вызвано данной причиной. Таким образом, формула Байеса может быть использована для разработки алгоритмов классификации. Байесовская вероятность это интерпретация понятия вероятности, используемое в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения.

Априорные и апостериорные суждения 1. Предположим, мы хотим узнать значение некоторой неизвестной величины. 2. У нас имеются некоторые знания, полученные до (a priori) наблюдений/эксперимента. Это может быть опыт прошлых наблюдений, какие-то модельные гипотезы, ожидания. 3. В процессе наблюдений эти знания подвергаются постепенному уточнению. После (a posteriori) наблюдений/эксперимента у нас формируются новые знания о явлении. 4.Будем считать, что мы пытаемся оценить неизвестное значение величины P(A|B) посредством наблюдений некоторых ее косвенных характеристик (гипотез). Формула Байеса (1763 г.) устанавливает правила, по которым происходит преобразование знаний в процессе наблюдений.

Пример применения формулы Байеса в E-Health Пример: случайному пациенту сделали тест на наличие СПИД, и получили положительный результат. Пусть точность теста 99.8% (т.е. он дает положительный результат у 0.2% здоровых людей). Какова вероятность, что у этого пациента СПИД? Априорная вероятность P(больной) – доля больных в стране (пусть 0.3%)

Вероятностная постановка задачи классификации Пусть имеется множество объектов X и конечное множество классов Y. Требуется построить алгоритм способный классифицировать произвольный объект Х в рамках заданного множества Y. Апостериорная вероятность принадлежности объекта Х классу Y по формуле Байеса: Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной информации. Такая оценка может быть реализована при помощи формулы Байеса. Однако существует проблема оценивания априорной величины p(x,y) - Апостериорная вероятность - Априорная вероятность

Задача восстановления априорного распределения p(x,y) Оценка функции p(x,y) может быть реализован при помощи трех методов. 1.Непараметрическое восстановление плотности основано на локальной аппроксимации плотности p(x) в окрестности классифицируемого объекта x X. Пример, Алгоритм Парзена-Розенблатта (метод парзеновского окна). 2.Параметрическое восстановление плотности основано на предположении, что плотность распределения известна с точностью до параметра, p(x,y) = ϕ(x; θ), где ϕ фиксированная функция. Пример. Нормальный дискриминантный анализ. LSA – в основе лежит метод SVD разложения. 3.Восстановление смеси плотностей. Если функцию плотности p(x,y) не удаётся смоделировать параметрическим распределением, можно попытаться описать её смесью нескольких распределений: Собственно именно третий метод является основой LDA

Latent Dirichlet allocation Основное предположение тематической модели Latent Dirichlet Allocation состоит в том, что каждый документ с некоторой вероятностью может принадлежать множеству тематик. Тема эта совокупность слов, где каждое слово имеет некоторую вероятность принадлежности к данной тематике. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря. Тематическим моделированием называется решение задачи, обратной классификации. Каждый документ в корпусе текстов рассматривается как наблюдаемая случайная независимая выборка слов (мешок слов), порождённая некоторым, скрытым (латентным) множеством тем. По этим данным требуется восстановить вероятностные распределения всех тем в корпусе и определить, каким именно подмножеством тем порождён каждый документ. Тематическое моделирование основано на применении формулы Байеса, в которой распределение слов и тем выражено в виде смеси плотностей распределений слов и документов.

Модель LDA - функция распределение вероятности тематик в документах - функция распределения вероятности слов по темам и документам

Логика вычисления LDA (безотносительно к методу расчета) 1. Задаем начальное приближение функций распределения вероятности тематик в документах 2. Задаем начальное приближение функций распределения вероятности слов по темам и документам. 3. Рассчитываем вероятность вынимания слов из мешка. 4. Выдергиваем слова из реальных документов и сравниваем расчетные и экспериментальные вероятности. 5. Если разница между сгенерированной вероятностью и вероятностью выдернутого слова из текста больше наперед заданной величины, то производим коррекцию начальных распределений и переходим на шаг Если разница между сгенерированной вероятностью и вероятностью выдернутого слова из текста меньше наперед заданной величины, то наше начальное приближение хорошо описывает наши документы. Расчет закончен.