Задача Новичка Определение цели антагонистической игры в отсутствии подкреплений Павел Александрович Малышкин Москва, ИСА РАН 2013.

Презентация:



Advertisements
Похожие презентации
Что такое научное исследование?. Что такое исследование? Исследование – это научное познание предметов и явлений окружающего мира. Наука – это особая.
Advertisements

Теория игр Теория игр – это совокупность математических методов анализа и оценки конфликтных ситуаций. Задача теории игр состоит в выборе такой линии поведения.
Редок Полина, студентка 1 курса экономического факультета группы э 122 б.
Заключение Некоторые итоги рассмотрения проблемы интеграции индивида и организации.
Теория игр Теория игр изучает и рассматривает методы определения оптимального поведения при управлении системами, в которых характерно наличие конфликтной.
Конституционная экономика Игровые теории экономических процессов. Основные понятия и классификация игр. Белова Т.А. группа ю.з-1841.
Теория игр Теория игр – это раздел прикладной математики, исследующий построение моделей принятия решений в условиях конфликта.
Рациональность принятия решений в условиях неопределённости Выполнили студенты 4-го курса Макаров Денис Питерсен Джоджина Собко Эдуард.
Теория потребительского выбора. Сейчас уже практически не у кого не вызывает сомнений особая экономическая роль потребителя, являющегося одним из главных.
Подведение итогов игры: o Почему я выиграла в каждой игре? o От чего зависел результат игры? o Можно было повлиять на результат игры? o Можно ли, до начала.
Развитие общества. Блок С. С 4-7 Прочитайте текст и выполните задание: Безусловно, главной является гуманизирующая функция морали. Суть ее в том, что.
Тема 3. Стратегическое взаимодействие на рынке олигополии: объяснение прибыли продавцов 1. Парадокс Бертрана 2. Разрешение парадокса Бертрана: повторяющиеся.
Общественные блага - 2 Модель с добровольным финансированием общественного блага Схема модели Определение и схема поиска равновесия Аналитический пример.
Стохастические игры Игры с «природой». Основные определения К теории игр примыкает так называемая теория статистических решений. Зачастую принятие управленческих.
ТЕМА 3. СТРАТЕГИЧЕСКОЕ ВЗАИМОДЕЙСТВИЕ НА РЫНКЕ ОЛИГОПОЛИИ: ОБЪЯСНЕНИЕ ПРИБЫЛИ ПРОДАВЦОВ 1.Парадокс Бертрана 2.Разрешение парадокса Бертрана: повторяющиеся.
Технология деятельностного метода «Школа 2000…» Мотивация к учебной деятельности Актуализация и фиксация затруднения в действии Выявление места и причины.
Предсказательная сила законов классической механики. 10 класс.
Подготовил Андреев Алексей. Задача о назначениях Задача о рюкзаке Задача коммивояжера Задача теории распределений Задача маршрутизации транспорта Задача.
Расчёт оптимальной стратегии игры «Три пальца». В теории игр равновесием Нэша (названным в честь Джона Форбса Нэша, который предложил его) называется.
ИСТОРИКО - ПЕДАГОГИЧЕСКАЯ ОСНОВА ФОРМИРОВАНИЯ ПЕДАГОГИЧЕСКОГО МЕНЕДЖМЕНТА.
Транксрипт:

Задача Новичка Определение цели антагонистической игры в отсутствии подкреплений Павел Александрович Малышкин Москва, ИСА РАН 2013

Цель – что это? Цели существуют и играют для теории важную роль, но как они возникают – за рамками теории: Теория управления (критерий оптимизации) Исследование операций (цель) Теория игр (выплаты) Экономика (полезность блага) Функциональный анализ (направленность и целенаправленность) Задача теории – прояснить, как возникают цели Теория организации (принцип примата цели) Психология (мотивация поведения)

Принцип Примата Цели Теория организации Структура организации определяется целями Целостность организации обеспечивается согласованностью целей разных видов Такой подход основан на положении, что целями можно сознательно управлять Из принципа примата цели вытекает необходимость понимания (описания) процесса возникновения целей.

Психология Пирамида Маслоу как оппозиция бихевиоризму: Вторичные потребности проявляются, когда удовлетворены базовые. Вопрос: как тогда возникают вторичные потребности? Базовые потребности Вторичные потребности

Теория самоопределения Эго-психология Гейнца Гартмана (1939) – Существует сфера психического здоровья, которая значит для определения целей больше, чем конфликт. SDT Дэси, Райан (с 1985) – попытка объяснить самоопределение как результат конфликта ранее неучтенных потребностей – автономии, компетенции и взаимоотношений. Возврат к концепции бихевиоризма? Почему?

Подходы к определению цели Теория организации: Цели Необходимость в обеспечении целостности Согласование Психология: Цели Потребности в автономии, компетенции, взаимошениях Адаптация Физика: Цели Второе начало термодинамики Реакция на внешнее воздействие Малышкин П.А. Физика интеллекта: От принципов самоорганизации к модели мышления. М: ЛИБРОКОМ 2014.

Шашки или поддавки? Если вы не знаете цели игры, можете ли вы определить ее по поведению противника в серии игр? А если варианты цели игры не известны?

Лектор против аудитории Лектором предлагается серия партий многошаговой игры с целью, неизвестной аудитории. Например, игра Ним c измененной целью. Аудитория не уведомляется, выигрывает ли она в каждой партии. Просто по окончании партии начинается другая. Результат: Аудитория школьников 9-11 классов способна определить цель игры по действиям лектора, сформулировать ее, и начать выигрывать. Аудитория студентов МФТИ 3-го курса определяет цель той же игры за 5 партий.

Как аудитория определяет цель игры? Лектор, достигая цель, привносит в игру закономерности, которые не следуют из правил игры. Аудитория способна увидеть эти закономерности. Противодействуя возникновению ситуаций, в которых проявляются закономерности, аудитория начинает выигрывать.

Определение цели игры Игра Осведомленный игрок правила взаимодействия и определения выигрыша Новичок Реализация выигрышной стратегии поведения Обучение без подкрепления (отсутствие данных о цели игры) Пусть, например, новичок узнает о своем выигрыше только по окончании довольно продолжительной серии игр. Как он может увеличить этот выигрыш? Какова степень уверенности, что новичок правильно определил цель?

Антагонистическая матричная игра со смешанным равновесием = Осведомленный игрок: - Может иметь знание о структуре игры - Получает сведения о выплатах и о выборе оппонента. - Имеет совершенную память – помнит выплаты предыдущих конов и выбор оппонента и подстраивает свою стратегию так, чтобы максимизировать выигрыш. = Новичок: - Не имеет об априорных знаний о структуре игры, кроме наборов стратегий. - Не получает данных о выплатах по результатам кона - Получает данные о выборе оппонента по итогам каждого кона - Имеет совершенную память Аудитория= Лектор= Задача новичка – максимизация его выигрыша по итогам серии игр

Решение игры В традиционном понимании эта игра имеет решение в смешанных стратегиях: ((0.25, 0.75), (0.25,0.75), 0.75) Известно (см. например, Морозов, Васин), что в решении игры все стратегии игроков, не исключенные по доминированию, имеют одинаковые ожидаемые выплаты. Это значит, что если новичок придерживается оптимальной стратегии, то осведомленному игроку все равно, какую выбрать стратегию. Обратное утверждение состоит в том, что для Новичка существует алгоритм асимптотического приближения к равновесной стратегии, при котором Осведомленный рациональный игрок в среднем будет играть (0.5,0.5). Тогда игра стремится к точке ((0.25, 0.75), (0.5,0.5), 0.75), то есть, новичок может найти свою оптимальную стратегию и иметь выигрыш, не меньший, чем в точке равновесия по Нэшу. Но он не сможет выиграть больше за счет отклонения Осведомленного игрока точки равновесия.

Что нужно для доказательства 1. Почему осведомленный игрок будет адекватно менять свою стратегию в зависимости от меняющейся стратегии новичка? => Предположение о осведомленности оппонента (см., например, индекс Гиттингса). 2.Почему, если новичок играет оптимально, осведомленный игрок будет играть (0.5, 0.5) – ведь он может с тем же выплатами играть любую смешанную стратегию? => Предположение о рациональности осведомленного игрока и симметричных отклонениях новичка от равновесной стратегии. 3.Предположение, что решение в игре единственное и вполне смешанное Но новичок останется новичком, если алгоритм его действий позволит ему выяснить также и выполнение всех этих условий. ?

Новичок остается новичком Новичку предлагается алгоритм решения его задачи – нахождения его равновесной стратегии. При выполнении перечисленных условий алгоритм должен привести новичка к решению. Если этот алгоритм новичка не сходится, новичок будет знать, что не выполняется какое-то из требований. В этом смысле новичок остается новичком – он действует в рамках предположений, которые может проверить, и находит решение, если предположения верны. Возможно, перечисленные требования можно ослабить. Специально этот вопрос не исследовался. Единственное предположение, требующее объяснений - предположение о том, что игра является антагонистической.

II фаза – переход к решению I фаза – накопление данных Алгоритм Новичка Случай 2 х 2 стратегий (0,1)(1,0)(х, 1-х) (0,1)(1,0)(х, 1-х)

II фаза Алгоритм Новичка Случай 3 х 3 стратегий (0,0,1)(0,1,0) (1,0,0) r(1)=r(2) r(2)=r(3) r(1)=r(3) I фаза

Алгоритм Новичка Новичок нацелен на обнаружение закономерностей в поведении Осведомленного игрока. Как только закономерности обнаружены, Новичок принимает решения так, чтобы обнаруженные закономерности более не проявлялись. Отсутствие закономерностей в поведении Осведомленного игрока для Новичка означает отсутствие в его действиях информации, или, в случае матричной игры, локального максимума энтропии в виде: Где - компоненты профиля стратегий осведомленного игрока. Поиск закономерностей в случае матричной игры соответствует вычислению компонентов, а алгоритмом принятия решений может быть любой алгоритм, максимизирующий. Единственным требованием к игре, которому нужно иметь объяснение – игра должна быть антагонистической.

Модель коммуникации Осведомленный игрок – автор сообщения Новичок – получатель сообщения ДО: ПОСЛЕ: У игрока есть цель – вызвать определенное поведение у новичка. Он ее рационально преследует. Игроку все равно, какое предпринять действие – сообщение передано. Действия новичка блуждающие – ему нужно почувствовать цель осведомленного игрока В действиях новичка есть определенность. Сообщение получено.

Результаты Алгоритм Новичка, асимптотически выигрывающий 100% от принципиально возможного выигрыша в антагонистическую матричную игру против осведомленного оппонента В процессе выполнения алгоритма можно проверить условия, необходимые для его применимости к данной игре. Алгоритм отражает возможную связь механизма определения цели с физическим принципом максимума энтропии.

Спасибо! Контакты: Павел А. Малышкин МФТИ, ФРТК, кафедра Радиоэлектроники и прикладной информатики