Адаптивные нейросетевые методы в многошаговых Байесовых играх Сергей Терехов ООО НейрОК Техсофт г. Троицк Нейроинформатика – 2005 МИФИ, 26 января 2005.

Презентация:



Advertisements
Похожие презентации
Теория игр Теория игр – это совокупность математических методов анализа и оценки конфликтных ситуаций. Задача теории игр состоит в выборе такой линии поведения.
Advertisements

Стохастические игры Игры с «природой». Основные определения К теории игр примыкает так называемая теория статистических решений. Зачастую принятие управленческих.
Конституционная экономика Игровые теории экономических процессов. Основные понятия и классификация игр. Белова Т.А. группа ю.з-1841.
Нелинейное программирование Практическое занятие 6.
«Теория игр» Исполнители: Кондрашова В.В.,Чернышева Ю.Г. Специальность: Финансы и кредит Руководитель: Филонова Е.С.
ТЕМА 7. Применение теории игр в экономико-математическом моделировании 7.1. Основные понятия теории игр Поиск решения в игре Игры с природой.
СТАТИСТИЧЕСКИЕ ИГРЫ Выполнили: Петрук К. Черняк А. Чикиш Ю.
Теория Риска. Стратегические игры Выполнил Ланге В.А. группа 245.
Поведение фирмы- ценополучателя Решения задачи максимизации прибыли фирмы ценополучателя: кривая предложения, точка закрытия «Излишек производителя» и.
Государственное образовательное учреждение высшего профессионального образования «Государственный университет управления» (ГУУ) к.э.н., доц. Панфилова.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Редок Полина, студентка 1 курса экономического факультета группы э 122 б.
Теория риска Позиционные игры. Структура позиционной игры Позиционными играминазываются игры, в которых задается последовательность принятия решений игроками.
ТЕМА 3. СТРАТЕГИЧЕСКОЕ ВЗАИМОДЕЙСТВИЕ НА РЫНКЕ ОЛИГОПОЛИИ: ОБЪЯСНЕНИЕ ПРИБЫЛИ ПРОДАВЦОВ 1.Парадокс Бертрана 2.Разрешение парадокса Бертрана: повторяющиеся.
Теория игр Теория игр изучает и рассматривает методы определения оптимального поведения при управлении системами, в которых характерно наличие конфликтной.
Тема 3. Стратегическое взаимодействие на рынке олигополии: объяснение прибыли продавцов 1. Парадокс Бертрана 2. Разрешение парадокса Бертрана: повторяющиеся.
ВЫПОЛНИЛА: ДУРНОВА М.. Интегральная оценка риска это получение из совокупности главных событий некоторых количественных параметров, которые могут охаракте­ризовать.
Общественные блага - 2 Модель с добровольным финансированием общественного блага Схема модели Определение и схема поиска равновесия Аналитический пример.
Моделирование и исследование мехатронных систем Курс лекций.
Лекция 2. Биматричные игры Биматричная игра - это бескоалиционная игра двух игроков, каждый из которых имеет конечное множество стратегий. Пусть первый.
Транксрипт:

Адаптивные нейросетевые методы в многошаговых Байесовых играх Сергей Терехов ООО НейрОК Техсофт г. Троицк Нейроинформатика – 2005 МИФИ, 26 января 2005

Принятие решений Ключевой аспект деловой активности – принятие целевых решений, основываясь на имеющейся информации Лица, принимающие решения (ЛПР) Их агенты, автономно принимающие решения по поручению ЛПР

Моделирование, оптимизация, управление и теория игр Иерархия типов принятия решений Оптимизационные решения Управленческие решения Решения при конфликтах интересов (решения в играх) Роль моделирования: выбор решения и прогнозирование его последствий

Моделирование, оптимизация, управление и теория игр - 2 Оптимизация: характер деятельности допускает полное подробное описание и зависит только от ваших решений. Оптимизация состоит в проведении непосредственных изменений параметров деловой системы с целью максимизации выбранной функции ценности. Имеется богатый алгоритмический инструментарий.

Моделирование, оптимизация, управление и теория игр - 3 Управление: непосредственное произвольное изменение желаемых параметров системы затруднено. Управляющие решения (разовые или последовательности решений) характеризуются внесениями изменений в некоторые переменные или параметры системы, которые опосредованно отражаются в движении системы по благоприятной траектории или к желаемому состоянию. Широкий класс задач управления основывается на измерении отклика системы на управляющие решения.

Моделирование, оптимизация, управление и теория игр - 4 Решения в играх: отклик бизнес-системы зависит одновременно от решений нескольких лиц, занятых достижением индивидуальных целей. Новый масштаб сложности - даже в случаях, когда каждый из участников, принимающих решения, обладает полной информацией о совместно управляемой системе, ее отклик и степень достижения целей оказываются весьма богатыми по своему разнообразию. Рациональные способы принятия решений несколькими лицами являются предметом теории игр – математической дисциплины, замыкающей цепочку, начатую оптимизацией и теорией управления.

Логика серии лекций Моделирование при оптимизации Вейвлеты и нейронные сети (2001) Нейросетевые аппроксимации плотности и их роль в информационном моделировании (2002) Введение в байесовы сети (2003) Управление Нейро-динамическое программирование автономных агентов (2004) Теория игр Адаптивные нейросетевые методы в многошаговых играх с неполной информацией (2005)

Базовый инструмент - искусственные нейронные сети Нейросетевые аппроксимации искомых в соответствующих задачах функции (плотность вероятности, частные условные вероятности в Байесовых сетях, функции цены решения в нейродинамическом программировании). Вопросы эффективного синтеза и обучения нейросетевых моделей. В этой лекции нейронная сеть используется для моделирования распределения вероятности суммарного дисконтированного выигрыша игрока. Примененная архитектура – локально-связанные нейросетевые сплайны (Connectionist Local-Spline Neural Network – CLSNN).

Теория игр Теория игр, как научное направление, относительно молода. Фундаментальные положения ее были сформулированы в середине прошлого века (Дж. Фон-Нейман). Примерно в это же время были (Дж.Нэш) установлено понятие равновесия стратегий. В дальнейшем были предложены различные подходы к достижению равновесия. Цикл исследований по применениям теории игр в экономических задачах был отмечен Нобелевской премией по экономике (Дж. Нэш, Дж. Харшаньи, Р. Зельтен, 1994). Теория игр и теория управления в России. Хронология теории игр:

Специфика теоретико-игровых постановок информационных задач Пример игры Игра 1 (Дележ). Двое имеют возможность разделить сумму в 100 долларов. Каждый игрок, в тайне от другого игрока, сообщает судье (или помещает в запечатанный в конверт) количество денег, которое он желает получить. Конверты вскрываются одновременно, и если сумма двух значений не превышает 100, то каждый получает столько, сколько он запросил. Однако, если сумма оказывается больше 100, никто не получает ничего. Как следует поступить игрокам?

Обсуждение игры о дележе Пусть игроки сделали заявки x и y. Каждому из них сообщен результат его игры (запрошенная сумма или ноль), но не ставка соперника. Следует ли игрокам изменить свои решения, если им представится возможность сыграть еще раз? Как изменится подход к решению, если обе ставки становятся известными обоим игрокам? Если сумма ставок оказалась меньше 100, то свою ставку при следующем ходе можно увеличить каждому игроку (и уменьшить, если они не получили ничего). После нескольких ходов игры сумма ставок, вероятно, приблизится к 100. Однако дальнейшее движение не выглядит рациональным ни для одного игрока – и уменьшение, и увеличение своей ставки одним из игроков приведут к потерям, каково бы не было достигнутое ранее распределение ставок.

Понятие о равновесии по Нэшу Такие конфигурации решений, при которых каждый игрок не может единолично улучшить свою премию, называются состояниями равновесия (по Нэшу). Игра о дележе имеет бесконечное число состояний равновесия вида: Понятие равновесия является ключевым в теории игр – собственно, результатом теории является обнаружение и классификация состояний равновесия, равновесных стратегий игроков, а также получаемых ими выигрышей (т.е. вычисление цены игры).

John Forbes Nash В четырех статьях (1950 и 1953) Джон Нэш сделал фундаментальный вклад некооперативную теорию игр и в теорию переговоров в играх. В статьях Equilibrium Points in N- Person Games (1950) и Non-cooperative Games (1951), Нэш доказал существование стратегического равновесия для некооперативных игр (равновесие Нэша) - и предложил "программу« приближения к изучению кооперативных игр через их редукцию к некооперативной форме.Equilibrium Points in N- Person GamesNon-cooperative Games В работах The Bargaining Problem (1950) и Two- Person Cooperative Games (1953), он основал аксиоматическую теорию сделок в переговорах, доказал существование решения, что явилось первым использованием предложенной программы исследованийThe Bargaining ProblemTwo- Person Cooperative Games Нобелевская премия по экономике, 1994 Born: 13 June

Понятие рационального поведения Формализация понятия рационального поведения проведена Дж. фон-Нейманом в теории рационального выбора, основанной на аксиоматическом подходе. Рациональный игрок применяет наилучшее для себя решений A из набора возможных решений, руководствуясь индивидуальной функцией полезности (utility function, U(A)). Значения функции полезности являются абстрактными и имеют только относительный смысл при сравнении двух возможных решений.

Стратегические игры в матричной форме Если игра проводится конечное и известное заранее число раз, то каждый игрок может предложить набор ходов (управляющих решений) для каждой из возможных промежуточных ситуаций в игре. Перечень решений для каждой из ситуаций игры называют стратегией игрока. Стратегия может быть выбрана до начала игры, и таким образом игра фактически является одношаговой. Игроки публикуют свои стратегии и вычисляются итоговые выигрыши и цена всей игры. Игры этого типа называются стратегическими. Выигрыш каждого игрока зависит от стратегий всех игроков. При известном (и конечном) наборе стратегий он может быть явно вычислен.

Матрица выиргышей Выигрыши данного игрока для всех комбинаций стратегий формируют матрицу (с числом измерений, равным числу игроков). Индексами в каждом измерении служат номера стратегий соответствующих игроков. В общем случае каждый игрок имеет дело со своей матрицей выигрышей. Исход игры с матрицей выигрышей M: P R - вектор решения игрока, выбирающего строку матрицы, все компоненты вектора кроме одной (единичной) равны нулю, P C - аналогичный вектор решения игрока, выбирающего столбец.

Равновесия в играх с полной информацией Рассматривается ситуация, когда оба игрока обладают полной информацией об игре (известны как матрицы выигрышей, так и выигрыши всех игроков, если игра повторяется). Рациональный игрок R должен стремиться к максимизации своего выигрыша при любых вариантах выбора решений другими игроками. Для случая двух игроков оптимальная стратегия состоит в максимизации гарантированного выигрыша: Чистые стратегии:

Особенности равновесий в чистых стратегиях Равновесия в чистых стратегиях могут не существовать или быть неединственными. Пример игры Игра 2 (Дилемма заключенного). Двое задержанных лиц подозреваются в совершении серьезного преступления. Не имея возможности общаться между собой, они поставлены перед выбором, свидетельстовать ли против друг друга или нет? При этом, если один обвинит другого, а тот обвинит первого, то оба получат наказание. Если обвинение будет только со стороны одного из игроков, то он получает свободу, а другой – максимальное наказание. Если же оба откажутся от обвинений (т.е. выберут сотрудничество), то, в силу других обстоятельств дела, они оба получат относительно небольшое наказание. Как поступить рационально ?

Обсуждение игры о дилемме заключенного Матрица игры T > R > P > S Рациональные рассуждения за обоих игроков в чистых стратегиях. Пусть I считает, что II будет придерживаться стратегии сотрудничества. Если I также будет сотрудничать, то оба получат выигрыши R. Если же I выберет обвинение, то его индивидуальный выигрыш возрастет до T. Согласно теории рационального выбора, оптимальной стратегий I, если II выбрал сотрудничество, будет обвинение. Пусть теперь I считает, что II его обвинит. Если I выберет сотрудничество (отказ от обвинения), то его выигрыш окажется равным S. Однако, если I также выберет обвинение, то его выигрыш снова возрастет, и окажется равным P. В итоге, при любых предположениях стратегия обвинения доминирует над стратегией сотрудничества. Аналогичной логике следуют рассуждения второго, тоже рационального, игрока. Cледовательно оба выберут взаимное обвинение, упуская возможность кооперации, которая дала бы им большие выигрыши. Этот факт и составляет дилемму. (I, II) Сотрудни- чество Обвине- ние Сотрудни- чество R, RS, T Обвине- ние T, SP, P

Равновесия в смешанных стратегиях Игрок может скрыть часть своих намерений и придерживаться разных стратегий в разных актах игры. Стратегия, включающую вероятностные комбинации возможных чистых стратегий, называют смешанной. Чистые стратегии являются частным случаем (вероятность одной из стратегий = 1). Для игр с конечным набором состояний доказана теорема о существовании равновесий в смешанных стратегиях.

Теорема Нэша Теорема (Дж. Нэш, 1950). Каждая финитная игра имеет точку равновесия Под равновесием в теореме Нэша понимается набор смешанных стратегий, таких, что для каждого игрока значение функции полезности (зависящее от его выигрыша при данном наборе стратегий) не может быть увеличено индивидуальным уклонением от равновесной смешанной стратегии. Фундаментальность этой теоремы состоит в том, что она справедлива как для кооперативных, так и для антагонистических игр с любым числом участников. До теоремы Нэша исследования были основаны на классификациях игр с рассмотрением каждого класса в отдельности.

Многошаговые игры с неполной информацией В многошаговых играх игроки заинтересованы в максимизации суммарных (дисконтированных) выигрышей, полученных на каждом шаге игры: γ < 1 – дисконт-фактор, r(t) – выигрыш на шаге t. При неполной информации игроки вынуждены принимать решения на основе своих ожиданий, используя информационные моделей игры, прогнозирующих поведение других игроков и исход игры. На практике сбор информации для уточнения моделей происходит одновременно с самим процессом многошаговой игры.

Марковский процесс решений Поиск оптимальной стратегии в многошаговой игре является обобщением формализма Марковского процесса решений (Markov Decision Process) на случай нескольких игроков. Марковский процесс принятия решений представляет собой совокупность из множества состояний среды (игры!) s, множества возможных решений агента a, функции подкрепления (выигрыша!) агента r(s,a), а также плотности вероятности переходов между состояниями среды Выбор решений агента определяется его стратегией, заданной как плотность распределения на пространстве решений. Оптимальная стратегия определяется уравнением Беллмана:

Динамическое взаимодействие агента и окружения Марковский процесс решений

Цена решения агента в каждом состоянии Для оптимизации выбора стратегии удобнее перейти к понятию цены Q пары (состояние, решение), которая равна суммарному дисконтированному подкреплению при принятии в состоянии s решения a, и в дальнейшем следования оптимальной стратегии: Для практических вычислений широко применяются итерационное Q-обучение и алгоритм SARSA, в сочетании с ε-оптимальным поведением агента на оптимизируемой траектории.

Цена игры В теоретико-игровой постановке цены игр V зависят от решений нескольких игроков: Каждый игрок при поиске оптимальной стратегии должен максимизировать свою функцию ценности Q в новом состоянии: Непосредственная индивидуальная максимизация невозможна, так как функция Q зависит от решений всех других игроков. Для выхода из противоречия заметим, что Q определяет матрицу некоторой игры в состоянии s, и оптимальная стратегия опирается на смешанную стратегию в этой игре. (угловыми скобками обозначена цена игры)

Взаимодействие агента с игровой средой Решение уравнения Беллмана отражает характер получения информации при взаимодействии агента с игровой средой: Для поиска оптимальной стратегии каждый агент кроме формирования собственной функции цены состояния Qq должен обучаться моделям матриц выигрышей Q-q всех остальных игроков. Текущие выигрыши других игроков должны быть известны на каждом шаге (хотя фактические смешанные стратегии других игроков и их фактические матрицы игр остаются скрытыми). В каждый момент времени агент оптимизирует свое поведение в текущем равновесии Нэша для текущей модели игры. Отличие стохастических многошаговых игр от повторений одной стратегической игры: в многошаговой игре матрицы выигрышей эволюционируют во времени. При моделировании агент может следовать ε-оптимальной стратегии на каждом шаге игры.

О сложности модели Вычислительные затраты на реализацию описанной модели в полной постановке значительны: Обучаемые параметры включаю в себя матричные элементы всех матриц игр всех игроков Для вычисления итерационных поправок к ценам Q требуется на каждом шаге решать задачу серию задач квадратичного программирования для определения векторов вероятностей в смешанных стратегиях каждого игрока. Предлагается упрощенная Байесова постановка задачи обучения агента, в которой неопределенность в ценах игры, вызванная решениями других игроков моделируется статистически. Одновременно с упрощением вычислений предлагаемая модель является более общей, т.к. она включает случай, когда агенту известен только его текущий выигрыш в игре, а значения выигрышей других игроков не известны.

Байесова модель многошаговой игры с неполной информацией Пусть игрок вынужден принимать последовательность решений в многошаговой игре в условиях, когда матрицы игры и выигрыши других игроков ему не известны. Постановка такой задачи весьма близка к реальной ситуации при игре на бирже или при деловой деятельности в условиях конкуренции на рынке. Игроку известно множество его допустимых ходов, в течение игры агенту сообщаются значения его выигрышей. Игроку также известен его текущий счет. Целью агента по-прежнему является максимизация собственного дисконтированного выигрыша в последовательности игр. Q-фактор агента зависит от скрытых переменных – решений других игроков. Эффект скрытых переменных может быть описан статистически. В предлагаемой вероятностной модели значение Q фактора объявляется случайной величиной с параметрической плотностью распределения, моменты которого зависят только от переменных состояния агента и его решений:

Ожидаемый выигрыш в модели с вероятностной матрицей Рассмотрим j-ю реализацию значений матрицы в состоянии s для (дискретного) набора их k возможных решений агента Ожидаемый исход j-й реализации игры при смешанной стратегии p(a) Наилучшим ходом в этой реализации игры будет Наилучшая жадная стратегия оценивается методом Монте- Карло, как статистика большого числа выборок. Уравнение обучения с подкреплением (TD): (угловыми скобками обозначено усреднение по реализациям игры)

Нейросетевые аппроксимации моментов распределения Q ~ Выходы нейросети - искомые функциональные зависимости m(s,a) и sigma(s,a). Входы нейросети - совокупность переменных состояния и решение агента. Максимизация функции правдоподобия (для Гауссового распределения), F – значения аппроксимируемой величины (наблюдаются TD-оценки уклонений F от среднего m)

Нейросеть CNLS (Connectionist Normalized Local Splines) Ядра Тождество для гладких функций Формальное представление формулой Тейлора Аппроксимационная модель Базисные (нейронные) функции

Обучение сети CNLS Выражения для градиента при обучении с учителем

Численный пример Аппроксимация зашумленной синусоиды CNLS – сетью из 7 нейронов. Пунктирные линии соответствуют прогнозируемым нейронной сетью значениям дисперсии. Крестиками отмечены положения центров нейронов, выбранные алгоритмом обучения. Нейронные центры адаптивно располагаются в областях максимальных градиентов функции.

Нейросетевые аппроксимации - 2 Полученные соотношения для производных функции правдоподобия по выходам нейросети справедливы для дифференцируемых нейросетей любой архитектуры (без рекуррентных связей). Специфика конкретного типа нейросети проявляется в конкретном виде производных выходов по параметрам w и v. Максимизация функции правдоподобия с аппроксимацией всех параметров выбранного распределения является более универсальным (и численно более устойчивым) подходом, нежели традиционное обучение нейросети обратным распространением ошибки.

Промежуточный итог Задача поиска оптимальной стратегии в многошаговой игре сформулирована в виде последовательных матричных игр. Цепочка матричных игр рассматривается как цепочка игр с вероятностными параметрическими моделями матриц, зависящих только от переменных одного агента. Параметры распределений, как функции переменных агента, моделируются нейросетью, с обучением на основе максимизации функции правдоподобия. Цены вероятностных игр в уравнении адаптации (уравнении Беллмана) для агента оцениваются методом Монте-Карло.

Практика: Модель совместной деятельности холдинга компаний Фундаментальной областью приложений теории игр является проблема коллективного поведения и взаимодействия игроков - участников совместной бизнес-деятельности. В качестве иллюстрации выбрана деятельность холдинга компаний, специализирующихся на предоставлении консалтинговых услуг в нескольких смежных областях, относящихся к информационным технологиям. Предложена модель внутренней конкуренции и кооперации, основанная на аукционных механизмах выработки управляющих решений. Основу модели составляют нейросетевые методы выбора стратегии рационального поведения для индивидуальной компании – участника холдинга. При этом игровые условия учитывают неполноту и вероятностный характер информации, доступной каждому игроку.

Модель бизнес-процессов Несколько компаний оказывают консалтинговые услуги в области информационных технологий. Экспертные профили компаний близки по тематикам выполняемых проектов, и с целью снижения маркетинговых и других издержек компании объединяются в холдинг, управляемый головной компанией, имеющей фиксированную долю прибыли от каждого успешно проведенного проекта. Имеется фиксированный набор тематических разделов, однако каждый проект может потенциально содержать задачи из разных разделов. Профиль проекта задается распределением его тематик. Стоимость каждого проекта для внешних заказчиков фиксирована (и равна 1). Проект полностью выполняется одной из компаний холдинга. Каждая компания имеет свой экспертный профиль по тематикам (вероятности успешного выполнения проекта по каждой из тематик в отдельности). Экспертный уровень компании (вероятность успешного выполнения комплексного проекта) равен скалярному произведению профиля проекта и профиля компании. Проекты Тематики Компании Уровни экспертов Выполнение проектов Прибыли /убытки

Модель бизнес-процессов - 2 Каждая компания использует свой собственный набор методик и программного обеспечения, и фактические экспертные уровни остальных компаний ей неизвестны. Неизвестными являются также и функции полезности других компаний, определяемые только их уровнем текущих доходов в расчете на один проект. Состояния счетов не публикуются. При успешном выполнении проекта его финансовое обеспечение, за вычетом доли управляющей компании, целиком поступает на счета компаний. Если проект завершается неудачно, то холдинг несет убытки в размере полной стоимости проекта плюс дополнительные издержки, процент которых также фиксирован. Убытки не затрагивают управляющую компанию. Компании холдинга, в целом, остаются независимыми, и преследуют, прежде всего, интересы своего собственного бизнеса. Для организации совместной деятельности в холдинге предложена схема деятельности, основанная на внутреннем аукционе. Рациональность этой схемы, а также оптимальная доля прибыли головной компании и являются предметом исследования.

Цикл деятельности холдинга 1. Холдинг получает заказ на выполнение нового проекта, случайно выбираемого из фиксированного списка проектов. Профиль тематик проекта сообщается всем компаниям- участникам. 2. Каждая компания индивидуально вычисляет свой собственный экспертный уровень относительно данного проекта и владеет информацией о состоянии своего счета. 3. Компании делают одинаковый страховой взнос, суммарная величина которого равна стоимости проекта и фиксированных издержек, которые возникнут, если выполнение проекта будет сорвано. 4. Каждая компания назначает свою, внутреннюю для холдинга, цену выполнения проекта (не превышающую стоимость проекта от заказчика). Заявленные цены передаются в управляющую компанию, и держатся в секрете от других участников. 5. Заявки компаний участвуют во внутреннем аукционе, при этом побеждает заявка с минимальной ценой. 6. Если цена победителя не превышает отпускную цену проекта за вычетом фиксированной доли управляющей компании, то компания – победитель аукциона получает возможность выполнить этот проект по заявленной ею цене. В противном случае холдинг просто отказывается от выполнения этого проекта, не получая на этом шаге ни доходов, ни убытков. Страховые взносы полностью возвращаются компаниям. 7. С вероятностью, равной своему экспертному уровню относительно данного проекта, компания-победитель аукциона успешно выполняет проект. В этом случае она получает доход, равный заявленной ею аукционной цене, управляющая компания получает фиксированную долю, а остаток средств равномерно распределяется по остальным компаниям холдинга. Страховые взносы полностью возвращаются компаниям. Таким образом, все заинтересованы в успешном выполнении проекта. 8. Если же проект окажется неуспешным, то компании теряют свои страховые взносы, управляющая компания ничего не получает.

Точка зрения отдельной компании холдинга Компании поровну делят риски совместной деятельности, а также частично и доходы от нее. Управляющая компания, обеспечивающая приток новых проектов, потенциально имеет единственный рычаг долгосрочного управления – ставку своей прибыли. Каждая компания имеет одну степень свободы – внутреннюю цену каждого проекта, участвующую в аукционе. Прямой путь повышения собственных доходов – увеличение этой цены, однако, высокие заявки имеют малый шанс победить в аукционе. При низких же ценах компании самой не выгодно выполнять проект – пусть это сделает кто-то другой, а она получит больше при дележе остатка денег. С другой стороны, передача проекта в компанию, имеющую в его тематиках невысокий экспертный уровень, также невыгодна – возрастает риск неудачи проекта. Важен лишь собственный уровень доходов в расчете на один заказанный холдингу проект. Высокие цены на проект со стороны всех компаний приведут к тому, что проект вообще не будет выполняться (но время упущено, и это учитывается в подсчете числа заказанных проектов). Целью каждой компании является нахождение стратегии выбора цен в аукционах, максимизирующей суммарный (дисконтированный) доход.

Алгоритм проведения игры

Индивидуальные выигрыши Сплошная тонкая линия – выигрыш, если победила ставка этого игрока Прерывистая линия – выигрыш, если победил игрок, экспертный опыт которого выше, чем у данного игрока; Тонкий пунктир – выигрыш, если победил игрок с меньшим экспертным опытом; Сплошная жирная линия – наиболее предпочтительный сценарий для данного игрока при полной информации. Отмечены точки выигрышей при нулевой цене (1,4), точки безубыточности (2,5), максимально возможный выигрыш (3) и точка безразличия (6). Зависимость ожидаемого выигрыша игрока от результирующей цены на аукционе.

Точки безразличия и равновесие при полной информации Важной точкой на кривой выигрышей является точка безразличия (6), в которой доход не зависит от того, кто фактически победил в аукционе – данный игрок или какой-то другой игрок. На кривой выигрыша имеется (n-1) таких точек – для каждого из оппонентов. Чем сильнее оппонент, тем правее расположена эта точка (напомним, что у сильных оппонентов выше вероятность успешного завершения проекта). При полной информированности участников решение игры может достигаться только в точках безразличия. Однако они неустойчивы, поэтому в чистых стратегиях решений нет.

Компьютерная система COGITO Описанный алгоритм проведения игры реализован в компьютерной системе COGITO. Система позволяет описывать переходы между состояниями многошаговой игры, проводить аукционы, вычислять выигрыши игроков. Модель игрока основывается на предложенном нейросетевом алгоритме аппроксимации плотности распределения его цены состояния, она позволяет проводить обучение нейросети с подкреплением и оценивать текущую оптимальную смешанную стратегию. Система COGITO позволяет изменять механизмы аукционов (например, в коммерческих аукционах в качестве цены часто выбирается цена второй заявки, следующей за ценой победителя), а также использовать алгоритмы распределения, отличные от аукционов (например, комитетные решения). В COGITO может также дозироваться информация, сообщаемая игрокам, например, могут публиковаться выигрыши и уровни экспертизы всех других игроков, или их части. Компьютерная игровая система позволяет провести оптимизацию деятельности управляющей компании - определить оптимальное значение нормы прибыли управляющей компании, а также выяснить, как оно зависит от процента издержек при неудаче в проекте.

Некоторые результаты для холдинга из трех компаний Три компании, две тематики. Профили компаний На рисунке: Смешанные стратегии сильного третьего (верхний рисунок) и слабого первого игроков в отношении одного из проектов на поздних стадиях многошаговой игры. Слабый игрок с некоторой вероятностью делает заявки в области точки безразличия сильного игрока, цены слабого игрока в целом выше – при риске стать победителем он предпочитает более высокие ставки. Совсем низкие ставки (с вероятностью около 0.18) у высокого игрока позволяют ему иногда назначать и относительно высокую цену. Вероятность более высокой цены выше вероятности низкой.

Некоторые результаты для холдинга из трех компаний - 2 На рисунке: Динамика индексов доходов (в расчете на один проект) трех игроков в игровых сериях, по 100 шагов каждая. Первый игрок, не являясь безусловным лидером ни в одном из проектов, находит более успешные стратегии, чем каждый из лидеров. Третий игрок успешнее второго (при равенстве суммарных экспертных уровней). Поскольку вероятности проектов обоих типов одинаковы, то это означает, что переход уровня от 0.95 к 0.99 в одном из проектов компенсирует потери 0.75 : 0.71 в другом.

Обсуждение Первое наблюдение состоит в том, что в условиях крайне ограниченной информации фирмы-участницы находят способ рационального позиционирования на внутреннем рынке. Равновесные стратегии имеют интерпретируемые распределения. Смешанные стратегии сильных и слабых игроков различаются. Важный методологический момент – алгоритмы обучения с подкреплением, обобщенные на случай стохастических многошаговых игр, оказываются достаточно эффективными, сходимость достигается за несколько тысяч шагов одиночных игр, что является типичным значением для методик онлайн- обучения.

На какие вопросы могут ответить теоретико- игровые системы (типа GOGITO)? Как влияет на доходы управляющей компании изменение ставки ее прибыли? Как при этом перераспределяются доходы отдельных компаний? Выгодно ли расширять холдинг путем включения компаний с относительно невысоким экспертным уровнем? Каковы пороговые значения для этого уровня? Выгодно ли одной компании повышать экспертный уровень другой компании (путем передачи технологий, обучения специалистов и пр.)? Каким должен быть экспертный профиль новой компании, чтобы обеспечить максимальную полезность холдингу без дестабилизации его работы? Насколько выгодно иметь экспертный уровень 0.999… в одной из тематик?

Итоги Практические применения теории игр широко опираются на вычислительное моделирование. Компьютерные модели, такие как система COGITO, способны учитывать особенности бизнес- процессов, прогнозировать и, что особенно ценно, оптимизировать деловую активность в практических условиях множества одновременно действующих участников. Фактически, система COGITO является автоматизированной торговой системой, поскольку вырабатываемые решения являются рекомендациями по ценам сделок в рыночных условиях. Используемый аукционный алгоритм может быть обобщен на случай, когда цены определяются небольшим числом крупных агентов, а остальные агенты выступают в роли трейдеров.

Спасибо за внимание! Контакт: Сергей Терехов Нач. отдела интеллектуальных технологий, ООО НейрОК Техсофт