Случай двух игроков – партнеров.

Задана исходная игра:

(1)

И ее информационное расширение:

(2)

Пусть игрок 1 ходит первым, то есть выбирает и сообщает второму. Игрок 1 знает принцип оптимальности игрока 2 и может оценить его реакцию – возможный ответ:

Тогда игроку 1 гарантируется выигрыш

(3)

Максимальный гарантированный результат (МГР) игрока 1 равен:

(4)

а оптимальная стратегия определяется равенством:

(5)

Итак, смысл ОП МГР заключается в следующем:

Игрок 1 для каждой стратегии оценивает ответ игрока 2. Выбор любой стратегии равноценен для игрока 2, но не для игрока 1, который рассчитывает на худший (минимальный) результат (3). «Перебирая» все свои стратегии, игрок 1 выбирает оптимальную из условий (4), (5) максимизации своего выигрыша.

Замечание 1.

Во всех формулах (3)-(5) предполагается, что максимум и минимум достигается (это имеет место когда, например, - конечные множества). В общем случае максимум заменяется на супремум (sup), а минимум на инфинум (inf).

Пример 1. Если (антагонистическая игра)

, (игрок 1 не имеет информации о выборе противника),

то МГР игрока 1 (см. (4)) принимает вид

В случае

(игрок 1 знает выбор игрока 2) имеем

Напомним, что всегда

Замечание 2.

В предположении, что игрок 1 знает все параметры игрока 2, то есть знает множество и функцию - рациональный ответ игрока 2 оценивается следующим образом:

В этом случае, множество - множество всех эквивалентных для игрока 2 стратегий , доставляющих максимум его функции выигрыша при фиксированной стратегии игрока 1.

Замечание 3.

Если игрок 2 доброжелателен по отношению к игроку 1, то есть среди эквивалентных для игрока 2 выборов из множества он делает лучший (с точки зрения игрока 1) выбор, то МРГ игрока 1 оценивается величиной

(6)

Конечно доброжелательность исключается при антагонистическом конфликте ( ).

Если же , то в случае доброжелательности игрока 2 игрок 1 получает. как правило, дополнительный выигрыш.

Пример 2.

Пусть

Имеем

Тогда

С другой стороны из условия доброжелательности получаем:

Иерархическая игра (игра Гермейера)

Иерархическая игра определяется следующими правилами (предполагается, что игрок 1 – начальник, игрок 2 – подчиненный):

1) Игрок 1 знает все параметры модели игрока 2, то есть множество и функцию выигрыша .

2) Игрок 1 делает свой ход первым, то есть выбирает стратегию и сообщает информацию о ней игроку 2.

3) Игрок 2 при известной ему стратегии выбирает , то есть максимизирует свой критерий.

4) При наличии неопределенных факторов (в данном случае – неоднозначного выбора 2-го игрока из множества ) игрок 1 действует исходя из ОП МГР (4), а в случае доброжелательности игрока 2 в соответствии с (6).

На основании этих предположений в зависимости от информации о выборах 2-го игрока, которую игрок 1 имеет или ожидает иметь, формулируются разные игры. Рассмотрим их.

I. Игра . В этой игре: , то есть ни один из игроков заранее не знает о выборе другого. Здесь игрок 1 выбирает и сообщает об этом игроку 2, а он в свою очередь выбирает (множество точек, которое доставляет максимум функции )

Тогда в этой игре МГР 1-го игрока:

- оптимальное управление (стратегия), определяется из условия:

В случае доброжелательности игрока 2 МГР игрока 1 равен

а оптимальная стратегия определяется из условия

Можно «стимулировать» доброжелательность, используя побочный платеж . В этом случае, функция выигрыша игрока 2 примет вид:

Аналогичный прием можно использовать в играх и (смотри далее).

II. Игра . В этой игре , то есть игрок 1 перед выбором своей стратегии будет знать выбор игрока 2. Таким образом, стратегия игрока1 выглядит следующим образом:

III. Игра . В этой игре , то есть игрок 2 перед выбором знает . Стратегия игрока 2:

Однако первый игрок знает правило поведения второго ( ) и поэтому его стратегия будет такой:

Замечание 5.

В играх и оптимальный выигрыш игрока 1 определяется формулой (4). Таким образом, решение игр и сводится к вариационным и более сложным задачам. Однако далее мы конструктивно определим решение этих игр на исходном множестве управлений .

Замечание 6.

Можно рассматривать игры , ,... . Но оказывается [ ], что ситуация 4 сводится к ситуации 2, ситуация 5 сводится к ситуации 3, а ситуация 6 сводится к ситуации 4 и т.д., то есть;

Из этого следует, что просчет вариантов действий в глубину не следует делать больше трех, дальше все повторяется.

Экономическая интерпретация иерархических игр Г₁, Г₂ и Г₃

Игра . Эта игра моделирует процесс управления ценами на произведенную продукцию и/или затрачиваемые ресурсы:

где x – ресурс,

p(x) – продукция,

- цена на продукцию,

- цена на ресурс.

Пусть фиксирована.

Найти такую, что было выгодно игроку 2.Из необходимого условия экстремума имеем:

Если , то

Игра . Эта игра моделирует процесс управления штрафами, поощрениями.

Опять пусть

«+» - премия, «-» - штраф, налог.

Тогда стимулирование выбора можно, например, произвести следующим образом (для определенности - штраф)

Игра . Эта игра моделирует процесс выдачи ресурсов, кредитования под обоснованную программу их использования

Пусть игрок 1 стимулирует реализацию ситуации . Тогда он должен стимулировать игрока 2 выбрать программу использования выделяемого ресурса:

где - произвольная функция.

Игроку 1 важно только, что выделяемый ресурс используется игроком 2 следующим образом . Поэтому оптимальная стратегия игрока 1 имеет вид

Как уже отмечалось, решение игр и сводится к вариационным и более сложным задачам. Однако далее мы конструктивно определим решение этих игр на исходном множестве управлений .

Игра Г₂.

В этой игре , т.е. игрок 1 до выбора

имеет информацию о .

Поэтому стратегии игрока 1 – функции

Для игрока 2 имеем

Вспомогательные конструкции.

Стратегия наказания:

определяется из условия:

Максимально гарантированный результат (МГР) подчиненного равен

Множество исходов выгодное подчиненному

Исходы (x₁, x₂) вне этого множества не устраивают игрока 2 и он всегда может добиться выигрыша не меньше, чем L₂, выбирая x₂= xˆ ₂ из условия

Определим из равенства

Наконец определим

Отметим, что

Теорема 1.

При условии доброжелательности, оптимальный выигрыш игрока 1 в игре Г_2,равен К_2,а ( - его оптимальная стратегия.

Доказательство:

При известной стратегии ( игрок 2 получит:

- если , то и .

- если же игрок 2 выберет , то его выигрыш не превысит

Если , то множество R₂ ( ) состоит из единственной точки .

В случае множество R₂ ( ) содержит выборы x₂, в том числе , эквивалентные для игрока 2_. В силу доброжелательности игрока 2, он выберет точку - выгодную для игрока 1_.

Итак, в условиях теоремы игроку1 гарантируется исход , приводящий к выигрышу =

Покажем, что К₂- максимальный гарантированный выигрыш.

Действительно, если исход ( ) приводит к ( ) > _,

то он лежит вне множества D₂по определению

Но вне множества D₂выигрыш игрока 2 оценивается величиной

( ) .

Это не выгодно игроку 2 и он всегда может выбором получить _.

Теорема доказана.

Замечание 2.

Условие доброжелательности может быть опущено, если множество является замыканием не пустого множества

= {( ) × _| ( ) > }

Действительно, в этом случае даже, если ( ) = L_2,можно «скорректировать» оптимальную стратегию, заменив ее стратегией

Где точка ( , ) удовлетворяет условиям:

( ,

величина определяет затраты игрок 1 на стимуляцию игрока 2.

Механизмом такой стимуляции может служить «побочный платеж».

( ) обещанный начальником подчиненному.

Игра

В этой игре игрок 2 знает выбор игрока 1 до своего выбора , т.е.: , = ( ). В свою очередь игрок 1 знает такое правило поведения игрока 2, т.е.

Вспомогательные конструкции.

Определим МГР игрока 2:

Далее определим стратегию наказания (стратегию наихудшую для игрока 2)

из условия

В игре взаимовыгодное множество определяется равенством

= {( ) × ≥ }

Напомним, что всегда ≥ _, поэтому . Определим исход ( ) из условия

К₃=

Построим стратегию игрока 2:

где произвольная функция.

Оптимальная стратегия игрока 1имеет вид:

Содержательно игрок 1 выберет (выдает кредит), если игрок 2 использует этот кредит выбором = , при этом игрок 2 получает ( , ) ≥

В противном случае игрок 1 выбирает и игрок 2 не получит больше .

Теорема 2.

При условии доброжелательности игрок 2 оптимальный выигрыш игрока 1 в игре равен _, а – его оптимальная стратегия.

Доказательство.

Аналогично доказательству теоремы 1.

Замечание 1 и 2 к теореме 1 справедливы и для теоремы 2.

Кроме того, в силу ≤ имеем ≥ , то есть выигрыш игрока 1 в игре больше или равен его выигрышу в игре .

Упражнение.

Докажите, что если в антагонистической игре ,

существует седловая точка, то

Пример.

Ранее на этом примере, мы строили ситуации равновесия на сложных стратегиях. Теперь проиллюстрируем решение иерархических игр.

Игра

Определим множества рациональных ответов игрока 2.

(1) = 3, (1, 3) = 7, (1, 3) = 2

(2) = 2, (2, 2) = 4, (2, 2) = 4

(3) = 2, (3, 2) = 3, (3, 2) = 0

Тогда

max min ( ) = max [2, 4, 0]=4

={1, 2, 3} ( ) ={1, 2, 3},

при =2, =2

Замечание.

Решение игры совпало с ситуацией равновесия по Нэшу на управлениях. В общем случае в этой игре можно получить выигрыш, равный выигрышу в наилучшей для игрока ситуации равновесия (что имеет место в игре «семейный спор») и даже больше.

Игра

В этом случае = max min ( ) = 0,

φ ₁^н(х₂) =

К₂= ( ) = (3, 1) = 7, что соответствует глобальному максимуму М_1.

Оптимальная стратегия игрока 1:

φ ₁⁰(х₂) =

Выигрыш игрока 2 равен ( ) = (3, 1) = 2> 0 =

Игра Г₃.

В этой игре = min max ( ) = 3

Стратегия наказания

Оптимальный выигрыш игрока 1 определяется следующим образом:

Построим стратегию игрока 2:

где произвольная функция.

Оптимальная стратегия игрока 1 имеет вид:

При этом игрок 2 получит (1, 1) = 6 > 3= _.

Заметим, что в этом примере = 6 < 7 =

Итак, для поиска решения иерархических игр на классе стратегий вместо решения сложнейших вариационных задач получена процедура сведения этих задач к задачам оптимизации на исходных множествах.

Для этого необходимо проделать следующие вычисления:

1. Найти значение гарантированного выигрыша подчиненного.

2. Определить стратегии наказания начальником подчиненного.

3. Ведением дополнительного неравенства определяется допустимое по интересам и возможностям множество альтернатив подчиненного. Это множество содержит выборы, при которых выигрыш подчиненного не может быть меньше его гарантированного результата.

4. Определяется точка из этого множества, доставляющая максимум функции начальника.

5. Конструируется стратегия начальника, приводящая к реализации этой оптимальной точки и включающей в себя штрафные санкции за невыполнение указаний.

Для иллюстрации на приведенном простом примере биматричной игры продемонстрируем громоздкость алгоритма решения игры путем прямого перебора стратегий. Об аналогичной демонстрации решения игры даже страшно подумать!

Итак, в данном примере игрок 1 имеет в своем распоряжении 27 = стратегий ( по числу отображений множества, состоящего из трех точек в аналогичное множество). Приведем результаты применения каждой из этих стратегий.

В приведенной таблице первой строке соответствует выбор стратегии

Второй строке

В правых столбцах приведены выигрыши игроков при различных ответах игрока 2 на эти стратегии. Например, оптимальный ответ игрока 2 на стратегию 1 заключается в выборе третьего столбца. При этом реализуется исход (1, 3) с выигрышами (2, 7).


1.	(6, 6)	(0, 0)	(2, 7)
2.	(6, 6)	(0, 0)	(3, 0)
3.	(6, 6)	(0, 0)	(0, 0)
4.	(6, 6)	(4, 4)	(2, 7)
5.	(6, 6)	(4, 4)	(3, 0)
6.	(6, 6)	(4, 4)	(0, 0)
7.	(6, 6)	(0, 3)	(2, 7)
8.	(6, 6)	(0, 3)	(3, 0)
9.	(6, 6)	(0, 3)	(0, 0)
10.	(0, 0)	(0, 0)	(2, 7)
11.	(0, 0)	(0, 0)	(3, 0)
12.	(0, 0)	(0, 0)	(0, 0)
13.	(0, 0)	(4, 4)	(2, 7)
14.	(0, 0)	(4, 4)	(3, 0)
15.	(0, 0)	(4, 4)	(0, 0)
16.	(0, 0)	(0, 3)	(2, 7)
17.	(0, 0)	(0, 3)	(3, 0)
18.	(0, 0)	(0, 3)	(0, 0)
19.	(7, 2)	(0, 0)	(2, 7)
20.	(7, 2)	(0, 0)	(3, 0)
21.	(7, 2)	(0, 0)	(0, 0)
22.	(7, 2)	(4, 4)	(2, 7)
23.	(7, 2)	(4, 4)	(3, 0)
24.	(7, 2)	(4, 4)	(0, 0)
25.	(7, 2)	(0, 3)	(2, 7)
26.	(7, 2)	(0, 3)	(3, 0)
27.	(7, 2)	(0, 3)	(0, 0)