Динамические игры с полной и совершенной информацией. Развернутая форма игры. Понятие о методе обратной индукции (игра «Террорист»).

⇐ ПредыдущаяСтр 4 из 5Следующая ⇒

Динамической называется игра, в которой каждый игрок может сделать несколько ходов, и по крайней мере один из игроков, делая ход, знает, какой ход сделал другой игрок (возможно, он сам).

В динамических играх различают полную и совершенную информацию. Если все игроки имеют общую информацию о правилах игры и функциях выигрыша, то информацию считают полной. Это понятие в равной степени относится как к статическим, так и к динамическим играм. Понятие совершенной информации относится только к динамическим играм, в которых игроки делают ходы последовательно в разные моменты времени. Говорят, что динамическая игра обладает совершенной информацией, если все сделанные ходы сразу же становятся известны всем игрокам.

Иногда динамическую игру удобно представить в виде дерева. Такое представление называется развернутой формой игры. Она должна содержать:

- множество вершин дерева игры, в том числе одну начальную вершину;

- для каждой вершины, кроме начальной – единственную вершину, которая непосредственно ей предшествует; при этом цепь предшествующих вершин, построенная из любой вершины, должна заканчиваться в начальной вершине (это предполагает отсутствие циклов);

- множество игроков;

- для каждой вершины, кроме конечных – единственного игрока, которому принадлежит ход в данной вершине;

- для каждой конечной вершины – вектор выигрышей всех игроков;

- (если в игре есть случайные ходы «природы», то следует задать также распределение вероятностей на множестве всех возможных ходов «природы»).

Пример. Игра «Террорист». В самолет сел террорист, который требует лететь из Майами в Гавану вместо Нью-Йорка. В предположении, что террорист не может определить маршрут полета, летчик выбирает,

куда лететь. Если он летит в Гавану, игра заканчивается, а если в Нью-Йорк, то ход делает террорист, который решает, взрывать самолет или нет. На конечных вершинах дерева проставлены выигрыши игроков

(первый игрок – пилот):

Метод обратной индукции.

В динамических играх с полной и совершенной информацией удобно решать игру методом обратной индукции. В соответствии с методом обратной индукции игра «разматывается» с конца. При этом рассматриваются все последние вершины игры, в которых один из игроков делает выбор, исходя из его рациональности. Далее процесс повторяется для всех предшествующих вершин, пока не дойдет до начальной вершины. Например, в игре «Террорист» единственной вершиной, из которой можно начать применение метода обратной индукции («предфинальная» позиция), является вершина, в которой ход делает террорист. Террорист из двух вариантов (взрывать или не взрывать бомбу в Нью-Йорке) выбирает

– не взрывать, поскольку при заданных выигрышах ему выгоднее именно не взрывать.

После этого игру можно частично свернуть (редуцировать), и дерево игры упрощается:

Поскольку действия террориста в Нью-Йорке несложно предугадать, пилот выбирает лететь в Нью-Йорк, где его выигрыш больше.

Таким образом, обратная индукция показывает, что пилот полетит в Нью-Йорк, а террорист не будет взрывать бомбу.

Обратную индукцию можно реализовать и на основе функций отклика игроков.

24. Применение метода обратной индукции на примере игры «Рэкет».

На первом шаге условие первого порядка для фирмы дает следующую функцию отклика фирмы на отбираемую долю выручки:

Зная эту функцию, рэкетиры максимизируют свою функцию выигрыша. Для этого надо подставить функцию отклика фирмы в функцию выигрыша рэкетиров и применить к полученному выражению условие первого порядка. Это дает значение α =1/2.

25. Представление динамической игры с полной информацией в нормальной форме (на примере динамического варианта игры «Выбор компьютера»).

Определение. Стратегия (чистая) в динамической игре – это полный план действий игрока, который показывает, что он будет делать в каждой из вершин, в которой ход принадлежит ему.

Следует отметить, что в этом плане игрок указывает свои действия даже в тех вершинах, в которых он в процессе игры реально вряд ли окажется.

Пример. Динамический вариант игры «Выбор компьютера», в котором 1-й игрок выбирает себе компьютер первым. Дерево игры имеет вид:

1-й игрок имеет две стратегии, совпадающие с альтернативами в вершине 1. Игрок 2 имеет 4 стратегии, каждая из которых определяет его действия в двух вершинах – 2 и 3. Его стратегии следующие: (2IBM, 3IBM), (2IBM, 3Mac), (2Mac, 3IBM), (2Mac, 3Mac).

Нормальная форма имеет вид:

Рассмотрим случай, когда а< c, b< c. Сравним равновесия Нэша с результатом применения обратной индукции.

Сначала применим обратную индукцию. Здесь игроки выберут следующие стратегии:
1: 1IBM

2: (2IBM, 3Mac)

Из таблицы же получаем сразу 3 РН, и только одно из них совпадает с решением, полученным по методу обратной индукции:

Такая ситуация является типичной, т.е. решение, получаемое обратной индукцией, всегда является РН.

26. Совершенное по подыграм равновесие Нэша (СПРН) (на примере динамического варианта игры «Выбор компьютера»). Связь с обратной индукцией. Равновесия пустых угроз.

Определение. Все РН, которые не могут быть получены обратной индукцией, называются «равновесиями пустых угроз». Это название отражает тот факт, что они противоречат предположению о рациональности игроков. Следовательно, концепция РН для динамических игр, вообще говоря, не дает удовлетворительного

прогноза исхода игры, и поэтому её требуется каким-то образом усилить.

Определение. Совершенным в подыграх равновесием Нэша (СПРН) называется такой набор стратегий, который является РН в полной игре, а соответствующие части этого набора стратегий являются РН во всех собственных подыграх этой игры.

Теорема. В игре с совершенной информацией и конечным числом ходов множество решений, получаемых обратной индукцией, совпадает с множеством СПРН.

Нормальная форма игры может быть очень громоздкой. Использование последней теоремы сильно упрощает поиск СПРН, поскольку не требует записи игры в нормальной форме и нахождения в

ней РН.

Пример в 25 вопросе

Дуополия Штакельберга.

Дуополия Штакельберга – это модель несовершенной отраслевой конкуренции с лидирующей фирмой, которая первой определяет объем выпускаемой на рынок продукции. Зная планы лидера отрасли, другие фирмы определяют объемы собственных выпусков. Такой вид дуополии основан на том, что фирма – лидер имеет возможность прогнозировать ответную реакцию ведомой фирмы или фирм и планировать свой выпуск с учетом этого прогноза.

Пусть в игре участвую две фирмы, т.е. N = {1, 2}, причем фирма 1 – лидер, а фирма 2 – ведомая. Описание отрасли возьмем таким же, как в дуополии Курно.

Здесь фирма – лидер имеет возможность прогнозировать ответную реакцию ведомой фирмы и планировать свой выпуск с учетом этого прогноза.

Зададим порядок ходов:

Ход 1. Фирма 1 выбирает объём выпуска q1.

Ход 2. Фирма 2, зная выбор фирмы 1, выбирает объём своего выпуска q2.

Поскольку информация о правилах игры и функциях выигрыша считается полной, фирма 1 может спрогнозировать ответную реакцию фирмы 2. Для этого применим условия первого порядка, и это дает:

Такая ситуация называется борьбой за лидерство. Здесь речь идет только об информационном лидерстве, т.е. о праве первым принять решение и объявить его другому игроку.

Совокупный выпуск в дуополии Штакельберга равен QS = (a − c).

Он больше, чем в дуополии Курно, а значит, и цены ниже. Потребители только выигрывают от появления фирмы-лидера.

Корпорации и профсоюзы.

В этой модели два участника: профсоюз и фирма. 1-й ход принадлежит профсоюзу, который может диктовать фирме уровень зарплаты W. Зная предложение профсоюза, фирма в качестве 2-го хода выбирает уровень занятости L.

Профсоюз заинтересован как в увеличении зарплаты, так и в увеличении занятости, поэтому его функция выигрыша (W L), должна возрастать по обеим переменным. Линии безразличия (W L)=const , и направление роста выигрыша профсоюза должны выглядеть примерно так:

Выигрыш фирмы от найма рабочих определяется функцией выпуск f (L), которая показывает, сколько продукции выпустит фирма, если наймет L рабочих. Будем считать эту функцию вогнутой и возрастающей, причем:

Изобразим на графике прямую с наклоном W, касательную к графику функции выпуска:

В силу обратной индукции решается задача оптимального выбора уровня зарплаты профсоюзом с учетом прогноза ответной реакции фирмы по занятости:

Из рисунка видно, что из точки можно сместиться вправо и вниз так, чтобы оказаться ниже линии безразличия для фирмы и выше линии безразличия для профсоюза. Это означает, что данный механизм переговоров не является эффективным, поскольку он приводит к такому результату, который может быть улучшен одновременно и для профсоюза, и для фирмы за с чет некоторого снижения зарплаты при одновременном увеличении занятости.

⇐ Предыдущая 1 2 345 Следующая ⇒