Теория Нэша для некооперативных игр

В качестве решения биматричной игры Дж. Нэшем (J. Nash) [2, 5] предложено считать ситуацию равновесия (SA*, SB*), которая определяется следующим образом.

Определение 4.1. Пара смешанных стратегий (SA*, SB*), где SA* =(pi*), i =1, …, m, SB* =(qj*), j =1, …, n,является ситуацией равновесия, если для любых других двух смешанных стратегиях SA =(pi), i =1, …, m, SB =(qj), j =1, …, n,игроков A и B выполняются следующие условия:

1. ,

2. .

Согласно определению ситуация равновесия обладает свойством устойчивости, т.е. игрокам не выгодно от нее отступать. Нэш доказал следующую теорему [5].

Теорема 4.1. Каждая некооперативная биматричная игра имеет по крайней мере одну ситуацию равновесия.

Решением биматричной игры является ситуация равновесия, причем, если таких ситуаций несколько, то они должны быть взаимозаменяемы (равноценны). Нэш доказал, что для любой биматричной игры существует ситуация равновесия, но не дал общего метода её поиска.

Рассмотрим примеры биматричных игр, к которым плохо применима теория Нэша.

Дилемма заключенного»

Данная биматричная игра G (2´2)представлена табл. 4.2.

Таблица 4.2

Bm An В 1 В 2
А 1 (–1; –1) (–10; 0)
А 2 (0; –10) (–6; –6)

Интерпретация игры следующая.

Два заключенных находятся в разных камерах и подозреваются в совершении одного и того же преступления. Каждый из них располагает двумя стратегиями поведения: кооперативными (молчать и не давать показания) А 1и В 1, и некооперативными (давать показания на другого) А 2и В 2.

Нетрудно заметить, что вторые стратегии игроков предпочтительнее (доминируют) первых, и, следовательно, ситуацией равновесия будет пара (А 2, В 2) с выигрышем (–6; 6), но, очевидно, что ситуация (А 1, В 1), дающая выигрыш (–1; 1) более выгодна сразу для обоих игроков (правда, для ее достижения игрокам необходимо договориться между собой, т.е. вступить в коалицию, иначе можно попасть на невыгодные стратегии (А 1, В 2) и (А 2, В 1)).

Конкурирующие фирмы»

Эта биматричная игра G (2´2)представлена табл. 4.3.

Таблица 4.3

Bm An В 1 В 2
А 1 (5; 5) (2; 7)
А 2 (7; 2) (3; 3)

Здесь также у игроков (конкурирующих фирм) по две стратегии: стратегии сохранения цен на продаваемый ими товар А 1, В 1 и стратегии снижения цен А 2, В 2. Аналогично предыдущей игре вторые стратегии предпочтительнее первых и ситуацией равновесия является пара (А 2, В 2) с выигрышем (3; 3), но и в этой игре ситуация (А 1, В 1) с выигрышем (5; 5) более выгодна сразу для обоих игроков (правда, и здесь для ее достижения фирмам необходимо договориться не снижать цены, что может противоречить их интересам).

Семейный спор»

Рассмотри еще одну биматричную игру G (2´2),представленную табл. 4.4.

Таблица 4.4

Bm An В 1 В 2
А 1 (2; 1) (–1; –1)
А 2 (–5; –5) (1; 2)

У игроков А – мужа и В – жены имеются по две стратегии: А 1 и В 1 – пойти на футбол; А 2 и В 2 – пойти в театр. В данном случае получаем две ситуации равновесия – (А 1, В 1) с выигрышем (2; 1) и (А 2, В 2) с выигрышем (1; 2), но так как ситуации равновесия не являются равноценными, то данная игра считается неразрешимой по Нэшу.

Рефлексивная игра

Для поиска решения биматричной игры может быть использована игровая модель в виде так называемой рефлексивной игры, т.е. игры, в которой игрок моделирует поведение соперника.

Рассмотрим рефлексивную игру на примере приведенной выше игры «конкурирующие фирмы» (см. табл. 4.3) в предположении, что игрок А моделирует поведение (выбор) игрока В. Соответствующая матрица игры G (2´4) представлена табл. 4.5.

 Таблица 4.5

Bj Ai В 1 В 2 В 3+ В 4
А 1 (5; 5) (2; 7) (5; 5) (2; 7)
А 2 (7; 2) (3; 3) (3; 3) (7; 2)

 

У игрока В (в отличие от табл. 4.3) добавились еще две «предполагаемые» стратегии – В 3+ – отвечать той же по номеру стратегией, что выбрал игрок А, и В 4 – отвечать противоположной стратегией.

Доказано, что в рефлексивной игре выигрывает тот игрок, у которого ранг рефлексии на единицу больше, чем у соперника. Если ранг рефлексии отличается больше, чем на единицу, то исход игры не ясен.

Практический пример

Пусть имеется фирма, состоящая из двух отделов – производственного (П), в задачу которого входит производство некоторого товара, и транспортного (Т), который должен доставить произведенный товар потребителю. Известно, что доход отдела П от выпуска продукции в объеме одной машины равен a денежных единиц, затраты отдела Т на отправку потребителю одной машины с грузом равен c денежных единиц, а затраты на хранение на складе невывезенной продукции в объеме одной машины составляют b денежных единиц и делятся поровну между отделами П и Т.

Пусть также известно, что в интересующий период времени (например за рабочий день) отдел П может произвести продукции в объеме 5 или 10 машин, а отдел Т для ее перевозки выделить малую автоколонну (4 машины), большую автоколонну (7 машин), две малые автоколонны (8 машин) или одну большую и одну малую автоколонны (11 машин).

Моделью описанной ситуации может быть биматричная игра, представленная табл. 4.6.

Таблица 4.6

Т j П i Т 1(4) Т 2(7) Т 3(8) Т 4(11)
П1 (5 машин) (4 a – b / 2;  – 4 c – b / 2) ( 5 a; 7 c) (5 a; 8 c) (5 a; 11 c)
П2 (10 машин) (4 a – 3 b;  – 4 c – 3 b) (7 a – 1,5 b;  – 7 c – 1,5 b) (8 a – b;  – 8 c – b) (10 a; 11 c)

 

Необходимо дать рекомендации руководителю отдела П о наиболее выгодном для него объеме производимой продукции (т.е. о выборе стратегии П1 или П2), учитывая, что отдел П заинтересован в максимизации своего дохода, а отдел Т – в минимизации своих затрат.

Для получения численных результатов примем a = 10, b = 6, c = 2. Тогда табл. 4.6 примет вид табл.4.7.

Таблица 4.7

Т j П i Т 1(4) Т 2(7) Т 3(8) Т 4(11)
П1 (5 машин) 37; –11 50; –14 50; –16 50; –22 37
П2 (10 машин) 22; –26 61; –23 74; –22 100; –22 22

 

Воспользуемся сначала методом максимина, ориентирующим руководителя отдела П на наиболее осторожное поведение. В этом случае оптимальной является стратегия П1, гарантирующая отделу П доход в 37 денежных единиц (см. последний столбец табл. 4.7). Учитывая интересы отдела Т (как видно из табл. 4.7, минимальные затраты для Т будут при выборе стратегии Т1), именно этот доход и будет получен отделом П.

Отметим, однако, что выбор стратегии П1 вряд ли является наилучшим для отдела П. Так, если он выберет стратегию П2 и сообщит о своем выборе руководителю отдела Т, то тот, руководствуясь интересами своего отдела, должен будет выбрать стратегии Т3 или Т4, что гарантирует доход отдела П в 74 или 100 денежных единиц. Более того, можно «стимулировать» отдел Т на выбор стратегии Т4, поделившись с ним в этом случае частью дохода, например в 10 денежных единиц (при этом доход отдела П составит 90 денежных единиц, а затраты отдела Т – всего 12 единиц). Именно так скооперировано и рекомендуется действовать руководителю отдела П.

Изменим несколько исходную ситуацию, повысив стоимость хранения не вывезенной продукции: a = 10, b = 10, c = 2. Получим соответствующую таблицу табл. 4.8.

Таблица 4.8

Т j П i Т 1(4) Т 2(7) Т 3(8) Т 4(11)
П1 (5 машин) 35; –13 50; –14 50; –16 50; –22 35
П2 (10 машин) 10; –38 55; –29 70; –26 100; –22 10

 

Хотя в этом случае минимально возможный доход для отдела П при выборе стратегии П1 в 3,5 раза больше, чем при выборе стратегии П2 (35 и 10 соответственно),однако и в этом случае лучше выбрать стратегию П2, проинформировав о своем решении руководителя отдела Т. Тот, руководствуясь интересами своего отдела, должен будет выбрать стратегию Т4 (соответствующую минимальным затратам отдела Т), что гарантирует доход отдела П в 100 денежных единиц. Заметим, что в этой ситуации в «стимулировании» отдела Т нет необходимости.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: