2. Смешивание ходов

Начнем с примера игры в теннис из раздела 7 главы 4, в которой не было равновесия Нэша в чистых стратегиях, и покажем, как расширение этой концепции на смешанные стратегии позволяет устранить данный недостаток, а также объясним полученное в итоге равновесие как равновесие, при котором каждый игрок держит соперника в неведении.

А. Преимущество смешивания ходов

На рис. 7.1 воспроизведена матрица выигрышей, представленная на рис. 4.14. В этой игре, если Эверт будет всегда выбирать удар по линии (ПЛ), Навратилова будет прикрывать ПЛ и удерживать выигрыш Эверт на уровне 50. Точно так же, если Эверт будет всегда выбирать удар по диагонали (ПД), Навратилова будет удерживать выигрыш Эверт на уровне 20. Если Эверт может выбирать только одну из двух базовых (чистых) стратегий, а Навратилова — спрогнозировать ее выбор, то более подходящая (или менее неподходящая) стратегия Эверт — ПЛ, обеспечивающая ей выигрыш 50.

Рис. 7.1. Отсутствие равновесия в чистых стратегиях

Но допустим, Эверт не ограничена выбором только чистых стратегий и может применить смешанную стратегию, возможно, именно ту, в соответствии с которой вероятность того, что она выберет ПЛ в каком бы то ни было случае, составляет 75 %, или 0,75, что означает, что вероятность того, что она выберет ПД, равна 25 %, или 0,25. С помощью метода, представленного в разделе 1, можно рассчитать ожидаемый выигрыш Навратиловой при выборе Эверт такой комбинации стратегий. Он составляет:

0,75 ? 50 + 0,25 ? 10 = 37,5 + 2,5 = 40, если она прикроет ПЛ,

0,75 ? 20 + 0,25 ? 80 = 15 + 20 = 35, если она прикроет ПД.

Если Эверт выберет комбинацию стратегий 75 на 25, ожидаемые выигрыши показывают, что Навратилова может использовать эту комбинацию с максимальной выгодой для себя, прикрыв удар ПЛ.

Когда Навратилова выбирает ПЛ, чтобы наилучшим образом использовать комбинацию Эверт 75 на 25, это наносит Эверт ущерб, поскольку перед нами игра с нулевой суммой. Ожидаемые выигрыши Эверт составляют:

0,75 ? 50 + 0,25 ? 90 = 37,5 + 22,5 = 60, если Навратилова прикроет ПЛ,

0,75 ? 80 + 0,25 ? 20 = 60 + 5 = 65, если Навратилова прикроет ПД.

Выбрав ПЛ, Навратилова удержит выигрыш Эверт на уровне 60, а не 65. Но заметьте, что выигрыш Эверт при такой комбинации стратегий все равно лучше выигрыша 50 в случае использования чистой стратегии ПЛ или 20 при выборе чистой стратегии ПД[91].

Комбинация стратегий в соотношении 75 на 25 позволяет Эверт повысить выигрыш по сравнению с выигрышем в чистых стратегиях, однако все же оставляет стратегию Эверт в какой-то степени открытой для того, чтобы Навратилова использовала ее с выгодой для себя. Решив прикрывать удар ПЛ, она может добиться того, что Эверт получит более низкий выигрыш, чем при выборе стратегии ПД. Эверт хотела бы найти комбинацию стратегий, защищенную от использования, то есть такую, при которой у Навратиловой не было бы очевидного варианта чистой стратегии, которую можно было бы применить против данной стратегии Эверт. Комбинация стратегий Эверт, защищенная от использования, должна обладать свойством, обеспечивающим Навратиловой один и тот же ожидаемый выигрыш, какой бы удар она ни прикрывала, ПЛ или ПД: Навратиловой должно быть безразлично, какую из двух имеющихся чистых стратегий выбрать. Мы называем это свойством безразличия соперника, и, как мы увидим ниже в данной главе, это ключ к равновесиям в смешанных стратегиях в ненулевых играх.

Для поиска комбинации стратегий, защищенной от использования соперником, необходимо применить более общий подход к описанию смешанной стратегии Эверт, чтобы алгебраическим путем рассчитать вероятности чистых стратегий, входящих в соответствующую смешанную стратегию. Обозначим вероятность выбора Эверт ПЛ алгебраическим символом p, тогда вероятность выбора ПД будет 1 — p. Для краткости назовем такую совокупность p-комбинацией.

Если Эверт выберет р-комбинацию, ожидаемые выигрыши Навратиловой составят:

50p + 10(1 — p), если она прикроет ПЛ,

20p + 80(1 — p), если она прикроет ПД.

Для стратегии Эверт, чтобы ее р-комбинация была защищена от использования, два выигрыша Навратиловой должны быть равны, то есть 50p + 10(1 — p) = 20p + 80(1 — p), или 30p = 70(1 — p), или 100p = 70, или p = 0,7. Таким образом, в комбинации стратегий Эверт, защищенной от использования, стратегия ПЛ применяется в 70 % случаев, а ПД — в 30 % случаев. При таких вероятностях, заданных смешанной стратегией, Навратилова получит один и тот же ожидаемый выигрыш за счет каждой из своих чистых стратегий, а значит, не сможет использовать ни одну из них с выгодой для себя (или в ущерб Эверт в игре с нулевой суммой). Ожидаемый выигрыш Эверт от смешанной стратегии составит:

50 ? 0,7 + 90 ? 0,3 = 35 + 27 = 62, если Навратилова прикроет ПЛ,

80 ? 0,7 + 20 ? 0,3 = 56 + 6 = 62, если Навратилова прикроет ПД.

Этот ожидаемый выигрыш лучше выигрыша 50, который Эверт получила бы при использовании чистой стратегии ПЛ, и выигрыша 60, полученного в случае комбинации 75 на 25. Теперь мы знаем, что эта смешанная стратегия защищена от использования, но является ли она оптимальной или равновесной стратегией Эверт?

Б. Наилучшие ответы и равновесие

Для того чтобы найти равновесную комбинацию стратегий в этой игре, вернемся к методу анализа наилучших ответов, описанному в главе 4, и расширим его на игры с непрерывными стратегиями наподобие тех, которые представлены в главе 5. Наша первоочередная задача — определить наилучший ответ Эверт (ее наилучший выбор вероятности p) на каждую из возможных стратегий Навратиловой. Поскольку эти стратегии также могут быть смешанными, их можно описать посредством вероятности того, что она прикроет ПЛ. Обозначим эту вероятность как q; тогда 1 — q — вероятность того, что Навратилова прикроет ПД. Назовем смешанную стратегию Навратиловой «q-комбинация» и попытаемся найти наилучший ответ Эверт p в случае выбора Навратиловой каждого возможного значения q.

Из таблицы выигрышей на рис. 7.1 следует, что р-комбинация Эверт обеспечивает ей такой ожидаемый выигрыш:

50p + 90(1 — p), если Навратилова выберет ПЛ,

80p + 20(1 — p), если Навратилова выберет ПД.

Стало быть, в случае q-комбинации Навратиловой ожидаемый выигрыш Эверт составит:

[50p + 90(1 — p)]q + [80p + 20(1 — p)](1 — q).

Перегруппировав члены выражения, получаем следующую формулу вычисления ожидаемого выигрыша Эверт:

[50q + 80(1 — q)]p + [90q + 20(1 — q)] (1 — p) = [90q + 20(1 — q)] + [50q + 80(1 — q) — 90q — 20(1 — q)]p = [20 + 70q] + [60 — 100q]p.

Используем этот ожидаемый выигрыш для поиска значений наилучших ответов p Эверт.

Мы пытаемся определить значение p, максимизирующее выигрыш Эверт при каждом значении q, поэтому основной вопрос состоит в том, как формула расчета ожидаемого выигрыша зависит от p. Здесь важную роль играет коэффициент перед p: [60 –100 q]. В частности, имеет значение положительный он (тогда ожидаемый выигрыш Эверт увеличивается по мере увеличения p) или отрицательный (тогда ожидаемый выигрыш Эверт уменьшается по мере увеличения p). Очевидно, что знак этого коэффициента зависит от значения q, причем q имеет критическое значение в случае, когда 60 — 100q = 0; то есть q равно 0,6.

Когда при q < 0,6 Навратиловой коэффициент [60 — 100q] имеет положительное значение, ожидаемый выигрыш Эверт увеличивается по мере повышения значения p и ее наилучший выбор p = 1, или чистая стратегия ПЛ. Аналогичным образом при q > 0,6 Навратиловой наилучший выбор Эверт — p = 0, или чистая стратегия ПД. Если q = 0,6, Эверт получит один и тот же ожидаемый выигрыш независимо от значения p; при этом любая комбинация стратегий ПЛ и ПД так же эффективна, как и любая другая: любое значение p в диапазоне от 0 до 1 может быть наилучшим ответом. Кратко сформулируем эти выводы, для того чтобы использовать их в будущем.

Если q < 0,6, наилучший ответ p = 1 (чистая стратегия ПЛ).

Если q = 0,6, любая p-комбинация будет наилучшим ответом.

Если q > 0,6, наилучший ответ p = 0 (чистая стратегия ПД).

Для быстрого подтверждения этих интуитивных выводов заметим, что при низком значении q (Навратилова с достаточно низкой вероятностью будет прикрывать удар ПЛ) Эверт следует выбрать ПЛ, а при высоком значении q (Навратилова с достаточно высокой вероятностью будет прикрывать удар ПЛ) — ПД. Точное значение этой «достаточности», а значит, и точка перехода на другую стратегию q = 0,6 зависят от конкретных выигрышей в данном примере[92].

Мы уже говорили о том, что смешанные стратегии — это просто особый тип непрерывной стратегии, в которой вероятность играет роль непрерывной переменной. Теперь мы нашли наилучшее значение p Эверт, соответствующее каждому значению q, выбранному Навратиловой. Иными словами, определили правило наилучших ответов Эверт, которое можно отобразить на графике так же, как мы это делали в главе 5.

Этот график расположен в левом фрагменте рисунка 7.2, где значения q показаны на горизонтальной оси, а значения p — на вертикальной. Обе вероятности ограничены диапазоном от 0 до 1. Если q меньше 0,6, p имеет максимальное значение 1; если q больше 0,6, p имеет минимальное значение 0. При q = 0,6 все значения p от 0 до 1 в равной степени наилучшие для Эверт, поэтому наилучший ответ — вертикальная линия, находящаяся между 0 и 1. Этому графику наилучших ответов присуща своя особенность: в отличие от непрерывно восходящих или нисходящих прямых или кривых линий в главе 5, данный график плоский в двух интервалах значений q и опускается за один шаг в точке сопряжения этих интервалов. Тем не менее в концептуальном смысле он ничем не отличается от любого другого графика наилучших ответов.

Рис. 7.2. Наилучшие ответы и равновесие в игре в теннис

Аналогичным образом можно вычислить правило наилучших ответов Навратиловой (ее наилучшую q-комбинацию, соответствующую каждой из p-комбинаций Эверт). Мы предлагаем вам сделать это самостоятельно, чтобы закрепить понимание самой концепции и алгебраических вычислений. Кроме того, вы должны проверить правильность интуитивных выводов в отношении выбора Навратиловой так, как мы это делали для Эверт. Мы же просто приведем здесь полученный результат.

Если p < 0,7, наилучший ответ q = 0 (чистая стратегия ПД).

Если p = 0,7, любая q-комбинация будет наилучшим ответом.

Если p > 0,7, наилучший ответ q = 1 (чистая стратегия ПЛ).

График этого правила наилучших ответов Навратиловой расположен в среднем фрагменте рис. 7.2.

В правом фрагменте рис. 7.2 объединены графики из двух соседних фрагментов, причем левый график отражен по диагонали (линия p = q) с тем, чтобы значения p оказались на горизонтальной оси, а значения q — на вертикальной, после чего совмещен со средним графиком. Теперь серые и черные линии пересекаются в одной точке, где p = 0,7, а q = 0,6. В этой точке выбор смешанной стратегии каждым игроком будет наилучшим ответом на выбор другого игрока, поэтому данная пара образует равновесие Нэша в смешанных стратегиях.

В таком представлении правил наилучших ответов чистые стратегии — особые случаи, соответствующие предельным значениям переменных p и q. Как видим, графики наилучших ответов не имеют общих точек на любой из сторон квадрата, где каждое значение p и q равно либо 0, либо 1. Это говорит об отсутствии в игре равновесий в чистых стратегиях, как и было показано в разделе 7 главы 4. В этом примере равновесие в смешанных стратегиях — единственное равновесие Нэша в данной игре.

С помощью метода, примененного нами в разделе 2.А для поиска защищенного от использования значения p для Эверт, вы также можете вычислить выбор Навратиловой значения q, защищенного от использования. Выполнив соответствующие расчеты, получите значение q = 0,6. Таким образом, две выбранные участницами игры смешанные стратегии, защищенные от использования, на самом деле и наилучшие ответы друг на друга, которые представляют собой смешанные стратегии двух игроков, образующие равновесие Нэша.

В действительности, чтобы найти равновесие в смешанных стратегиях в игре с нулевой суммой, каждый участник которой располагает двумя чистыми стратегиями, не нужно проходить весь процесс определения правил наилучших ответов, построения соответствующих графиков и поиска точки их пересечения. Вы можете просто записать уравнения защищенности от использования из раздела 2.А по комбинации каждого игрока, а затем решить их. Если в полученном решении обе вероятности попадают в диапазон от 0 до 1, вы нашли то, что нужно. Если одна из вероятностей имеет отрицательное значение или значение больше 1, значит, в данной игре нет равновесия в смешанных стратегиях и вам необходимо снова поискать его в чистых стратегиях. В разделе 6 и разделе 7 представлен анализ методов решения игр, участники которых имеют более двух чистых стратегий.