6. Смешивание стратегий при наличии трех или более чистых стратегий у одного игрока

Наше обсуждение игр со смешанными стратегиями до сих пор ограничивалось только играми, в которых у каждого участника было по две чистые стратегии, а также их комбинации. Однако во многих стратегических ситуациях каждый игрок располагает большим количеством чистых стратегий, поэтому мы должны подготовиться к вычислению равновесных смешанных стратегий и в подобных случаях. Но уровень сложности таких расчетов стремительно повышается. В поистине сложных играх для поиска равновесия в смешанных стратегиях нам пришлось бы прибегнуть к помощи компьютера. Тем не менее в некоторых небольших играх найти такое равновесие вручную не составит труда. И этот процесс вычислений позволит лучше понять, как работает равновесие, чем при анализе решения, сгенерированного компьютером. По этой причине в данном и следующем разделах мы поищем решение более крупных игр.

В этом разделе мы остановимся на играх с нулевой суммой, в которых у одного из игроков всего две чистые стратегии, тогда как у другого — больше. Как мы заметили, в таких играх игрок, имеющий три (или более) чистые стратегии, как правило, использует в равновесии только две. Остальные просто не входят в эту комбинацию стратегий, то есть вероятность их применения равна нулю. Мы должны лишь определить, какие стратегии используются в равновесии, а какие нет[99].

В качестве примера рассмотрим игру в розыгрыш очка в теннисе, включив в число стратегий Эверт третий тип возврата подачи. Помимо удара по линии и удара по диагонали теперь она может использовать свечу (более медленный, но и более высокий и длинный удар). Равновесие зависит от выигрышей в случае применения свечи против каждой из двух оборонительных стратегий Навратиловой. Начнем с самого вероятного случая, а затем перейдем к анализу особого случая.

А. Общий случай

Теперь в распоряжении Эверт три чистые стратегии: ПЛ (по линии), ПД (по диагонали) и СВ (свеча), а у Навратиловой только две: прикрывать удар ПЛ или прикрывать удар ПД. Таблица выигрышей этой новой игры представлена на рис. 7.8. Мы исходили из предположения, что выигрыши Эверт от стратегии СВ находятся в диапазоне между максимальным и минимальным выигрышами, которые она может получить от стратегий ПЛ и ПД, а также что они не слишком отличаются в случаях, когда Навратилова прикрывает ПЛ или ПД. В таблице отображены выигрыши не только от чистых стратегий, но и от трех чистых стратегий Эверт против q-комбинации Навратиловой. (Мы не показываем строку для p-комбинации Эверт, поскольку в этом нет необходимости. Для этого понадобились бы две вероятности, скажем, p₁ в случае стратегии ПЛ и p₂ в случае стратегии ПД; тогда вероятность стратегии СВ составила бы (1 — p₁ — p₂). В следующем разделе мы расскажем, как найти равновесные комбинации стратегий такого типа.)

Рис. 7.8. Таблица выигрышей в игре с розыгрышем очка с использованием стратегии «свеча»

Строго говоря, прежде чем приступать к поиску равновесия в смешанных стратегиях, мы должны убедиться в том, что в игре отсутствует равновесие в чистых стратегиях. Однако сделать это достаточно легко, поэтому оставляем эту задачу вам и переходим к смешанным стратегиям.

Мы проанализируем оптимальный выбор q Навратиловой с помощью логики наилучших ответов. На рис. 7.9 показаны ожидаемые выигрыши Эверт (проценты успеха) в случае выбора каждой из чистых стратегий — ПЛ, ПД и СВ, тогда как значение q в q-комбинации Навратиловой меняется в интервале от 0 до 1. На данном рисунке изображены графики формул расчета выигрышей, представленных в правом столбце таблицы на рис. 7.8. По каждому значению q при выборе Навратиловой данной q-комбинации в равновесии наилучшим ответом Эверт был бы выбор стратегии, обеспечивающей ей (Эверт) самый высокий выигрыш. На рис. 7.9 совокупность наилучших исходов для Эверт выделена более жирной линией, называемой на языке математики верхней огибающей трех линий выигрышей. Навратилова стремится выбрать свое наилучшее значение q, которое бы позволило ей получить как можно более высокий выигрыш (тем самым понизив выигрыш Эверт, насколько возможно) из этой совокупности наилучших ответов Эверт.

Рис. 7.9. Поиск q-комбинации Навратиловой графическим способом

Для более точного определения оптимального выбора q Навратиловой мы должны вычислить координаты точек излома линии, соответствующей ее наихудшему исходу (и наилучшему исходу для Эверт). Значение q в крайней левой точке излома линии означает безразличие Эверт в отношении выбора между ПЛ и СВ. Это значение q должно равняться двум выигрышам от использования стратегий ПЛ и СВ против данной q-комбинации. Приравняв эти два выражения, получим 50q + 80(1 — q) = 70q + 60(1 — q), или q = 20/40 = 1/2 = 50 %. Ожидаемый выигрыш Эверт в этой точке составит 50 ? 0,5 + 80 ? 0,5 = 70 ? 0,5 + 60 ? 0,5 = 65. Во второй (крайней правой) точке излома Эверт безразлично, какую стратегию выбрать, ПД или СВ. Таким образом, значение q в этой точке приравнивает выражения для вычисления выигрышей от стратегий ПД и СВ. Установив равенство 90q + 20(1 — q) = 70q + 60(1 — q), находим значение q = 40/60 = 2/3 = 66,7 %. В этом случае ожидаемый выигрыш Эверт составляет 90 ? 0,667 + 20 ? 0,333 = 70 ? 0,667 + 60 ? 0,333 = 66,67. Следовательно, наилучший (или наименее неблагоприятный) выбор q Навратиловой находится в крайней левой точке излома, то есть q = 0,5. При этом ожидаемый выигрыш Эверт равен 65, а Навратиловой, соответственно, 35.

Когда Навратилова выбирает q = 0,5, Эверт безразлично, какую стратегию применить, ПЛ или СВ, а значит, выбор любой из них обеспечивает ей более высокий выигрыш, чем стратегия ПД. Поэтому Эверт не станет включать стратегию ПД в равновесие, и она станет неиспользуемой в равновесной комбинации стратегий Эверт.

Теперь продолжим анализ равновесия так, как если бы это была игра с двумя чистыми стратегиями у каждой из ее участницы: ПЛ и ПД у Навратиловой и ПЛ и СВ у Эверт. Итак, мы вернулись на знакомую почву, поэтому предоставляем вам возможность выполнить необходимые расчеты самостоятельно и приводим здесь только результат. Оптимальная комбинация стратегий Эверт в данной игре подразумевает выбор стратегии ПЛ с вероятностью 0,25 и стратегии СВ с вероятностью 0,75. Ожидаемый выигрыш Эверт от этой комбинации стратегий, использованных в игре против ПЛ и ПД Навратиловой соответственно, составляет 50 ? 0,25 + 70 ? 0,75 = 80 ? 0,25 + 60 ? 0,75 = 65, как, разумеется, и должно быть.

Мы не могли начать этот анализ с игры два на два, поскольку не знали заранее, какую из трех стратегий Эверт не будет использовать. Однако мы не сомневаемся, что в общем случае обязательно будет одна такая стратегия. Когда три линии ожидаемых выигрышей занимают самые общие положения, они пересекаются попарно, а не все в одной точке. При этом верхняя огибающая имеет форму как на рис. 7.9. Самая нижняя точка огибающей задается пересечением линий выигрышей, соответствующих двум из трех стратегий. Выигрыш от третьей стратегии находится ниже пересечения в этой точке, а значит, игрок, выбирающий между тремя стратегиями, не будет использовать именно третью стратегию.

Б. Особые случаи

Положения и пересечения трех линий на рис. 7.9 зависят от выигрышей, указанных для чистых стратегий. Для данной игры мы выбирали выигрыши, позволяющие проиллюстрировать общую конфигурацию линий. Однако, если выигрыши находятся в весьма своеобразной зависимости друг от друга, мы можем получить особые конфигурации с различными результатами. Мы проанализируем здесь такие варианты, а возможность построить новые графики для этих случаев предоставляем вам.

Во-первых, если выигрыши от стратегии СВ, применяемой Эверт против стратегий ПЛ и ПД Навратиловой, равны, прямая СВ будет горизонтальной; при этом весь диапазон значений q делает комбинацию стратегий Навратиловой защищенной от использования. Например, если каждый из двух выигрышей в строке СВ таблицы на рис. 7.8 равен 70, то нетрудно определить, что левая точка излома на обновленном рис. 7.9 находилась бы в точке, соответствующей значению q = 1/3, а правая точка излома — в точке q = 5/7. При любом значении q в диапазоне от 1/3 до 5/7 наилучший ответ Эверт — СВ, а значит, мы получаем необычное равновесие, в котором Эверт выбирает чистую стратегию, а Навратилова чистые стратегии смешивает. Более того, вероятности чистых стратегий в равновесной смешанной стратегии Навратиловой имеют неопределенное значение в диапазоне от q = 1/3 до q = 5/7.

Во-вторых, если выигрыши Эверт при использовании стратегии СВ против стратегий ПЛ и ПД Навратиловой на определенную величину ниже выигрышей, представленных в таблице на рис. 7.8 (или если выигрыши от оставшихся двух стратегий на определенную величину выше указанных в таблице), все три прямые могут пересекаться в одной точке. Например, если выигрыши Эверт от стратегии СВ против стратегий ПЛ и ПД Навратиловой составляют не 70 и 60, а 66 и 56 соответственно, то при q = 0,6 ожидаемый выигрыш Эверт от стратегии СВ равен 66 ? 0,6 + 56 ? 0,4 = 39,6 + 22,6 = 62, то есть такой же, как и выигрыш от стратегий ПЛ и ПД при q = 0,6. В таком случае Эверт безразлично, какую из трех имеющихся стратегий выбрать при q = 0,6, и она готова смешивать все три.

В этом особом случае вероятности чистых стратегий в равновесной комбинации стратегий Эверт не могут быть полностью определенными. Напротив, целый диапазон комбинаций (в том числе и использующих все три стратегии) может выполнять задачу по поддержанию безразличия Навратиловой в отношении выбора между стратегиями ПЛ и ПД, а значит, и готовности их смешивать. Тем не менее Навратилова должна применить комбинацию со значением q = 0,6. Если она этого не сделает, наилучшим ответом Эверт будет переход к одной из чистых стратегий в ущерб Навратиловой. Мы не станем подробно останавливаться на определении точного диапазона, в котором могут меняться равновесные смешанные стратегии Эверт, поскольку такая ситуация может сложиться лишь при особых комбинациях выигрышей и, стало быть, это не столь важно.

Обратите внимание, что выигрыши Эверт от использования стратегии СВ против стратегий ПЛ и ПД Навратиловой могут быть даже ниже значения, при котором все три прямые пересекаются в одной точке (например, если бы выигрыши от СВ равнялись 75 и 30 вместо 70 и 60, как на рис. 7.8). Тогда стратегия СВ не может быть наилучшим ответом Эверт, хотя она не является ни доминируемой стратегией ПЛ, ни доминируемой стратегией ПД. Случай, когда стратегия СВ доминируема по отношению к комбинации стратегий ПЛ и ПД, рассматривается в онлайн-приложении в данной главе.