7. Смешивание стратегий при наличии трех стратегий у обоих игроков

При рассмотрении игр, в которых у обоих игроков есть по три чистые стратегии с возможностью смешивания всех трех, необходимы две переменные, чтобы задать каждую комбинацию стратегий[100]. В комбинации игрока, данные которого отображаются в строках, его первой чистой стратегии соответствует вероятность p1, а второй — вероятность p2. Тогда вероятность использования третьей чистой стратегии должна составлять 1 минус сумма вероятностей остальных двух стратегий. То же самое касается комбинации игрока, которому соответствуют столбцы. Таким образом, когда каждый игрок имеет по три чистые стратегии, найти равновесие в смешанных стратегиях без выполнения алгебраических операций с двумя переменными нельзя. Тем не менее зачастую такие алгебраические расчеты вполне выполнимы.

А. Полная комбинация всех стратегий

Рассмотрим упрощенное представление пенальти в футболе. Предположим, выполняющий его игрок, бьющий правой ногой, имеет три чистые стратегии: удар влево, вправо или в центр (налево или направо по отношению к вратарю; для игрока-правши было бы логично отправить мяч направо от вратаря), и может смешивать их с вероятностями, обозначенными как pл, pп, pц соответственно. Любые две из этих вероятностей можно принять как независимые переменные, а третью выразить через них. Если pл и pп — независимые переменные, то pц = 1 — pл — pп. Вратарь также располагает тремя чистыми стратегиями, а именно двигаться налево от бьющего игрока (направо от самого вратаря), направо от бьющего игрока (налево от вратаря) или оставаться в центре. Кроме того, вратарь может их смешивать с вероятностями qл, qп, qц, две из которых могут быть выбраны в качестве независимых переменных.

Как и в разделе 6.А, график наилучших ответов для этой игры потребовал бы более двух размерностей. (Точнее говоря, четыре. Вратарь выбрал бы свои две независимые переменные, скажем (qл, qп), как свой наилучший ответ на две независимые переменные игрока, выполняющего пенальти (pл, pп), и наоборот.) Вместо этого мы снова воспользуемся свойством безразличия соперника, чтобы сфокусироваться на вероятностях чистых стратегий в смешанной стратегии по одному игроку за один раз. В случае каждого игрока вероятности должны быть такими, чтобы другому игроку было безразлично, какую стратегию из имеющихся в его комбинации стратегий выбрать. Это дает нам систему уравнений, которая позволит найти вероятности применения чистых стратегий в смешанной стратегии. В примере с футболом переменные (pл, pп) удовлетворяли бы двум уравнениям, выражающим требование о том, что ожидаемый выигрыш вратаря от использования стратегии «налево» должен быть равен ожидаемому выигрышу от применения стратегии «направо», а также что ожидаемый выигрыш вратаря от выбора стратегии «направо» должен равняться ожидаемому выигрышу от выбора стратегии «в центре». (В таком случае равенство ожидаемых выигрышей от применения стратегий «налево» и «в центре» определяется автоматически и не требует отдельного уравнения.) При большем количестве стратегий число вероятностей, подлежащих вычислению, и уравнений, которым они должны удовлетворять, тоже увеличивается.

На рис. 7.10 показана таблица взаимодействия между игроком, выполняющим пенальти, и вратарем, где в качестве выигрышей каждого игрока указаны проценты успешных действий. (В этой таблице для упрощения расчетов приведены не фактические данные европейского футбола, представленные чуть ниже, а аналогичные округленные числа.) Поскольку игрок, бьющий пенальти, хочет максимально увеличить выраженную в процентах вероятность того, что он забьет гол, а вратарь стремится минимизировать вероятность того, что он его пропустит, мы имеем дело с игрой с нулевой суммой. Например, в ситуации, когда бьющий игрок отправит мяч налево от себя, а вратарь сделает движение налево от бьющего игрока (ячейка в верхнем левом углу), мы исходим из предположения, что бьющему игроку все равно удастся забить гол в 45 % случаев, стало быть, вратарь сможет отразить удар в 55 % случаев. Однако если бьющий игрок отправит мяч направо от себя, а вратарь сделает движение налево от него, то у бьющего есть возможность забить гол с вероятностью 90 %; мы исходим из того, что он с вероятностью 10 % может ударить мимо или выше ворот, а значит, вратарь может добиться успеха в 10 % случаев. Вы можете поэкспериментировать с другими, более приемлемыми, на ваш взгляд, значениями выигрышей.

Рис. 7.10. Игра в пенальти в футболе

Легко убедиться, что в этой игре нет равновесия в чистых стратегиях. Поэтому допустимя, что игрок, выполняющий пенальти, смешивает стратегии с вероятностями pл, pп и pц = 1 — pл — pп. По каждой чистой стратегии вратаря эта комбинация обеспечивает ему следующие выигрыши:

«Налево»: 55pл + 15pц + 5pп = 55pл + 15(1 — pл — pп) + 5pп.

«В центр»: 10pл + 100pц + 5pп = 10pл + 100(1 — pл — pп) + 5pп.

«Направо»: 10pл + 15pц + 40pп = 10pл + 15(1 — pл — pп) + 40pп.

Правило безразличия соперника гласит, что бьющий игрок должен выбрать pл и pп, с тем чтобы в равновесии все три выражения были эквивалентны.

Приравняв выражения, соответствующие стратегиям «налево» и «направо», и упростив полученное равенство, имеем 45pл = 35pп, или pп = (9/7)pл. Далее приравниваем выражения, соответствующие стратегиям «в центре» и «направо», и упрощаем полученное равенство с помощью только что выведенного соотношения между pп. Это дает 10pл + 100[1 — pл — (9pл / 7)] + 5(9pл / 7) = 10pл + 15[1 — pл — (9pл / 7)] + 40 (9pл / 7), или [85 + 120(9/7)] pл = 85, что дает pл = 0,355. Далее получаем pп = 0,355(9/7) = 0,457 и, наконец, pц = 1–0,355 — 0,457 = 0,188. Затем вычисляем с помощью представленных выше трех строк выигрышей выигрыш вратаря от любой из его трех стратегий против этой комбинации стратегий; результат — 24,6.

Вероятности чистых стратегий в смешанной стратегии вратаря можно определить, записав и решив уравнения безразличия бьющего игрока в отношении его выбора из трех чистых стратегий в игре против комбинации стратегий вратаря. Мы будем это делать в ходе анализа несколько измененного варианта этой игры в разделе 7.Б, поэтому здесь опускаем детали и просто приводим полученный результат: qл = 0,325, qп = 0,561 и qц = 0,113. Выигрыш бьющего игрока от любой из его чистых стратегий в игре против равновесной комбинации стратегий вратаря составляет 75,4. Разумеется, он согласуется с выигрышем вратаря 24,6, который мы вычислили выше.

Теперь можем разъяснить эти выводы. Игрок, выполняющий пенальти, получит более высокий выигрыш от своей чистой стратегии «направо», чем от чистой стратегии «налево», как в случае, если вратарь правильно угадает его ход (60 > 45), так и если он ошибется (95 > 90). (Предположительно игрок будет бить левой, а значит, может сделать более сильный удар направо.) Таким образом, бьющий игрок выберет с самой высокой вероятностью стратегию «направо», и чтобы противостоять этому, вратарь также с высокой вероятностью выберет стратегию «направо»; однако при таком раскладе выигрыш бьющего в итоге составит всего 60, то есть меньше выигрыша 75,4, который он получит при равновесии в смешанных стратегиях.

Б. Равновесные комбинации, в которых используются не все стратегии

В равновесии из предыдущего примера вероятность применения стратегии «в центре» в смешанной стратегии достаточно низкая для каждого игрока. Комбинация «в центр» / «в центре» привела бы к гарантированному отражению пенальти, и бьющий игрок получил бы поистине низкий выигрыш, то есть ноль. В связи с чем данный игрок присваивает этому выбору низкую вероятность. Но тогда вратарь также должен присвоить выбору этой стратегии низкую вероятность, сосредоточившись на противодействии более вероятным стратегиям бьющего игрока. Но если последний получит достаточно высокий выигрыш от выбора стратегии «в центр», когда вратарь применит «налево» или «направо», то он будет выбирать «в центр» с определенной положительной вероятностью. Если бы выигрыши бьющего игрока в строке, соответствующей стратегии «в центр», были ниже, то он мог бы использовать стратегию «в центр» с нулевой вероятностью; тогда вратарь также присвоил бы нулевую вероятность стратегии «в центре». При таком развитии событий данная игра превратилась бы в игру с двумя базовыми чистыми стратегиями, «налево» и «направо», находящимися в распоряжении каждого игрока.

Этот вариант игры в футбол показан на рис. 7.11. Единственное различие между выигрышами в данной и первоначальной версии игры (рис. 7.10) состоит в том, что выигрыши бьющего игрока от комбинации стратегий «в центр» / «слева» и «в центр» / «справа» сократились еще больше, с 85 до 70. Это могло произойти потому, что бьющему игроку свойственно посылать мяч слишком высоко, а значит, он часто промахивается, целясь в центр. Попробуем вычислить равновесие в этой игре, воспользовавшись тем же методом, что и в разделе 7.А. На этот раз сделаем это с позиции вратаря, попытавшись найти вероятности применения чистых стратегий qл, qп и qц в смешанной стратегии с помощью условия безразличия бьющего игрока в отношении выбора между тремя чистыми стратегиями в игре против данной комбинации стратегий.

Рис. 7.11. Вариант игры в пенальти в футболе

Выигрыши бьющего игрока от его чистых стратегий составляют:

«Налево»: 45qл + 90qц + 90qп = 45qл + 90(1 — qл — qп) + 90qп = 45qл + 90(1 — qл).

«В центре»: 70qл + 0qц + 70qп = 70qл + 70qп.

«Направо»: 95qл + 95qц + 60qп = 95qл + 95(1 — qл — qп) + 60qп = 95(1 — qл) + 60qп.

Приравняв выражения, соответствующие стратегиям «налево» и «направо», и упростив полученное равенство, имеем 90–45qл = 95–35qп, или 35qп = 5 + 45qл. Далее приравниваем выражения, соответствующие стратегиям «налево» и «в центр», и упрощаем их, что дает 90–45qл = 70qл + 70qп, или 115qл + 70qп = 90. Подставив qп из первого уравнения (сначала умножив все члены уравнения на 2, чтобы вышло 70qп = 10 + 90qл) во второе, получаем 205qл = 80, или qл = 0,390. Затем, подставив это значение qл в любое из уравнений, получим qп = 0,644. И наконец, используем эти оба значения, чтобы получить qц = 1–0,390 — 0,644 = –0,034. Поскольку значение вероятности не может быть отрицательным, что-то явно пошло не так.

Чтобы понять, что происходит в данном примере, для начала обратите внимание на то, что теперь для бьющего пенальти игрока стратегия «в центр» хуже этой же стратегии в первоначальной версии игры, где вероятность ее выбора уже была достаточно низкой. Однако логика безразличия соперника, выраженная в виде уравнений, приведших к данному решению, означает, что бьющий игрок должен быть готов использовать эту плохую стратегию. Это может произойти только тогда, когда вратарь достаточно редко применяет свою наилучшую стратегию противодействия стратегии бьющего игрока «в центр», а именно стратегию «в центре». В данном примере такую логику рассуждений необходимо продолжать до тех пор, пока вероятность применения вратарем стратегии «в центре» не станет отрицательной.

С сугубо алгебраической точки зрения полученное решение вполне приемлемо, однако оно нарушает требование теории вероятностей и свойственной реальной жизни рандомизации в отношении того, что значение вероятности не может быть отрицательным. Лучшее, что здесь можно сделать, — снизить вероятность выбора вратарем стратегии «в центре» до минимального значения, то есть до нуля. Но в этом случае бьющий игрок не склонен к выбору стратегии «в центр». Иными словами, мы получаем ситуацию, в которой каждый игрок не использует одну из своих чистых стратегий в смешанной стратегии или использует ее с нулевой вероятностью.

Но тогда может ли существовать равновесие, в котором каждый игрок смешивает две оставшиеся стратегии — «налево» и «направо»? Если рассматривать эту сокращенную игру два на два саму по себе, можно без труда найти ее равновесие в смешанных стратегиях. Учитывая, что к настоящему моменту вы уже накопили достаточно большой опыт, мы оставляем детали поиска равновесия вам и приводим только полученный результат.

Вероятности применения чистых стратегий в смешанной стратегии бьющего игрока: pл = 0,4375, pл = 0,5625.

Вероятности применения чистых стратегий в смешанной стратегии вратаря: qл = 0,3750, qп = 0,6250.

Ожидаемый выигрыш бьющего игрока (процент успеха): 73,13.

Ожидаемый выигрыш вратаря (процент успеха): 26,87.

Мы получили этот результат, просто исключив стратегии двух игроков «в центр» и «в центре», руководствуясь интуицией. Но мы должны проверить, действительно ли это равновесие будет таковым в полной игре три на три, то есть должны убедиться, что ни один игрок не сочтет нужным применить третью стратегию в случае комбинации двух стратегий, выбранных другим игроком.

При выборе вратарем той или иной комбинации стратегий выигрыш бьющего игрока от применения чистой стратегии «в центр» составляет 0,375 ? 70 + 0,625 ? 70 = 70, что меньше выигрыша 73,13, который он получит от любой из своих чистых стратегий «налево» и «направо» или от любой их комбинации, а значит, бьющему игроку нет необходимости применять стратегию «в центр». Когда бьющий игрок выбирает комбинацию из двух стратегий с указанными выше вероятностями, выигрыш вратаря от использования чистой стратегии «в центре» составляет 0,4375 ? 10 + 0,5625 ? 50 = 7,2. И он существенно ниже выигрыша 26,87, который вратарь получил бы в случае применения любой из своих чистых стратегий «налево» и «направо» или от любой их комбинации. Таким образом, вратарю также не имеет смысла применять стратегию «в центре». Следовательно, равновесие, которое мы нашли для игры два на два, актуально и для игры три на три.

Чтобы предусмотреть вероятность того, что некоторые стратегии могут остаться незадействованными в равновесной комбинации стратегий, следует уточнить или расширить принцип безразличия соперника. Равновесная комбинация каждого игрока должна быть такой, чтобы другому игроку было безразлично, какую именно стратегию выбрать из тех, которые действительно используются в его равновесной комбинации, то есть другому игроку не безразличен выбор между ними и неиспользованными стратегиями и он отдает предпочтение выбранным стратегиям перед невыбранными. Иными словами, в игре против равновесной комбинации соперника все стратегии, вошедшие в состав вашей равновесной комбинации, должны обеспечивать вам один и тот же ожидаемый выигрыш, а он, в свою очередь, должен превышать выигрыш, который бы вы получили от любой из неиспользованных стратегий.

Какие именно стратегии останутся неиспользованными в равновесии? Ответ на этот вопрос требует применения метода проб и ошибок, как в приведенных выше вычислениях, либо выполнения соответствующих расчетов с помощью компьютерной программы. Как только вы поймете саму концепцию, можете приступать ко второму. Описание общей теории равновесий в смешанных стратегиях в случаях, когда в распоряжении игроков есть любое количество возможных стратегий, ищите в онлайн-приложении к данной главе.