2. Дилемма заключенных

Предположим, популяция состоит из двух фенотипов. Один включает игроков, которым от рождения свойственно стремление к сотрудничеству: они неизменно работают над достижением исхода, наилучшего для всех. Игроки другого типа не склонны к сотрудничеству и делают все исключительно ради себя. В качестве примера возьмем игру в ценообразование в ресторанах, описанную в главе 5 и представленную в упрощенной версии в главе 10. Здесь мы рассмотрим более простую версию, в которой только два варианта выбора цен: наилучшая цена для обоих ресторанов 26 долларов и цена в случае равновесия Нэша 20 долларов. Ресторатор, настроенный сотрудничать, всегда будет выбирать 26 долларов, тогда как владелец ресторана, предпочитающий отказаться от сотрудничества, — 20 долларов. Выигрыши (прибыль) каждого типа в одной игре этой дискретной дилеммы показаны на рис. 12.1, где воспроизведена таблица с рис. 10.2. Мы называем игроков просто Строка и Столбец, поскольку на месте каждого из них может быть любой ресторатор, который входит в состав популяции и которого выбирают случайным образом как конкурента другого случайно выбранного соперника.

Рис. 12.1. Дилемма заключенных в контексте игры в ценообразование (выигрыши исчисляются в сотнях долларов в месяц)

Не забывайте, что в эволюционном сценарии ни у кого нет выбора между сотрудничеством и отказом от него; каждый «рождается» с тем или иным предопределенным качеством. Какое же качество будет более успешным (более приспособленным) в популяции?

Владелец ресторана, который относится к типу не склонных к сотрудничеству игроков, получает выигрыш 288 (28 800 долларов в месяц) в конкурентной борьбе с аналогичным типом и выигрыш 360 (36 000 долларов в месяц) — с типом, готовым сотрудничать. В свою очередь тип, готовый сотрудничать, получает 216 (21 600 долларов в месяц) в соперничестве с типом, не склонным к сотрудничеству, и 324 (32 400 долларов в месяц) — с аналогичным себе типом[211]. Следовательно, тип, не расположенный к сотрудничеству, имеет более высокий ожидаемый выигрыш (а значит, и уровень приспособленности), чем тип, готовый к сотрудничеству, независимо от их соотношения в популяции.

Опишем эту ситуацию более формально. Пусть x — это доля готовых к сотрудничеству типов в популяции. Рассмотрим ее любого отдельно взятого члена, склонного к сотрудничеству. При случайном выборе вероятность того, что он встретит другого такого же представителя популяции (и получит выигрыш 324) равна x, а вероятность того, что он встретит игрока, не расположенного к сотрудничеству (и получит выигрыш 216), составляет (1 — x). Следовательно, среднестатистический ожидаемый выигрыш типа, склонного к сотрудничеству, равен 324x + 216(1 — x). Для противоположного типа вероятность встретить игрока, готового сотрудничать (и получить выигрыш 360), составляет x, а игрока аналогичного себе типа (выигрыш 288) — (1 — x). Таким образом, среднестатистический ожидаемый выигрыш типа, не склонного к сотрудничеству, составляет 360x + 288(1 — x). Очевидно, что при всех значениях x от 0 до 1 выполняется следующее условие:

360x + 288(1 — x) > 324x + 216(1 — x).

Стало быть, тип, не расположенный к сотрудничеству, имеет более высокий ожидаемый выигрыш и более высокий уровень приспособленности, чем тип, идущий на сотрудничество. Это обусловит увеличение доли этих типов (при этом снижается значение x) от поколения к поколению, пока вся популяция не будет состоять исключительно из типов, не склонных к сотрудничеству.

А что если популяция изначально состоит только из таких игроков? Тогда ни один (экспериментальный) мутант, готовый к сотрудничеству, не сможет в ней выжить и размножиться настолько, чтобы эту популяцию захватить. Иными словами, мутанты, расположенные к сотрудничеству, не добьются успеха в захвате популяции игроков, не склонных к нему. Даже при совсем малых значениях x (то есть когда доля игроков, готовых к сотрудничеству, очень мала) расположенные к сотрудничеству игроки остаются менее приспособленными по сравнению с оппонентами и их доля в популяции не увеличится, а будет сведена к нулю и мутантная линия исчезнет.

Наш анализ показывает, что у типа игроков, не расположенных к сотрудничеству, более высокий уровень приспособленности по сравнению с типом игроков, готовых к сотрудничеству, а также что популяция, состоящая только из игроков первого типа, не может быть захвачена мутантами. Таким образом, эволюционно устойчивая конфигурация популяции мономорфна и состоит из одной стратегии, или фенотипа, — «отказ от сотрудничества». В связи с этим мы называем ее эволюционно устойчивой стратегией для популяции, вовлеченной в данную дилемму заключенных. Обратите внимание, что при анализе этой игры с точки зрения рационального поведения «отказ от сотрудничества» — строго доминирующая стратегия. Этот результат носит общий характер: если в игре есть строго доминирующая стратегия, она обязательно будет эволюционно устойчивой.

А. Повторяющаяся дилемма заключенных

В главе 10 мы говорили о том, что повторение дилеммы заключенных позволяет игрокам, осознанно придерживающимся рационального поведения, сотрудничать ради взаимной выгоды. Давайте посмотрим, есть ли подобная возможность в эволюционной игре. Предположим, каждая выбранная пара игроков разыгрывает дилемму заключенных три раза подряд. Общий выигрыш игрока от такого взаимодействия — это сумма выигрышей, полученных за три раунда.

Каждый отдельный игрок запрограммирован на использование только одной стратегии, но она должна представлять собой исчерпывающий план действий. В игре с тремя ходами стратегия может предусматривать во время второго или третьего раунда выполнение действия, которое зависит от того, что произойдет в первом или втором раунде. Например, «Я буду сотрудничать при любых обстоятельствах» и «Я буду всегда отказываться от сотрудничества при любых обстоятельствах» — это допустимые стратегии. Однако также допустима стратегия «Я начну с сотрудничества и буду продолжать его, если вы сотрудничали во время предыдущего раунда, и откажусь от него во всех последующих раундах, если вы не сотрудничали во время первого». На самом деле эта последняя стратегия — не что иное, как стратегия равноценных ответных действий, или «око за око».

Для простоты анализа в этом разделе мы будем исходить из предположения, что в популяции могут существовать только два типа стратегий: «всегда отказ от сотрудничества» (В) и «око за око» (О). Из популяции случайным образом выбираются пары игроков, после чего каждая пара проводит игру определенное количество раз. Уровень приспособленности каждого игрока представляет собой сумму его выигрышей от всех повторений игры против конкретного соперника. Мы проанализируем, что происходит в случае двух, трех и n таких повторений в каждой паре.

I. Игра с двумя повторениями. На рис. 12.2 представлена таблица выигрышей для игры, в которой встречаются два представителя популяции рестораторов и играют друг против друга в точности два раза. Если оба игрока относятся к типу В, оба откажутся от сотрудничества в обоих случаях, тогда, как показано на рис. 12.1, каждый из них получит выигрыш 288 в каждом раунде игры, то есть в сумме 576. Если оба игрока относятся к типу О, отказа не будет и каждый игрок получит в каждом раунде выигрыш 324, в сумме 648. Если один игрок относится к типу В, а другой к типу О, то во время первого раунда игрок типа В откажется сотрудничать, а игрок типа О будет сотрудничать; в итоге у первого выигрыш составит 360, а у второго — 216. Во время второго раунда оба игрока откажутся сотрудничать и получат выигрыш по 288 каждый. Таким образом, общий выигрыш игрока типа В будет 360 + 288 = 648, а игрока О — 216 + 288 = 504.

Рис. 12.2. Исходы дилеммы заключенных с двумя повторениями (в сотнях долларов в месяц)

В дважды повторяющейся дилемме заключенных мы видим, что стратегия В («всегда отказ от сотрудничества») — слабо доминирующая. Очевидно, что, если популяция состоит только из игроков типа В, мутанты О-типа не смогут ее захватить, поэтому В — эволюционно устойчивая стратегия. Но если популяция включает исключительно игроков типа О, мутанты В-типа не могут добиться большего, чем игроки О-типа. Означает ли это, что стратегия О («око за око») должна быть еще одной эволюционно устойчивой стратегией, подобно тому как в случае анализа этой игры с точки зрения рационального поведения игроков был бы сделан вывод о существовании равновесия Нэша? Ответ: нет. Если популяция изначально состоит только из игроков типа О и в игру вступают немногочисленные мутанты типа В, то последние в основном будут встречаться с игроками преобладающего типа О и получат такие же выигрыши, как и выигрыш игрока типа О в паре с другим игроком типа О. Но иногда мутант типа В будет встречаться с другим мутантом типа В и тогда получит более высокий выигрыш, чем получил бы игрок типа О в паре с игроком типа В. Таким образом, у мутантов немного более высокий уровень приспособленности, чем у представителей преобладающего фенотипа, и это преимущество приводит к увеличению (хотя и медленному) их доли в популяции. Следовательно, мутанты типа В все же могут успешно захватить популяцию, состоящую только из игроков типа О, а значит, эту стратегию нельзя назвать эволюционно устойчивой.

Наши рассуждения основаны на двух критериях определения эволюционно устойчивой стратегии. Во-первых, мы анализируем, получает ли мутант более высокий или низкий результат, чем преобладающий фенотип, когда каждый противостоит игроку преобладающего типа. Если этот первичный критерий дает четкий ответ, значит вопрос решен. Но если первичный критерий дает равный счет, мы используем вторичный критерий, позволяющий определить победителя: добивается ли мутант большего или меньшего, чем преобладающий фенотип, когда каждый противостоит мутанту? Равный счет бывает крайне редко, поэтому обычно необходимости применять вторичный критерий нет, но он есть в резерве для таких ситуаций, как отображенная на рис. 12.2[212].

II. Игра с тремя повторениями. Теперь предположим, что каждая подобранная пара игроков из популяции (В, О) играет в эту игру три раза. На рис. 12.3 представлены итоговые показатели приспособленности по всем трем раундам для каждого типа игроков в паре с соперниками каждого типа.

Рис. 12.3. Исходы дилеммы заключенных с тремя повторениями (в сотнях долларов в месяц)

Для того чтобы увидеть, как повышаются показатели приспособленности, рассмотрим пару примеров. Когда встречаются два игрока типа О, оба идут на сотрудничество в первом раунде, а значит, оба его продолжат и во втором, и в третьем раундах. При этом игроки каждый раз получают по 324, что в сумме дает каждому из них выигрыш 972 за три месяца. Когда игрок типа О встречается с игроком типа В, второй получает хороший результат в первом раунде (360 в паре с игроком В и 216 в паре с игроком О), но во втором и третьем раундах игрок типа О также отказывается от сотрудничества и каждый из них получает по 288 в обоих раундах (в сумме выигрыш игрока типа В равен 936, а типа О — 792).

Относительная приспособленность двух типов зависит от состава популяции. Если она почти полностью состоит из игроков типа В, то у типа В более высокий уровень приспособленности, чем у типа О (поскольку при встрече игроков типа В в основном с другими игроками типа В они в большинстве случаев получают выигрыш 864, а игроки типа О — 792). С другой стороны, если в популяции преобладают игроки типа О, у типа О более высокий уровень приспособленности, чем у типа В (так как игроки типа О получают выигрыш 972 при встрече в основном с другими представителями типа О, а выигрыш игроков типа В в такой ситуации составляет 936). Уровень приспособленности каждого типа выше, если он уже преобладает в популяции. Следовательно, тип О не может успешно захватить популяцию, состоящую из игроков типа В, и наоборот. Таким образом, существуют две возможные эволюционно устойчивые конфигурации популяции: в одной эволюционно устойчивая стратегия — стратегия В («всегда отказ от сотрудничества»), а в другой — стратегия О («око за око»).

Теперь рассмотрим эволюционную динамику в случае, когда исходная популяция представляет собой комбинацию двух типов. Как распределится ее состав с течением времени? Допустим, доля x в популяции — это игроки типа О, а остальная часть (1 — x) — игроки типа В[213]. Отдельный игрок типа В, выставленный против различных соперников, выбранных из данной популяции, получает выигрыш 936 в противостоянии с игроком типа О, что происходит в x случаях, и выигрыш 864 в противостоянии с другим игроком типа В, что наблюдается в (1 — x) случаях. Это дает следующий ожидаемый выигрыш каждого игрока типа В:

936x + 864(1 — x) = 864 + 72x.

Аналогичным образом отдельный игрок типа О получает такой ожидаемый выигрыш:

972x + 792(1 — x) = 792 + 180x.

Стало быть, уровень приспособленности игрока типа О выше уровня приспособленности игрока типа В, если первый в среднем получает больше, то есть при выполнении следующего условия:

792 + 180x > 864 + 72x,

108x > 72,

x > 2/3.

Иными словами, если более двух третей (67 %) популяции уже принадлежат к типу О, то у игроков этого типа более высокий уровень приспособленности и их доля будет расти, пока не достигнет 100 %. Если в начале игры в популяции менее 67 % игроков типа О, тогда у игроков типа В более высокий уровень приспособленности и доля игроков типа О будет падать, пока не достигнет 0 %, то есть популяция будет полностью состоять из игроков типа В. Эволюционная динамика смещает популяцию к одному из двух крайних состояний, каждое из которых может быть эволюционно устойчивой стратегией. Эта динамика приводит к тому же выводу, что и статический критерий захвата популяции мутантами. Это общее, хотя и не универсальное свойство эволюционных игр.

Таким образом, мы определили две эволюционно устойчивые конфигурации популяции. В каждой из них популяция состоит из игроков только одного типа (то есть мономорфна). Например, если изначально популяция включает 100 % игроков типа О, то даже после появления небольшого количества мутантов В-типа она по-прежнему будет состоять из более чем 66,66…% игроков типа О. Другими словами, тип О останется более приспособленным, а мутирующая линия типа В исчезнет. Точно так же, если изначально популяция на 100 % состоит из игроков типа В, то небольшое количество мутантов типа О (менее 66,66…%) покинет ее, а значит, уровень приспособленности игроков типа В будет выше и мутирующая линия типа О исчезнет. Как мы уже видели ранее, экспериментирующие мутанты типа N не добьются успеха в популяции типов В и О, в основном состоящей из игроков либо В-, либо О-типа.

Но что если в исходную популяцию входит ровно 66,66…% игроков типа О (и 33,33…% игроков типа В)? Тогда у обоих типов одинаковый уровень приспособленности, и мы могли бы назвать эту ситуацию полиморфизмом. Тем не менее на самом деле такая популяция неподходящий кандидат на эволюционно устойчивую конфигурацию и может поддерживать этот слабо сбалансированный исход только до появления мутанта любого типа. По воле случая такой мутант рано или поздно появится, что сместит расчеты приспособленности в пользу мутантного типа, и данное преимущество будет накапливаться до тех пор, пока не будет достигнута эволюционно устойчивая стратегия со 100 % игроков этого типа. Это просто пример применения вторичного критерия определения эволюционной устойчивости. Мы иногда будем в широком смысле говорить о такой конфигурации как о неустойчивом равновесии, для того чтобы сохранить параллель с обычной теорией игр, в которой мутации не учитываются и слабо сбалансированное равновесие может существовать. Однако в рамках строгой логики биологического процесса это вообще не равновесие.

Наши рассуждения можно представить в виде простого графика, очень напоминающего те, которые мы строили при вычислении соотношений в равновесии в смешанных стратегиях с участием игроков, осознанно придерживающихся рационального поведения. Единственное различие — в эволюционном контексте соотношение стратегий, используемых игроками, не вопрос выбора, сделанного любым отдельно взятым игроком, а свойство всей популяции, как показано на рис. 12.4. На горизонтальной оси отображена доля в популяции x (от 0 до 1) игроков типа О. Уровень приспособленности показан на вертикальной оси. Каждая линия отображает уровень приспособленности одного типа. Линия, соответствующая типу О, начинается ниже (в точке 792 по сравнению с 864 в случае линии типа В) и заканчивается выше (972 против 936). Линии пересекаются при x = 0,66…. Направо от этой точки уровень приспособленности типа О выше, поэтому процент игроков данного типа в популяции с течением времени возрастает, а значение x приближается к 1. Точно так же слева от этой точки уровень приспособленности типа В выше, поэтому процент игроков В-типа в популяции с течением времени увеличивается, а значение x приближается к 0. Такие диаграммы — полезный способ наглядного представления данных, поэтому мы будем их широко использовать[214].

Рис. 12.4. Графики уровня приспособленности, а также равновесия в дилемме заключенных с тремя повторениями

Б. Многократно повторяющиеся игры

А что если каждая пара игроков разыграет неоговоренное количество раундов? Давайте сосредоточимся на популяции, состоящей только из игроков типа В и О, в которой взаимодействие между случайно отобранными парами происходит n раз (где n > 2). Таблица общих результатов такой игры представлена на рис. 12.5. Два игрока типа В при встрече всегда отказываются от сотрудничества и всякий раз получают выигрыш 288; иными словами, выигрыш каждого игрока составляет 288n в n раундах игры. Два игрока типа О при встрече начинают с сотрудничества, причем никто из них не отказывается от него первым, а значит, они каждый раз получают выигрыш 324, что в сумме равно 324n. Когда игрок типа В встречается с игроком типа О, в первом раунде игры игрок типа О сотрудничает, а игрок типа В отказывается от сотрудничества и в итоге получает выигрыш 360, а игрок типа О — выигрыш 216. Во всех последующих раундах игрок типа О отвечает отказом на предшествующий отказ игрока В; при этом каждый из них получает выигрыш 288 в оставшихся (n — 1) раундах. Таким образом, тип В в сумме имеет 360 + 288(n — 1) = 288n + 72 в n раундах игры против типа О, тогда как тип О — 216 + 288(n — 1) = 288n — 72 в n раундах игры против типа В.

Рис. 12.5. Исходы дилеммы заключенных с n повторениями

Если доля игроков типа О в популяции равна x, то каждый игрок типа В получает в среднем x(288n + 72) + (1 — x)288n, а типа О — x(324n) + (1 — x)(288n — 72). Следовательно, уровень приспособленности типа О выше, если

x(324n) + (1 — x)(288n — 72) > x(288n + 72) + (1 — x) 288n, 36xn > 72,

Опять же, мы снова получили две мономорфные эволюционно устойчивые стратегии: одна — когда популяция состоит только из игроков типа О (или x = 1 — к этому значению сходится процесс начиная с любого значения x > 2/n), а другая — когда популяция состоит только из игроков типа В (или x = 0 — к этому значению сходится процесс начиная с любого значения x < 2/n). Как показано на рис. 12.4, существует только одно неустойчивое полиморфное равновесие в равновесной точке x = 2/n.

Обратите внимание, что доля игроков типа О в равновесной точке зависит от n: она меньше, когда значение n больше. При n = 10 доля игроков типа О составляет 2/10, или 0,2. Так что, если популяция изначально состоит из 20 % игроков типа О, в ситуации, когда каждая пара проводит 10 повторений игры, доля игроков типа О будет расти до тех пор, пока не достигнет 100 %. Вспомним, что, когда пары проводили три раунда игры (n = 3), игрокам типа О понадобилась более крупная исходная доля в размере не менее 67 %, чтобы достичь аналогичного результата, а в случае всего двух повторений доля игроков типа О в популяции должна была составлять 100 %, чтобы они выжили. (Мы видим причину такого исхода в нашем выражении для вычисления критического значения x, которое показывает, что при n = 2 значение x должно превышать 1, прежде чем уровень приспособленности типа О повысится.) Не забывайте также о том, что популяция, состоящая исключительно из игроков типа О, добивается сотрудничества. Таким образом, оно формируется при выполнении более широкого диапазона исходных условий, когда игра повторяется большее число раз. В этом смысле при большем количестве повторений вероятность сотрудничества увеличивается. То есть ценность установления сотрудничества повышается по мере увеличения длительности периода взаимодействия.

В. Сравнение эволюционной модели и модели рационального игрока

И наконец, вернемся к трижды повторяющейся игре, представленной на рис. 12.3, и вместо использования эволюционной модели проанализируем ее как игру с участием двух игроков, осознанно придерживающихся рационального поведения. Каковы в ней равновесия Нэша? Есть два равновесия в чистых стратегиях, одно — когда оба игрока выбирают стратегию В, а другое — когда оба игрока выбирают стратегию О. Существует также равновесие в смешанных стратегиях, в котором стратегия О используется в 67 % случаев, а стратегия В — в 33 % случаев. Два первых равновесия и есть те мономорфные эволюционно устойчивые стратегии, которые мы нашли, а третье равновесие — это неустойчивое полиморфное эволюционное равновесие. Другими словами, существует тесная связь между эволюционным подходом к таким играм и подходом, основанным на концепции осознанной рациональности игроков.

Это не совпадение. Эволюционно устойчивая стратегия должна быть равновесием Нэша в игре, которую ведут осознанно рациональные игроки, с такой же структурой выигрышей. Для того чтобы в этом удостовериться, предположим на мгновение обратное. Если применение всеми игроками какой-то стратегии (назовем ее S) не приводит к равновесию Нэша, то другая стратегия (назовем ее R) должна обеспечивать более высокий выигрыш одному игроку в игре против стратегии S. Мутант, использующий стратегию R, достигнет более высокого уровня приспособленности в популяции, выбравшей стратегию S, и ему удастся захватить эту популяцию. Следовательно, стратегия S не может быть эволюционно устойчивой. Это равносильно утверждению, что если стратегия S эволюционно устойчива, то она должна быть равновесием Нэша для всех игроков, ее использующих.

Таким образом, эволюционный подход обеспечивает косвенное обоснование рационального подхода. Даже когда игроки не предпринимают осознанных действий, направленных на максимизацию своего выигрыша, если более эффективные стратегии разыгрываются чаще, а менее эффективные исчезают и в итоге процесс сводится к устойчивой стратегии, то исход должен быть таким же, как и исход в случае рациональной игры.

Хотя эволюционно устойчивая стратегия должна быть равновесием Нэша в соответствующей рациональной игре, обратное неверно. Мы привели два примера, подтверждающих этот вывод. В дважды повторяющейся дилемме заключенных на рис. 12.2, основанной на рациональном поведении игроков, стратегия О была бы равновесием Нэша в том слабом смысле, что при выборе ее обоими игроками ни один из них не получит положительной выгоды от перехода к стратегии В. Однако в случае эволюционного подхода стратегия В может возникнуть в качестве мутации и успешно захватить популяцию типа О. А в трижды повторяющейся дилемме заключенных (см. рис. 12.3 и рис. 12.4) рациональная игра приведет к формированию равновесия в смешанных стратегиях. Однако его биологический аналог, полиморфное состояние, могут захватить мутанты, а значит, это равновесие не будет истинным эволюционно устойчивым. Следовательно, биологическая концепция устойчивости может помочь нам при выборе из всего множества равновесий Нэша в рациональной игре.

В нашем анализе повторяющейся игры есть одно ограничение. Изначально мы исходили из допущения о наличии всего двух стратегий, В («всегда отказ от сотрудничества») и О («око за око»). То есть предполагалось, что больше никаких стратегий нет или не может возникнуть вследствие мутации. В биологии типы появляющихся мутаций зависят от генетических факторов. В социальных, политических или экономических играх формирование новых стратегий предположительно определяется историей, культурой и опытом игроков. Кроме того, способность людей усваивать и обрабатывать информацию также должна сыграть свою роль. Тем не менее в нашей модели в данной ситуации ограничения, которые мы накладываем на комбинацию стратегий, возможных в определенной игре, имеют важные последствия в свете того, какие из этих стратегий (если они есть) могут быть эволюционно устойчивыми. Если бы мы допустили в примере с трижды повторяющейся дилеммой заключенных существование стратегии S, которая сводится к сотрудничеству во время первого раунда и отказу от него в ходе второго и третьего, то мутанты типа S могли бы успешно захватить популяцию, состоящую только из игроков типа О, поэтому стратегия О не была бы эволюционно устойчивой. Дальнейший анализ подобной перспективы содержится в примерах в конце данной главы.