Дилемма заключённого

Серж Пьетро 1

Дилемма заключённого (реже употребляется название «дилемма бандита») –
фундаментальная проблема в теории игр, согласно которой, когда правда скрыта,
рациональные игроки не всегда будут сотрудничать друг с другом,
даже если это в их интересах, но неправда может быть кругом. *
Предполагается, что игрок («заключённый») свой собственный выигрыш максимизирует,
не заботясь о выгоде других. Их выгода его не интересует.
   В дилемме заключённого предательство строго доминирует
над сотрудничеством осуждённых соучастников,
поэтому единственное возможное равновесие - предательство обоих участников.
Проще говоря, каким бы ни было поведение другого игрока,
каждый выиграет больше, если предаст своего соперника.
Поскольку в любой ситуации предать выгоднее, чем сотрудничать,
все рациональные игроки выберут предательство, чтобы самим богаче стать.
Ведя себя по отдельности рационально, чтобы никто не подверг из поведение сомнению,
вместе участники приходят к нерациональному решению:
если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали
(единственное равновесие в этой игре не ведёт к Парето-оптимальному решению).
В этом и заключается дилемма.
О ней учёными написаны исследований тома.
В повторяющейся дилемме заключённого игра происходит периодически и не веселее,
поскольку каждый игрок может «наказать» другого за несотрудничество ранее.
В такой игре сотрудничество может стать равновесием,
а стимул предать может перевешиваться угрозой наказания.
_______
//* Суть проблемы была сформулирована Мерилом Фладом и Мелвином Дрешером в 1950 году. Название дилемме дал математик Альберт Такер.//
____________
Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного жестче, чем за те же преступления, совершённые в одиночку (отсюда название «дилемма бандита»).
Классическая формулировка дилеммы заключённого такова:
Двое преступников - А и Б - попались примерно в одно и то же время на сходных преступлениях.
Есть основания полагать, что они действовали по сговору,
и полиция, изолировав их друг от друга, предлагает им одну и ту же сделку:
если один свидетельствует против другого,
а тот хранит молчание, то первый освобождается за помощь следствию,
а второй получает максимальный срок лишения свободы (10 лет).
Если оба молчат, их деяние проходит по более лёгкой статье,
и каждый из них приговаривается к полугоду тюрьмы.
Если оба свидетельствуют друг против друга, они получают минимальный срок (по 2 года).
Каждый заключённый выбирает, молчать или свидетельствовать против другого.
Однако ни один из них не знает точно, что сделает другой.
Что произойдёт?
Дилемма появляется, если предположить, что оба заботятся только о минимизации собственного срока заключения.
   Теоретическое заключение дилеммы - одна из причин,
почему во многих странах сделка о признании вины запрещена.
В книге «Эволюция кооперации» 1984 года Роберт Аксельрод исследовал расширение сценария дилеммы, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Аксельрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него, различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.
Аксельрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.
Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт*. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда, вне зависимости от предыдущего шага, сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание - когда решение одного игрока сообщается другому с ошибкой.
Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:
Добрая. Важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная. Успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример прощающей стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая. Другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Независтливая. Последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент.
Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми, прощающими и независтливыми.
   РАССМОТРИМ МОДЕЛЬ ГОНКИ ВООРУЖЕНИЙ.
Был дан вывод, что единственная рациональная стратегия - вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки. Интересно, что попытки продемонстрировать, что вывод дилеммы работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ ( повторяющаяся дилемма заключённого) ), часто показывают, что такого поведения не происходит.
Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.
Можно уменьшить вероятность предательства в популяции при помощи сотрудничества в ранних играх, позволив укрепить доверие.
Следовательно, самопожертвование может в некоторых ситуациях усилить моральный дух группы.
Если группа маленькая, на позитивное поведение с большей вероятностью ответят взаимностью,
что поощрит индивидов на дальнейшее сотрудничество.
Это связано с ещё одной дилеммой, что хорошее отношение без причины –
это потакание, которое может ухудшить моральные качества.
Эти процессы - главное поле интереса взаимного альтруизма, группового отбора, семейного отбора и этики.
______
Анатолий Борисович Рапопорт;  1911, Лозовая Харьковской губернии — 2007, Торонто) —филосоa, биолог, психолог, представитель операционализма. С 1970 по 2007 год — профессор психологии и математики в Университете Торонто (University of Toronto), Канада. В своей научной деятельности получил широкую известность благодаря анализу связей между языком, мышлением и действием, а также благодаря исследованиям по использованию языка в конфликтных ситуациях. Одним из первых начинает применять методы теории игр для анализа поведения. Применял математические модели для анализа феноменов паразитизма и симбиоза.

Список читателей / Версия для печати / Разместить анонс / Заявить о нарушении

Другие произведения автора Серж Пьетро 1

Рецензии

Написать рецензию

Другие произведения автора Серж Пьетро 1

Завершается прием произведений на конкурс «Георгиевская лента» за 2021-2025 год. Рукописи принимаются до 24 февраля, итоги будут подведены ко Дню Великой Победы, объявление победителей состоится 7 мая в ЦДЛ. Информация о конкурсе – на сайте georglenta.ru Представить произведения на конкурс →