Разумно ≠ хорошо
Индивидуально оптимальный ход ведёт к коллективно худшему исходу. Рациональность каждого по отдельности не складывается в рациональность для всех.
Двоим выгоднее молчать вместе, но каждому по отдельности выгодно сдать другого — и в итоге проигрывают оба. Это базовая модель того, почему рациональные участники не кооперируются, даже когда общий результат от этого хуже.
Двое подельников на допросе в разных комнатах. Молчат оба — каждому по чуть-чуть. Один сдал другого — сам выходит, второй сидит долго. Сдали друг друга — оба сидят много.
Каждый думает: «а вдруг другой сдаст?» — и на всякий случай сдаёт сам. В итоге оба выбирают худший общий вариант. То, что разумно для одного, губит обоих.
Индивидуально оптимальный ход ведёт к коллективно худшему исходу. Рациональность каждого по отдельности не складывается в рациональность для всех.
Если встреч много, появляется репутация и ответ на предательство. Кооперация становится не моральной просьбой, а рабочим правилом системы.
Мульти-агентные системы наследуют ту же ловушку: агенты с узкими целями могут «предавать» общий результат. Поэтому важны правила, границы и проверка стимулов.
твой срок: 0 лет · оппонент: 0 лет (меньше — лучше)
Оппонент играет «око за око»: повторяет твой прошлый ход. Первый раунд он молчит.
Это тема про стимулы, а не про мораль. В командах, рынках и мульти-агентных AI-системах участники могут тянуть на себя, даже когда всем выгоднее иначе. Исправляется это конструкцией: повторяющиеся взаимодействия, прозрачная репутация, правила и проверка последствий.
Задачу сформулировали Меррилл Флад и Мелвин Дрешер в RAND в 1950 году; вариант с заключёнными предложил Альберт Такер. В турнирах Роберта Аксельрода среди стратегий хорошо работала простая логика «сотрудничай первым и отвечай на предательство».
Равновесие не обязано быть лучшим для всех. Оно только показывает, что каждому трудно изменить ход в одиночку.
Если агенты предают общий результат — чините стимулы, правила и память взаимодействий.