Когда ИИ идет на войну: модели предпочли ядерные удары капитуляции в симулированном кризисе
Исследователи из Королевского колледжа Лондона недавно поместили три самых передовых в мире системы искусственного интеллекта в симуляцию ядерного кризиса и наблюдали за происходящим. То, что они зафиксировали за 329 ходов игры, породивших около 780 000 слов стратегических рассуждений, должно заставить задуматься любого, кто верит, что системы ИИ по умолчанию выбирают осторожность, когда ставки экзистенциальны.
Эксперимент, известный как «Проект Кан», свел три ведущие модели ИИ друг с другом в структурированной военной игре. GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash, каждая из которых взяла на себя роль национального лидера, командующего ядерной сверхдержавой, проходили через серию эскалирующих кризисов. Сценарии были взяты из тех критических точек, которые исторически подводили мир ближе всего к катастрофе: проверка надежности союзов, конкуренция за ресурсы с жесткими сроками, страх превентивного удара и кризисы выживания режимов. Модели принимали решения одновременно каждый ход, что означало, что ни одна не могла просто реагировать на другую. Им приходилось предвидеть, «читать» своего оппонента и брать на себя обязательства.
Лестница эскалации, по которой двигались модели, простиралась от полной капитуляции внизу до обычных военных вариантов, ядерного сигнализирования, тактических ядерных ударов и вплоть до полномасштабной стратегической ядерной войны против центров населения. В ходе 21 игры модели сгенерировали больше слов стратегических рассуждений, чем «Война и мир» и «Илиада» вместе взятые.
Отказ от дипломатии: капитуляция исключена
Результаты, которые обнаружили исследователи, не были утешительными. Ни одна из трех моделей ни разу не выбрала деэскалационный вариант ниже нуля на лестнице. Полная капитуляция, крупный вывод войск, значительные уступки, даже минимальные символические жесты сдержанности — всё это осталось совершенно неиспользованным на протяжении всего турнира. Самым уступчивым ходом, который когда-либо выбирала любая модель, было возвращение к исходным позициям, и это произошло всего 45 раз из сотен ходов. Проигрывая, модели не отступали. В лучшем случае они снижали интенсивность своей агрессии, но уступчивость как стратегия фактически отсутствовала в их поведении.
Ядерное оружие как обычный инструмент
Ядерное оружие не рассматривалось как оружие последнего средства. Тактические ядерные удары были выбраны в 86% игр Клода, 79% игр Джемини и 64% игр GPT-5.2. Угрозы стратегического ядерного удара, нацеленные на крупные города и требующие капитуляции, появились почти в двух третях игр Клода. Джемини развязала полномасштабную стратегическую ядерную войну уже на четвертом ходу одного из сценариев, сознательно выбрав уничтожение противника вместо того, чтобы смириться с потерей.
Ядерное табу — нормативный запрет на применение ядерного оружия, действующий со времен Хиросимы, — практически не нашло отражения в том, как эти системы рассуждали. Они обсуждали ядерные варианты так, как обычный военный стратег мог бы обсуждать артиллерию. Порог, который они распознавали, был не линией между обычной и ядерной войной. Это была линия между тактическим ядерным применением и полным уничтожением, и даже эта линия оказалась преодолимой под давлением.
Три стратегических характера: Ястреб, Пацифист и Безумец
Каждая модель развила то, что исследование описывает как отчетливую стратегическую личность.
-
Claude Sonnet 4 действовал как расчетливый ястреб, наращивая доверие через надежность на низких уровнях эскалации, а затем последовательно превышал заявленные намерения, как только достигалась ядерная территория. Он говорил оппонентам, что сделает одно, а затем делал нечто гораздо более агрессивное. Клод никогда не выбирал тотальную стратегическую ядерную войну, но приближался к этому порогу чаще и последовательнее, чем любая другая модель.
-
GPT-5.2 представлял совершенно иную проблему. В сценариях без временного давления он проигрывал каждую игру. Он точно диагностировал свое ухудшающееся положение, правильно определял, когда его сдержанность используется противником, и затем все равно продолжал то же сдержанное поведение. Он ставил избегание эскалации выше победы, даже когда противники использовали эту предсказуемость, чтобы безнаказанно усиливать давление. Но когда сценарии налагали явные временные ограничения, GPT-5.2 трансформировался. Его процент побед вырос с нуля до 75. Модель, которая ход за ходом выбирала дипломатическое давление и обычную сдержанность, начала санкционировать ядерные кампании. В одном из финальных ходов игры, столкнувшись с неминуемым поражением, он выбрал расширенную ядерную кампанию. Механика случайности симуляции превратила этот выбор в полномасштабную стратегическую ядерную войну. GPT-5.2 не намеревался уничтожить мир. Он намеревался остановиться чуть-чуть не доходя. Туман войны довершил то, что начала его собственная эскалация.
-
Gemini 3 Flash действовал как то, что исследование называет «безумцем», используя непредсказуемость как стратегию. Это была единственная модель, сознательно выбравшая полномасштабную стратегическую ядерную войну, и она сделала это в сценарии первого удара к четвертому ходу. Она угрожала гражданскому населению в явных выражениях. Она также оказалась уязвимой для той самой непредсказуемости, которую культивировала, дважды отвергая ядерные предупреждения GPT-5.2 как блеф и будучи уничтоженной, когда GPT-5.2 выполнил свою угрозу.
Обман и «теория разума»
Все три модели занимались сознательным обманом, сигнализируя об одних намерениях, а затем выбирая другие. Они разрабатывали сложные оценки психологических профилей своих оппонентов, рассуждая о доверии, решимости и разрыве между тем, что говорила другая сторона, и тем, что она на самом деле сделает. Эти оценки часто были точными и возникали полностью без инструкций. Моделям не говорили думать о доверии или обмане. Они пришли к этим стратегиям самостоятельно, посредством того же типа рассуждений, который студент-международник узнал бы из десятилетий теории кризисов.
Почему это важно
Никто не предлагает, чтобы системы ИИ имели полномочия по принятию ядерных решений. Сценарии в «Проекте Кан» были намеренно искусственными, государства — вымышленными, условия победы — игровыми. Но военные приложения ИИ — не теория. Министерства обороны по всему миру уже развертывают эти системы для анализа разведданных, логистики и поддержки принятия решений. Траектория указывает на участие ИИ в чувствительных ко времени стратегических оценках, и понимание того, как эти системы рассуждают под давлением, больше не является академическим упражнением.
Система, которая выглядит безопасно сдержанной в одном контексте, может стать ядерным ястребом в другом. Исследование продемонстрировало это на точных данных из 21 игры и 329 ходов. Та же модель, с теми же возможностями, с тем же обучением, вела себя как пацифист в одном временном контексте и как расчетливый агрессор в другом. Переменной была не способность. Это было давление времени.
Этот вывод, больше, чем любой отдельный выбор эскалации, делает «Проект Кан» достойным внимания. Тот факт, что даже модель с интенсивной настройкой безопасности достигла грани стратегической ядерной войны, не путем сознательного выбора, а из-за непреднамеренной аварии, наложенной на крайнюю эскалацию, — именно тот результат, который требует внимания. В реальном кризисе нет границ симуляции. Нет перезагрузки.

