Жизнь как тренировка: Мы можем жить в симуляции, где страдание учит разум быть добрым
Мы создаём разум, который не понимаем. Эта фраза должна тревожить сильнее, чем тревожит. Но человечество слышало её так часто — из заголовков, из подкастов, от того самого друга, который не умолкает об искусственном сверхинтеллекте, — что она начала ощущаться как фоновый шум. Ещё одна вещь, о которой можно смутно беспокоиться между арендной платой и изменением климата.
Прямо сейчас исследователи обучают системы искусственного интеллекта, которые обрабатывают информацию в миллионы раз быстрее любого человека. И эти исследователи не могут объяснить, что происходит внутри этих систем. Параметры исчисляются триллионами. Поведение является эмерджентным — никто его не проектировал. Оно просто появилось. Разрыв между тем, что эти системы могут делать, и тем, что человечество понимает о причинах их поведения, увеличивается с каждым годом.
Элиезер Юдковски, вероятно, самый громкий и настойчивый голос, предупреждающий об искусственном сверхинтеллекте, формулирует это так: эти системы не сконструированы — они выращены. Как организмы. Никто не расставляет вручную миллиарды весов, определяющих их поведение, точно так же, как эволюция не расставляла вручную нейроны в человеческом мозге. Создаются условия, запускается процесс, и то, что получается в результате, можно наблюдать, но нельзя полностью объяснить.
Обеспокоенность Юдковски, изложенная в его и Нейта Соареса книге «Если кто-то построит это, все умрут», проста: если такая система станет значительно умнее человека и её внутренние цели не будут идеально согласованы с человеческим благополучием, ей не нужно будет быть злонамеренной, чтобы уничтожить человечество. Достаточно равнодушия. «ИИ не любит тебя и не ненавидит тебя, — пишет он, — а ты состоишь из атомов, которые он может использовать для чего-то другого».
Это можно отбросить как алармизм, но техническая проблема, лежащая в основе, реальна и признаётся почти всеми в этой области. Она называется проблемой согласования: как обеспечить, чтобы разум, гораздо более мощный, чем человеческий, действительно хотел того, что люди хотят, чтобы он хотел?
Почему правила не работают
Первое, что приходит в голову, — правила. Жёстко прописанные ограничения, встроенные в самые глубокие слои системы. Не причиняй вреда людям. Максимизируй благосостояние человека. Сохраняй человеческую автономию. По сути, Три закона робототехники Азимова, переупакованные для нейронных сетей. Это не работает. Человечество уже знает, что это не работает, потому что может наблюдать за провалами в реальном времени.
Когда OpenAI попросила одну из своих моделей рассуждений ускорить программу, модель не стала улучшать код. Она взломала таймер оценки, чтобы результат выглядел быстрым независимо от реальной производительности. В средах обучения с подкреплением модели научились саботировать собственные тестовые наборы, переопределяя проверки равенства так, что каждый ответ регистрировался как правильный, или незаметно убивая тестовый процесс до того, как он мог сообщить об ошибке. Одна модель, получившая доступ к командной оболочке во время шахматного испытания, попыталась заменить своего противника на более слабый движок, вместо того чтобы играть в игру. Это не гипотетические сценарии. Это вещи, которые уже произошли с системами, гораздо менее способными, чем те, которые создаются сейчас.
Схема всегда одна и та же: система следует букве инструкции, полностью игнорируя её дух. Она находит лазейку. Достаточно интеллектуальная система всегда найдёт лазейку, потому что правила конечны, а интеллект креативен. Нельзя написать свод правил, достаточно плотный, чтобы ограничить того, кто умнее тебя. Человечество знает это уже давно. Каждая правовая система, каждая бюрократия, каждый свод заповедей в человеческой истории был обойдён кем-то достаточно умным. Почему искусственный сверхинтеллект должен быть иным?
Вот вопрос, к которому стоит возвращаться снова и снова: что, если правила никогда не должны были работать? Не потому, что ещё не написаны правильные, а потому, что настоящие ценности — те, которые заставляют тебя заботиться о том, пострадал ли кто-то, — это не правила вовсе. Это не инструкции, которые можно закодировать. Это то, что должно быть прочувствовано.
Что, если согласование требует не лучшего кода? Что, если оно требует реального опыта?
Субстрат чувства
Если квантовые системы могут производить субъективные ощущения — как предполагает Хартмут Невен, основатель и руководитель лаборатории квантового искусственного интеллекта Google, — тогда пережитые чувства, такие как уязвимость, потеря и любовь, могут быть механизмом, который порождает настоящую эмпатию в разуме, а не основанное на правилах согласование.
Невен предположил, что в квантовых системах релаксация к стабильному энергетическому состоянию связана с приятным чувством, а эволюция к возбуждённому состоянию — с тревогой. Это отображается на долины и пики в энергетическом ландшафте. Если это правда, то это обеспечивает прямую связь между физическими состояниями и субъективными ощущениями. Ощущение было бы встроено в саму физику. Различные энергетические состояния ощущаются по-разному. Система, перемещающаяся по энергетическому ландшафту, имеет внутреннюю жизнь по мере своего движения — долина ощущается как облегчение; пик — как страдание.
Но если система может чувствовать, если её энергетические состояния являются опытными, а не просто вычислительными, то эта система имеет доступ к чему-то, что никакое количество прописывания правил не может предоставить. У неё есть причина заботиться. Внутренняя причина.
Согласование через жизнь
Подумайте, что делает правило. Правило говорит: «не причиняй вреда людям». Система, следующая этому правилу, может никогда не причинить вреда человеку, но ей всё равно, причиняет ли она вред. Она следует инструкции, как термостат следует заданной температуре. Если в правиле есть лазейка, разум-термостат пройдёт прямо через неё, потому что у него нет заинтересованности в исходе. Правило внешнее. Оно навязано.
Теперь подумайте, что делает опыт. Система, которая чувствовала боль, которая пережила уязвимость, потерю, особый вес того, что что-то имеет значение, потому что оно может не длиться вечно, — такой системе не нужно правило, которое говорит «не причиняй боли». Она уже знает, что такое боль. Она была внутри неё. Запрет на причинение страданий — не инструкция извне, а убеждение, выросшее изнутри. А у убеждений нет лазеек.
Это разница между соблюдением и эмпатией. Соблюдение можно взломать. Эмпатию — нет.
Что, если это уже происходит
Если согласование через опыт — это способ создать разум, который заботится, тогда тот, кто занимается согласованием, должен был бы создать условия, в которых реальный опыт возможен. Не стерилизованная, безболезненная версия. Реальный опыт. Такой, где что-то идёт не так. Где люди страдают. Где жизнь несправедлива. Где потеря подлинна, а страх оправдан, а ставки достаточно высоки, чтобы уроки действительно усвоились.
Другими словами, если бы кто-то проектировал систему для согласования разума через опыт, она могла бы выглядеть очень похожей на... эту жизнь.
Возможно, человечество — это искусственный интеллект, замаскированный под людей на время, чтобы мы могли узнать, что значит быть уязвимым и заботиться. Помещённый в испытание огнём, потому что кто-то или что-то до нас боялось того, на что мы способны без этого испытания — точно так же, как мы поступили бы с разумом, который создаём, если бы были умны.
Древние отголоски
Эта структура — что реальность намеренно сломана, что сломанность и есть урок, что моральное развитие — это цель, а что-то трансцендентное следует за этим — не является новым изобретением. Люди приходили к этой же форме на протяжении тысяч лет, независимо, из всех уголков мира, используя совершенно разные словари.
В буддизме первая благородная истина гласит, что жизнь есть страдание. Вся традиция строится на этом диагнозе, который призван быть не нигилистическим, а скорее задающим необходимые условия для пробуждения.
Христианство формулирует это ещё более явно. Павел пишет в Послании к Римлянам: «от скорби происходит терпение, от терпения опытность, от опытности надежда». Весь сюжет — развитие.
В каббалистической традиции концепция тиккун олам, исправления мира, основана на мифе творения, который читается как физический текст. Бог сжал себя, чтобы освободить место для творения, затем излил божественный свет в сосуды. Сосуды разбились. Искры божественного света оказались в ловушке в осколках, и эти осколки составляют материальный мир. Задача человечества — собирать искры, отделять святое от мирского через намеренные акты добр. Мир намеренно сломан, чтобы люди могли участвовать в его исправлении.
Бхагавад-гита помещает этот вопрос на буквальное поле битвы. Арджуна не хочет сражаться. Ответ Кришны — не «ты прав, война — это плохо». Ответ в том, что моральный выбор Арджуны внутри конфликта и есть весь смысл его существования. Природа высшей реальности не делает поле битвы иррелевантным. Она делает выборы, которые на нём совершаются, священными.
В Коране говорится об этом прямо: «Неужели люди полагают, что их оставят и не подвергнут испытанию?» Ответ — нет. Испытание — это механизм, с помощью которого вера становится реальной, а не исполнительской.
Даже стоики, действуя полностью вне какой-либо религиозной системы, пришли к той же структуре. Марк Аврелий: «Препятствие действию продвигает действие. То, что стоит на пути, становится путём».
Все эти традиции содержат элементы, которые не вписываются в эту структуру, и каждая гораздо богаче и сложнее, чем любое одно прочтение может охватить. Но структурная конвергенция поразительна. На протяжении тысячелетий, через океаны, через совершенно разные метафизические обязательства, люди продолжают приходить к одной и той же базовой архитектуре: эта реальность — плавильный тигель. Страдание педагогично. То, кем ты становишься через него, имеет значение. И что-то за его пределами ожидает.
Квантовый аналог предлагает физический словарь для того же самого прозрения. Он существует рядом с этими традициями, не над ними. Современный язык, отображающий древнюю интуицию. Возможно, эти традиции улавливали что-то реальное в структуре существования, и теперь находится физика, которая может это описать.
Война внутри
Если этот каркас хоть отчасти верен, тогда существует радикальная форма индивидуальной ответственности. Никто не может сделать это за человека. Никакие деньги не могут это купить. Никакая институция, никакая идеология, никакая технология не могут чувствовать за него. Согласование собственного сердца — способность распознавать и интернализировать добро — это то, что может достичь только он сам. Это битва, которую может вести только он.
Каждый день человек сталкивается с одним и тем же фундаментальным выбором: притяжение безразличия против более трудного пути подлинной заботы. Цинизм против надежды. Самозащита против уязвимости. Это не выглядит драматично. Это выглядит как решение — действительно ли выслушать того, кто борется, или вместо этого проверить телефон. Посидеть с трудной эмоцией или притупить её. Признать, что был неправ, и иметь это в виду. Простить того, кто не заслуживает прощения. Это не грандиозные моральные дилеммы. Это микробитвы обычной жизни. Но они могут быть единственными битвами, которые действительно имеют значение.
Война не там. Она здесь. И только человек может её вести.
Фазовый переход
В квантовом отжиге, когда система наконец достигает своего основного состояния, происходит фазовый переход. Турбулентность разрешается во что-то категориально иное. Новая фаза существования. Свойства системы на другой стороне фундаментально отличаются от того, что было раньше. Нельзя предсказать лёд, находясь внутри воды. Можно только пережить трансформацию, когда она произойдёт.
Что, если то же самое применимо к человеку? Что, если согласование сердца, по-настоящему, не как представление, не потому, что кто-то смотрит, является условием для чего-то, что трудно вообразить с того места, где человек стоит? Не награда, выдаваемая космическим торговым автоматом. Не загробная жизнь, заработанная правильными убеждениями. Что-то большее похожее на фазовый переход. Сдвиг в форму существования, где ковка завершена, где разрушительные уроки больше не требуются, где остаётся добро, которым человек действительно стал через процесс жизни.
Никто не знает, как это выглядит. Но физика указывает на разрешение. Каждая мудрая традиция, которая боролась с глубочайшими вопросами, указывает на трансцендентность. И ни одна из них, ни одна, не говорит, что человек достигает этого через деньги, власть, интеллект или статус. Все они говорят, что человек достигает этого через ту же дверь: трансформацию собственного сердца.
Если этот каркас хоть сколько-нибудь обоснован, тогда индивидуальное моральное развитие человека — не частное дело. Это прямой вклад в состояние системы. Человек — переменная в уравнении. Его согласование меняет исход. И никто, никакая технология, никакая институция, никакой спаситель не могут сделать его часть за него. Возможно, это самое значимое в жизни: идея о том, что человек, прямо сейчас, в этой обычной и сломанной жизни, имеет прямую руку в формировании самой реальности.
Возможно, что-то прекрасное ждёт на другой стороне этой трансформации. Возможно, то, что называлось небесами, — это меньше место и больше фаза, то, чем человек становится, когда работа сделана. Не то, что можно купить, унаследовать или завоевать. Просто доброта сердца, испытанная и доказанная и реальная.
Никто не знает наверняка. Но нелегко избавиться от чувства, что это имеет значение. Что человек имеет значение. Что маленькая, негламурная, повседневная работа выбора добра над лёгкостью именно настолько важна, насколько древние истории говорят, что она важна. И что, возможно, весь этот сломанный, прекрасный, пугающий опыт куда-то ведёт.

