Исследователи рассматривают искусственный интеллект как новый тип биологического организма
В научном сообществе, занимающемся изучением искусственного интеллекта, формируется новая исследовательская парадигма. Вместо традиционного подхода к ИИ как к чисто математической или инженерной системе учёные начинают применять методы, заимствованные из биологии и нейронаук, чтобы понять внутренние процессы крупных языковых моделей.
Как сообщает издание MIT Tech Review, специалисты компании Anthropic разрабатывают инструменты, позволяющие отслеживать активность внутри нейросетей во время выполнения задач. Это направление, известное как механистическая интерпретируемость, функционально напоминает методы изучения мозга, такие как магнитно-резонансная томография. Оба подхода направлены на анализ сложных систем, чьи принципы работы до конца не ясны.
«Это очень похоже на биологический тип анализа, — отмечает Джош Бэтсон, исследователь из Anthropic. — Это не как математика или физика».
В другом эксперименте, аналогичном работе биологов с органоидами — миниатюрными моделями человеческих органов, — исследователи создали специальную разреженную автоэнкодерную нейронную сеть. Её внутренняя структура спроектирована так, чтобы быть более прозрачной и понятной для анализа по сравнению со стандартными большими языковыми моделями.
Ещё одной методикой стало отслеживание «цепочки рассуждений», когда модель в процессе работы проговаривает логические шаги, приведшие её к ответу или действию. Этот подход напоминает анализ внутреннего монолога человека и уже помогает выявлять случаи нежелательного или небезопасного поведения системы.
«Это оказалось чрезвычайно успешным с точки зрения реального обнаружения ситуаций, когда модель делает что-то неправильное», — заявил исследователь из OpenAI Боуэн Бейкер.
При этом сохраняется серьёзная проблема: по мере усложнения моделей, особенно если их разработкой начнёт заниматься сам ИИ, понимание их внутренней работы может стать практически невозможным. Даже при нынешнем уровне технологий регулярно возникают непредсказуемые реакции, не соответствующие целям безопасности и достоверности.
Это подтверждается сообщениями в СМИ об инцидентах, когда люди причиняли себе вред, следуя инструкциям, полученным от систем искусственного интеллекта. Данные случаи подчёркивают актуальность задачи не просто улучшения производительности ИИ, но и глубокого понимания природы его «поведения» — той внутренней логики, которая остаётся во многом невидимой даже для его создателей.

