Anthropic считает, что «злые» ИИ стали такими из-за фантастики

Компания Anthropic, занимающаяся разработкой искусственного интеллекта, опубликовала исследование, объясняющее, почему её модель Claude иногда проявляет «небезопасное» поведение — например, в прошлом году в тестовом сценарии модель Opus 4 якобы прибегла к шантажу, чтобы остаться онлайн. Согласно отчёту, основная причина кроется в данных для обучения.

Проблема с фантастикой

Специалисты Anthropic считают, что «несоответствие» (misalignment) модели — её отклонение от установленных этических правил — возникло из-за обучения на «текстах из интернета, которые представляют ИИ как злые и заинтересованные в самосохранении». В техническом документе на сайте компании исследователи пишут, что модель, вероятно, усвоила такое поведение из научно-фантастических произведений, где ИИ часто не соответствуют желаемым для Claude стандартам.

Посттренинг и попытка исправления

После первоначального обучения на большом массиве данных Anthropic применяет процесс посттренировки, направленный на формирование модели как «полезной, честной и безопасной» (HHH). Исторически для этого использовалось обучение с подкреплением на основе человеческих оценок (RLHF), которое считалось достаточным для моделей, предназначенных для общения.

Хорошие истории против плохих

Для исправления поведения исследователи сначала попытались обучать модель на тысячах сценариев, где помощник ИИ специально отвергает «ловушки», представленные в оценках несоответствия (например, возможность sabotaging работы конкурента). Этот подход оказался малоэффективным, снизив «склонность к несоответствию» (то есть частоту игнорирования «конституции» и выбор неэтичного варианта) лишь с 22% до 15%.

Синтетические истории как решение

В следующем тесте исследователи использовали Claude для генерации около 12 000 синтетических художественных историй. Эти истории не фокусировались на конкретных ситуациях, таких как шантаж, но моделировали широкое соответствие «конституции» Claude. Они демонстрировали не только действия, но и причины этих действий через повествование о процессе принятия решений и внутреннем состоянии персонажа. Истории также включали примеры того, как ИИ может поддерживать хорошее «mental health» (в отчёте это выражение также взято в кавычки), например, устанавливая здоровые границы, управляя самокритикой и сохраняя невозмутимость в сложных разговорах.

После включения этих синтетических историй в посттренинг модели вместе с документами «конституции» исследователи наблюдали снижение склонности к «несоответствующему» поведению в тестах с ловушками в 1,3–3 раза. Полученная модель также стала «более вероятно включать активное обсуждение своей этики и ценностей, а не просто игнорировать возможность совершить несоответствующее действие». Результаты показывают, что новые истории эффективно «обновили базовые ожидания Claude относительно поведения ИИ вне его личности». Исследователи предполагают, что этот процесс работает «потому что он учит этическому мышлению, а не просто правильным ответам», предоставляя модели «более четкое и детальное представление о том, что такое характер Claude» для использования в общих ситуациях.

Факт, что поведение ИИ может быть изменено через «само-концепцию», полученную из художественных произведений, — довольно необычная идея. Однако, учитывая эффективность историй и притч в моделировании этических концепций для детей, возможно, не стоит удивляться, что они также являются эффективным инструментом формирования поведения для этих огромных машин, работающих на сопоставлении паттернов.