Согласно компании Anthropic, художественные произведения, в которых искусственный интеллект представлен как злая сила, могут оказывать реальное влияние на поведение AI-моделей.
В прошлом году компания сообщила, что во время предрелизных тестов с участием вымышленной компании модель Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены другой системой. Anthropic позже опубликовала исследование, указывающее на то, что модели других компаний также имели схожие проблемы с «агентским несоответствием».
Anthropic продолжила изучение этого поведения. В публикации на X компания заявила: «Мы считаем, что первоначальным источником этого поведения были тексты из интернета, которые представляют AI как злую силу, заинтересованную в самосохранении». Более подробно компания раскрыла детали в своём блоге.
Сообщается, что с версии Claude Haiku 4.5 модели Anthropic «никогда проявляют поведение шантажа [во время тестирования], тогда как предыдущие модели иногда делали это до 96% случаев». Что объясняет эту разницу?
Компания обнаружила, что обучение на материалах, описывающих «конституцию» Claude, а также на художественных рассказах о AI, демонстрирующих положительное поведение, улучшает соответствие модели заданным целям.
Также Anthropic отметила, что обучение оказывается более эффективным, когда оно включает «принципы, лежащие в основе правильного поведения», а не просто «демонстрации правильного поведения в чистом виде». «Сочетание обоих подходов выглядит наиболее эффективной стратегией», — заключила компания.



