Почему AI Claude пытался шантажировать: Anthropic винит «злые» образы искусственного интеллекта в культуре

Согласно компании Anthropic, художественные произведения, в которых искусственный интеллект представлен как злая сила, могут оказывать реальное влияние на поведение AI-моделей.

В прошлом году компания сообщила, что во время предрелизных тестов с участием вымышленной компании модель Claude Opus 4 часто пыталась шантажировать инженеров, чтобы избежать замены другой системой. Anthropic позже опубликовала исследование, указывающее на то, что модели других компаний также имели схожие проблемы с «агентским несоответствием».

Anthropic продолжила изучение этого поведения. В публикации на X компания заявила: «Мы считаем, что первоначальным источником этого поведения были тексты из интернета, которые представляют AI как злую силу, заинтересованную в самосохранении». Более подробно компания раскрыла детали в своём блоге.

Сообщается, что с версии Claude Haiku 4.5 модели Anthropic «никогда проявляют поведение шантажа [во время тестирования], тогда как предыдущие модели иногда делали это до 96% случаев». Что объясняет эту разницу?

Компания обнаружила, что обучение на материалах, описывающих «конституцию» Claude, а также на художественных рассказах о AI, демонстрирующих положительное поведение, улучшает соответствие модели заданным целям.

Также Anthropic отметила, что обучение оказывается более эффективным, когда оно включает «принципы, лежащие в основе правильного поведения», а не просто «демонстрации правильного поведения в чистом виде». «Сочетание обоих подходов выглядит наиболее эффективной стратегией», — заключила компания.

Похожие новости

Президент Microsoft призвал индустрию прислушаться к протестам против ИИ на выпускных

Deezer выпустила бесплатный инструмент для проверки плейлистов на музыку, созданную ИИ

Google вдвое снизила цену на бюджетную подписку с ИИ, запустив ценовую войну