Anthropic нашла три причины деградации Claude и исправила их

На протяжении нескольких недель разработчики и продвинутые пользователи ИИ сообщали о снижении качества флагманских моделей компании Anthropic — Claude. В сообществах на GitHub, X и Reddit пользователи описывали явление, которое назвали «сжатием ИИ»: модель якобы стала хуже справляться с многошаговыми рассуждениями, чаще допускать ошибки и неэффективно расходовать токены.

Критики указывали на измеримые изменения в поведении, утверждая, что модель перешла от подхода «сначала подумай» к более ленивому стилю «сначала редактируй», который не подходит для сложных инженерных задач. Несмотря на первоначальные опровержения компании о намеренном ухудшении модели для управления спросом, растущее количество свидетельств от известных пользователей и сторонние тесты создали серьёзный кризис доверия.

Теперь Anthropic напрямую ответила на эти обвинения, опубликовав технический анализ, который выявил три отдельных изменения на уровне продукта, ответственных за проблемы с качеством.

Что показали тесты и жалобы

Споры набрали обороты в начале апреля 2026 года после подробных технических анализов от сообщества разработчиков. Старший директор из группы ИИ компании AMD опубликовала масштабный аудит 6 852 файлов сессий Claude Code и более 234 000 вызовов инструментов на GitHub, показавший снижение производительности по сравнению с её предыдущим опытом использования.

Её выводы указывали на резкое падение глубины рассуждений Claude, что приводило к логическим петлям и тенденции выбирать «простейшее исправление» вместо правильного.

Эти частные наблюдения, казалось, подтверждались сторонними тестами. Компания BridgeMind сообщила, что точность Claude Opus 4.6 в их тестах упала с 83,3% до 68,3%, из-за чего его рейтинг рухнул со второго на десятое место. Хотя некоторые эксперты указывали на возможные недостатки в методологии этих конкретных тестов, нарратив о том, что Claude «поглупел», стал вирусной темой. Пользователи также жаловались на неожиданно быстрое расходование лимитов использования, что порождало подозрения в намеренном ограничении производительности для управления растущим спросом.

Три ключевые причины сбоя

В своём разборе ситуации Anthropic пояснила, что хотя базовые веса модели не деградировали, три конкретных изменения в «обвязке» (harness) вокруг моделей непреднамеренно ухудшили их работу:

Уровень усилий для рассуждений по умолчанию: 4 марта Anthropic изменила стандартный уровень усилий для рассуждений в Claude Code с высокого на средний, чтобы решить проблемы с задержками в интерфейсе. Это изменение должно было предотвратить «зависание» интерфейса, пока модель думает, но привело к заметному падению «интеллекта» для сложных задач.
Ошибка в логике кэширования: Выпущенное 26 марта обновление для оптимизации кэширования, предназначенное для очистки «размышлений» из неактивных сессий, содержало критическую ошибку. Вместо однократной очистки истории размышлений после часа бездействия, она очищалась при каждом последующем запросе, из-за чего модель теряла «кратковременную память» и становилась повторяющейся или забывчивой.
Ограничения на многословность в системном промпте: 16 апреля Anthropic добавила инструкции в системный промпт, ограничивающие текст между вызовами инструментов 25 словами, а финальные ответы — 100 словами. Эта попытка уменьшить многословность в Opus 4.7 дала обратный эффект, вызвав падение качества оценок кодирования на 3%.

Последствия и новые гарантии

Проблемы с качеством затронули не только CLI Claude Code, но также Claude Agent SDK и Claude Cowork, хотя API Claude остался незатронутым. Anthropic признала, что эти изменения создали у пользователей впечатление, будто модель «потеряла интеллект», и заявила, что это не тот опыт, на который пользователи вправе рассчитывать.

Чтобы восстановить доверие и предотвратить подобные регрессии в будущем, Anthropic внедряет несколько операционных изменений:

Тестирование на своих сотрудниках: Большая доля внутреннего персонала будет обязана использовать точные публичные сборки Claude Code, чтобы испытать продукт так же, как и пользователи.
Расширенные наборы для оценки: Компания теперь будет запускать более широкий набор оценок для каждой модели и проводить «абляции» для каждого изменения системного промпта, чтобы изолировать влияние конкретных инструкций.
Более жёсткий контроль: Разработаны новые инструменты для упрощения аудита изменений промптов, а изменения, специфичные для модели, будут строго ограничены своими целевыми областями.
Компенсация подписчикам: В качестве компенсации за потраченные впустую токены и проблемы с производительностью, вызванные этими ошибками, Anthropic сбросила лимиты использования для всех подписчиков по состоянию на 23 апреля.

Компания намерена использовать свой новый аккаунт @ClaudeDevs в X и обсуждения на GitHub, чтобы подробнее объяснять причины будущих изменений в продукте и поддерживать более прозрачный диалог с сообществом разработчиков.

Что показали тесты и жалобы

Три ключевые причины сбоя

Последствия и новые гарантии

Похожие новости

Президент Microsoft призвал индустрию прислушаться к протестам против ИИ на выпускных

Deezer выпустила бесплатный инструмент для проверки плейлистов на музыку, созданную ИИ

Google вдвое снизила цену на бюджетную подписку с ИИ, запустив ценовую войну