LangSmith Engine автоматизирует отладку AI-агентов, но для бизнеса критична независимая платформа

Командам, разрабатывающим и внедряющим AI-агентов, знакома проблема: инженеры тратят слишком много времени на поиск ошибок, допущенных агентом, а цикл ошибок продолжается, особенно при отсутствии человека на каждом этапе. Мониторинговая платформа LangSmith от LangChain запустила в публичную бета-версию новую функцию, призванную решить эту задачу. LangSmith Engine автоматизирует весь цикл, обнаруживая сбои в работе, диагностируя первопричины на основе актуального кода, предлагая исправления и предотвращая регрессии. Всё это выполняется в рамках единого автоматизированного процесса.

Как работает LangSmith Engine

Как сообщил LangChain в блоге, типичный цикл разработки агента начинается с трассировки его действий, затем следует поиск пробелов, внесение изменений в промпты и инструменты, а также создание эталонных наборов данных. После этого разработчики проводят эксперименты и проверяют на регрессии перед запуском агента.

Проблема возникает, когда анализ трассировки не выявляет ошибочных паттернов, повторяющиеся ошибки становится сложно отследить, а для отлова одной и той же проблемы в продакшене нет целевого инструмента оценки.

LangSmith Engine работает, отслеживая в продакшен-трассировках несколько типов сигналов: явные ошибки, сбои в работе онлайн-оценщиков, аномалии в трассировках, негативные отзывы пользователей и необычное поведение, например, вопросы, на которые агент не был обучен отвечать.

Затем Engine анализирует актуальный код, находит причину проблемы и составляет черновик pull request, после чего предлагает специальный оценочный инструмент именно для этого типа сбоя. Человек подключается только на этапе утверждения изменений.

Решение построено на базе существующей инфраструктуры трассировки и оценки LangSmith и также работает с результатами оценочных систем предприятия. В отличие от инструментов мониторинга, таких как Weights & Biases, Arize Phoenix и Honeyhive, LangSmith Engine автоматически выполняет всю цепочку — от обнаружения сбоя до предложения исправления — и привлекает человека лишь для утверждения.

Почему предприятиям нужен независимый слой

Хотя LangSmith определил необходимость в автоматизации цикла оценки для многих компаний, Engine появляется в момент, когда крупные провайдеры моделей начинают предлагать инструменты мониторинга внутри своих собственных платформ. Это означает, что предприятия могут выбрать сквозную платформу вместо интеграции LangSmith Engine в существующие рабочие процессы.

Например, Claude Managed Agents от Anthropic объединяет развёртывание агентов, их оценку и оркестрацию в единый набор. Аналогичную сквозную платформу для создания, управления и оценки корпоративных агентов предлагает Frontier от OpenAI. Однако оба решения сталкиваются с вопросами со стороны компаний, опасающихся зависимости от одного вендора.

При этом практики отмечают, что не все хотят полностью переносить оценку и мониторинг в одну платформу.

Лейт Кони, основатель и ведущий консультант Workwise Solutions, заявил, что для многих предприятий сторонний мониторинг является стандартом. Он привёл пример фонда, который использует Claude для анализа, а GPT — для отдельного рабочего процесса. Если мониторинг встроен в инструменты каждого провайдера, появляются две несвязанные системы, а команда по compliance не может составить единый аудиторский отчёт. Поэтому сторонний мониторинг сохраняет актуальность, поскольку использование нескольких моделей уже стало нормой для бизнеса, и необходим слой, который работает поверх всех провайдеров.

Джессика Арредондо Мерфи, CEO и сооснователь True Fit, добавила, что независимые платформы, подобные LangSmith, должны доказать предприятиям, что могут стать кросс-модельным операционным слоем для обеспечения качества и надёжности. По её словам, компании не спешат консолидироваться на инструментах от провайдеров моделей. Наблюдается прагматичное разделение: команды используют инструменты первого уровня для быстрого старта и отладки на ранних этапах, но как только речь заходит о надёжности в продакшене, управлении и долгосрочной гибкости, они, как правило, вводят более нейтральный слой для мониторинга и оценки.

LangSmith Engine уже доступен в публичной бета-версии. Команды могут подключить проект с трассировкой, опционально — свой репозиторий, после чего Engine начнёт автоматически выявлять проблемы на основе производственных трассировок.