ASR-модель Transcribe Cohere: WER 5.4%, 14 языков, локальное развёртывание

Разработчики голосовых систем для бизнеса сталкивались с ограниченным выбором: либо закрытые API с рисками хранения данных, либо открытые модели, жертвующие точностью ради возможности развёртывания. Новая открытая ASR-модель Transcribe от компании Cohere создана, чтобы конкурировать по всем четырём ключевым параметрам: контекстная точность, задержка, контроль и стоимость.

В Cohere утверждают, что Transcribe превосходит текущих лидеров по точности распознавания. В отличие от закрытых API, модель может работать на собственной инфраструктуре организации — либо через API Cohere, либо как отдельная модель cohere-transcribe-03-2026 в Model Vault компании. Модель содержит 2 миллиарда параметров и распространяется под лицензией Apache-2.0.

Средняя частотность лексических ошибок модели составляет всего 5,42%, что означает меньше ошибок по сравнению с аналогичными решениями. Transcribe обучалась на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Конкретный диалект китайского языка в компании не уточнили.

Разработчики заявляют, что создавали модель с упором на минимизацию ошибок, не забывая о готовности к промышленному использованию. Результатом стала модель, которую предприятия могут напрямую интегрировать в голосовые автоматизации, транскрипционные цепочки и системы поиска по аудио.

Локальная транскрипция для продакшен-систем

До недавнего времени корпоративная транскрипция была компромиссом: закрытые API предлагали точность, но блокировали данные; открытые модели давали контроль, но отставали по производительности. В отличие от Whisper от OpenAI, которая изначально была исследовательской моделью с лицензией MIT, Transcribe доступна для коммерческого использования с момента выпуска и может работать на локальной GPU-инфраструктуре компании.

Первые пользователи отмечают, что коммерчески ориентированный подход с открытыми весами важен для корпоративного внедрения. Организации могут развернуть Transcribe на своих локальных серверах, поскольку модель имеет более управляемый вычислительный след для локальных GPU. Разработчики достигли этого, «расширив границу Парето» — обеспечивая высочайшую точность при сохранении лучшей в своём классе пропускной способности в когорте моделей с более чем 1 миллиардом параметров.

Сравнение Transcribe с конкурентами

Transcribe показала лучшие результаты, чем признанные лидеры рынка, включая Whisper от OpenAI, которая используется в голосовой функции ChatGPT, и ElevenLabs, которую внедряют многие крупные розничные бренды. В настоящее время модель возглавляет рейтинг ASR на Hugging Face со средней частотностью лексических ошибок 5,42%, опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На других наборах данных, протестированных Hugging Face, Transcribe также показала хорошие результаты. На наборе AMI, предназначенном для анализа совещаний и диалогов, модель набрала 8,15%. На наборе Voxpopuli, который проверяет понимание различных акцентов, результат составил 5,87% — её обошла только модель Zoom Scribe.

Первые пользователи особенно отмечают точность и возможность локального развёртывания. Это важно для команд, которые до сих пор передавали аудиоданные через внешние API и хотят перенести эти задачи внутрь компании. Для инженерных команд, создающих RAG-цепочки или агентские рабочие процессы с аудиовходом, Transcribe предлагает путь к продакшен-транскрипции без рисков резидентности данных и задержек, характерных для закрытых API.

Локальная транскрипция для продакшен-систем

Сравнение Transcribe с конкурентами

Похожие новости

Президент Microsoft призвал индустрию прислушаться к протестам против ИИ на выпускных

Deezer выпустила бесплатный инструмент для проверки плейлистов на музыку, созданную ИИ

Google вдвое снизила цену на бюджетную подписку с ИИ, запустив ценовую войну