DeepL выходит за рамки текста: представлен перевод голоса в реальном времени

Компания DeepL, известная своими высококачественными текстовыми переводами, представила комплексное решение для голосового перевода в реальном времени. Новая платформа охватывает различные сценарии: деловые встречи, мобильные и веб-разговоры, а также групповые беседы для сотрудников через специальные приложения.

«После многих лет работы с текстом голос стал для нас естественным следующим шагом, — заявил генеральный директор DeepL Ярек Кутиловски. — Мы прошли долгий путь в области перевода текстов и документов. Но мы считали, что на рынке нет действительно отличного продукта для перевода голоса в реальном времени».

По словам Кутиловски, главная задача при создании такого продукта — найти баланс между сокращением задержки (времени между речью и воспроизведением перевода) и сохранением высокой точности результатов.

Как работает новая платформа

DeepL выпускает дополнения для таких платформ, как Zoom и Microsoft Teams. Участники встреч могут слушать перевод в реальном времени, пока другие говорят на родных языках, или следить за субтитрами с переводом на экране. Пока программа находится в раннем доступе, и компании могут присоединиться к списку ожидания.

Также представлен продукт для мобильных и веб-разговоров, которые могут проходить лично или удалённо. Платформа позволяет организовать групповую беседу, например, в рамках тренинга или семинара: участники присоединяются, отсканировав QR-код.

Технология способна обучаться и адаптироваться к специальной лексике, включая отраслевые термины, названия компаний и имена людей.

Конкуренция и будущее

Кутиловски отметил, что искусственный интеллект меняет подход к клиентскому сервису. Слой перевода помогает компаниям оказывать поддержку на языках, где квалифицированных сотрудников не хватает и их наём обходится дорого.

В настоящее время система работает по схеме: речь → текст → перевод → синтез речи обратно. DeepL уверена, что многолетний опыт в переводе текстов даёт ей преимущество в качестве. В будущем компания планирует разработать сквозную модель перевода голоса, которая полностью пропустит текстовый этап.

На этом рынке у DeepL есть несколько конкурентов. Например, стартап Sanas, привлёкший в прошлом году 65 миллионов долларов, использует ИИ для изменения акцента говорящего в реальном времени — инструмент в первую очередь для кол-центров.

Компания Camb.AI из Дубая фокусируется на синтезе речи и переводе для медиакомпаний, помогая дублировать и локализовать видеоконтент.

Стартап Palabra, поддерживаемый венчурным фондом сооснователя Reddit, создаёт движок перевода речи, который сохраняет как смысл, так и оригинальный голос говорящего, что ставит его в прямую конкуренцию с новым продуктом DeepL.