Translatotron от Google переводит речь на лету, сохраняя голос и интонации

Подразделение искусственного интеллекта Google разработало технологию Translatotron, которая переводит устную речь с одного языка на другой, сохраняя при этом тембр голоса и манеру говорящего. Как отмечается в блоге компании, новая система не преобразует речь сначала в текст, а потом обратно, как это делается обычно, а синтезирует аудиозапись напрямую.

Подразделение искусственного интеллекта Google разработало технологию Translatotron, которая переводит устную речь с одного языка на другой, сохраняя при этом тембр голоса и манеру говорящего. Как отмечается в блоге компании, новая система не преобразует речь сначала в текст, а потом обратно, как это делается обычно, а синтезирует аудиозапись напрямую.

По словам инженеров, Translatotron использует нейросеть, которая принимает речевые входные данные, обрабатывает их в качестве спектрограммы — визуального представления частот — и генерирует новую спектограмму, уже на целевом языке. Промежуточный этап преобразования голоса в текст — как делает, например, "Переводчик Google" (Google Translate) — эта технология пропускает.

За счет этого Translatotron выполняет перевод намного быстрее, а вероятность, что какая-то часть данных может быть утеряна, снижается. При всем этом новая система сохраняет интонации, паузы и другие особенности речи. Синтезированный голос, правда, звучит несколько роботизированно, но схожесть с оригиналом все же большая. Прослушать образцы машинного перевода можно в блоге Google.

В начале года "умный" голосовой помощник на Android-устройствах — "Ассистент" Google — обзавелся функцией перевода речи (в том числе на русском языке) в режиме реального времени. Благодаря "режиму полиглота" пользователи смогут забыть о языковом барьере и общаться с иностранцами на 27 языках.