13 марта 2019 16:25 Олег Илюхин

"Гуглофоны" начали распознавать речь без подключения к Сети

Gboard — разработанная в Google виртуальная клавиатура — научилась обрабатывать голосовые данные без интернет-подключения. Пока такая возможность предусмотрена только для английского языка и только на Android-смартфонах из линейки Pixel.

Новая модель представляет собой преобразователь рекуррентной нейронной сети (RNN-T), который был "натренирован" на нейрочипах Tensor Processing Unit (TPU) в облаке Google. По словам участника команды Google Speech Team Йохана Шалквика, система распознает произносимые символы один за другим, пытаясь предсказать, какая буква будет следующей.

Изначально обученная RNN-T занимала 450 мегабайт, но за счет разбивки данных и других методик инженерам Google удалось сжать объем до 80 МБ и вечетверо ускорить обработку. В результате получилась модель, которая "работает быстрее, чем живая речь" на одном процессорном ядре, и не требует интернет-подключения.

Благодаря тому, что голосовые данные обрабатываются прямо на устройстве, "задержки и скачков в сети больше не будет — новая 'распознавалка' доступна всегда, даже когда вы находитесь в офлайне, — объяснил Шалквик. — Модель работает на уровне символов: когда вы говорите, она выводит слова по буквам, как если бы кто-то печатал произносимые вами фразы в реальном времени, и является как раз тем, что вы ждете от клавиатурной системы диктовки".

Помимо речевого ввода, в Gboard уже применяются алгоритмы машинного обучения, чтобы рекомендовать для отправки собеседнику "гифки", стикеры или эмодзи. Переписка анализируется на смартфоне — данные никуда не отправляются.