10 июня 2019 20:13 Олег Илюхин

Нейросетевую подмену слов и мимики в видео упростили до предела

Ученые разработали компьютерную программу, которая позволяет редактировать текст, который произносит человек в кадре, и подстраивать его мимику к новому аудиоряду. Несмотря на то что нейросетевой алгоритм пока не умеет синтезировать звук (менять тембр голоса тоже нельзя), работу с этой технологией упростили настолько, что создание убедительных видеоподделок будет под силу практически любому.

Новую систему разработали исследователи Стэнфордского и Принстонского университетов, Института информатики общества Макса Планка и Adobe Research. Она пока не готова в качестве обычного приложения, однако Adobe — компания-разработчик Photoshop — уже создала прототип, в котором можно редактировать речь на видео так же легко, как фотографию.

Чтобы создать реалистичные видеофейки, ученые воспользовались несколькими методиками. Сначала они выделили произносимые человеком фонемы (минимальные единицы звукового строя, из которых состоят слова), а затем сопоставили их с виземами — выражениями губ и лица, соответствующими определенному звуку. На последнем этапе была создана 3D-модель нижней половины лица. Когда меняется текст, произносимый человеком на видео, система объединяет эти данные — фонемы, виземы и лицевую 3D-модель — и генерирует новый визуальный ряд, согласно правкам.

Российский алгоритм-охранник уступил только китайскому читайте также

Правда, у алгоритма есть ряд важных ограничений. Во-первых, ему требуется не менее 40 минут видеосъемки, причем заметную часть кадра должна занимать голова человека. Во-вторых, искусственный интеллект пока не умеет подменять звук — только мимику. И в-третьих, система полностью перестает работать, если в кадре возникнет какая-либо помеха (например, если кто-то, активно жестикулируя, проведет рукой перед лицом).