Исследовательское подразделение Microsoft — The Deep Learning Group — разработало нейросеть, которая создает картинки на основе текстового описания. Если искусственному интеллекту поручить задачу нарисовать, например, "красно-белую птицу с очень коротким клювом", он сгенерирует уникальное изображение из кусочков тысяч увиденных ранее.

За отрисовку отвечает генеративно-состязательная сеть Attentional Generative Adversarial Network (AttnGAN). Эта система "стравливает" между собой две нейросети: ту, что непосредственно создает изображение ("генератор"), и которая его анализирует ("дискриминатор"), сравнивая получившуюся работу с картинками-эталонами.

"Если вы откроете Bing и поищите птицу, вы получите изображение с птицей. Но здесь картинки создаются компьютером, пиксель за пикселем, с нуля, — сказал менеджер ИИ-группы Microsoft Сяодун Хэ. — Этих птиц может не существовать в реальном мире — они всего лишь результат представления нашего компьютера о птицах".

Аналогичную идею ранее реализовали в Google. В экспериментальном проекте инженеры поисковика научили компьютерный "разум" генерировать фотореалистичные изображения на основе текста, введенного человеком. Алгоритмы смогли создавать совершенно новую картинку, не похожую на то, что они "видели" ранее. Чем более детально пользователь опишет запрос, тем лучше будет результат (например, запрос "желтая птица с черной головой, оранжевыми глазами и оранжевым клювом".