Главный ученый в области искусственного интеллекта и машинного обучения в Google Cloud Фей-Фей Ли рассказала о новой технологии, способной "узнавать" объекты на видео. Выступая на конференции Next Cloud, она представила интерфейс Video Intelligence API, благодаря которому компьютерные алгоритмы могут "понять" суть того или иного ролика.
В качестве примера Ли включила короткое рекламное видео, а новый API сумел распознать таксу, как только собака появилась в кадре, и прийти к выводу, что коммерческим был целый ролик. А на другой демонстрации алгоритмы Google смогли найти все релевантные клипы, отвечающие запросу "пляж".
Технология компьютерного зрения Google и ранее умела угадывать объекты, но только на неподвижных, статических изображениях. "Ассистент", встроенный в фотосервис "Google Фото", автоматически наносит на карту места, в которых побывал пользователь, а также распознает достопримечательности, запечатленные на фотографиях, и привязывает к ним соответствующие теги.
Кроме того, там можно найти любую интересующую его фотографию, просто введя поисковый запрос — например, "пицца" выдаст все снимки с этим блюдом, а "Санкт-Петербург" покажет фотографии, сделанные в этом городе.
По словам Ли, ранее алгоритмы Google были не в состоянии определить смысл видео без проставленных вручную тегов. "Мы готовы пролить свет на темную материю цифровой вселенной", — сказала она.
Источник: The Verge