13 марта 2019 18:27 Олег Илюхин

IBM без спроса тренировала нейросети на фотопортретах в Flickr

Инженеры IBM использовали хранящиеся на Flickr фотографии для обучения алгоритмов распознавания лиц и передавали их сторонним исследователям. Однако согласия на это у запечатленных на снимках людей компания не запрашивала.

Как сообщает NBC, научно-исследовательский отдел IBM позаимствовал с Flickr около миллиона изображений, которые затем были "скормлены" нейросетям. Люди, изображенные на фото, разрешали себя снимать, но не имели понятия, что эти снимки могут быть аннотированы и использованы для наблюдения за ними же.

Сбором самих изображений занималась не IBM, а бывший владелец сайта — Yahoo (прошлой весной фотохостинг, некогда бывший самым крупным в мире, перешел к компании SmugMug). В рамках проекта YFCC100M было накоплено 99,2 миллиона фото. Все они распространялись по лицензии Creative Commons, которая подразумевает свободное использование контента, хотя и с рядом ограничений.

То, что IBM использовала эти снимки для обучения систем распознавания лиц, поднимает не столько юридические, сколько этические вопросы. Как пишет The Verge, компания могла применять эти данные, чтобы научить ИИ различать на видео людей по этническому признаку. Однако в IBM отрицают, что стали бы "участвовать в проекте, связанным с расовым профилированием".

В компании подчеркнули, что "уделяют большое внимание соблюдению принципов конфиденциальности", в базу включены исключительно общедоступные изображения, а доступ к ней имеют только проверенные исследователи. Также, в случае подачи жалобы, в IBM выразили готовность исключить заявителя из набора данных.

Однако получить доступ к коллекции не так-то просто: она закрыта для всех, кто не проводит научных или корпоративных исследований. Журналисты NBC получили эти данные от другого источника и создали инструмент (встроен прямо в статью), благодаря которому любой желающий может проверить наличие своего никнейма Flickr в базе IBM.