Новый подход к машинному обучению приблизил ловкость роборуки к человеческой

Некоммерческая организация OpenAI, финансируемая главой Tesla и SpaceX Илоном Маском, объявила о разработке инновационных ИИ-алгоритмов для роботизированной руки. Система получала название Dactyl: она способна не просто манипулировать объектами с ловкостью, близкой к человеческой, но и обучаться этому без какого-либо внешнего вмешательства.

Некоммерческая организация OpenAI, финансируемая главой Tesla и SpaceX Илоном Маском, объявила о разработке инновационных ИИ-алгоритмов для роботизированной руки. Система получала название Dactyl: она способна не просто манипулировать объектами с ловкостью, близкой к человеческой, но и обучаться этому без какого-либо внешнего вмешательства.

Применяемые на фабриках промышленные роботы-сварщики, сборщики и грузчики, как правило, выполняют работу быстрее и эффективнее человека. В то же время последовательность их действий строго определена заранее: например, чтобы научить руку-манипулятор двигаться под другой траектории, её нужно программировать заново.

Переобучить робота классическими методами машинного обучения почти невозможно — на то, чтобы механическая конечность путем проб и ошибок натренировалась миллионам различных комбинаций, могут понадобиться сотни лет. Инженеры из OpenAI избрали другой подход: они обучали систему не в реальном мире, а внутри симулятора. Результатом стала ИИ-система Dactyl, позволяющая роборуке держать и вертеть пальцами шестигранный кубик почти так же ловко, как человек.

Как говорит один из авторов проекта Маттиас Плапперт, для этого были задействованы огромные вычислительные ресурсы: 6144 мощных центральных процессоров и восемь высокопроизводительных видеокарт Nvidia V100. Когда ИИ прогоняли через череду симуляций, условия ситуации менялись. Чтобы система адаптировалась, исследователи меняли цвет руки и кубика, его размеры и вес, скользкость поверхности объекта и даже гравитацию.

По словам Плапперта, по окончании тренировки Dactyl смогла переместить кубик, не уронив его, из одной позиции в другую до 50 раз. Средний результат, правда, намного скромнее — всего 13 раз.