ИИ освоил три игры за три дня без подсказок

Подразделение Google DeepMind, занимающееся разработками в области искусственного интеллекта, создало улучшенную версию алгоритма AlphaGo, прославившегося обыгрышем чемпиона мира по игре в го. Зная только базовые правила, новая программа — AlphaZero — сумела сама себя обучить игре в шахматы, сёги (японские шахматы) и го всего за три дня, без вмешательства человека.

Подразделение Google DeepMind, занимающееся разработками в области искусственного интеллекта, создало улучшенную версию алгоритма AlphaGo, прославившегося обыгрышем чемпиона мира по игре в го. Зная только базовые правила, новая программа — AlphaZero — сумела сама себя обучить игре в шахматы, сёги (японские шахматы) и го всего за три дня, без вмешательства человека.

"Начав с совершенно случайной игры, AlphaZero постепенно узнала, что значит играть хорошо, и сформировала свои собственные представления об игре, — сказал глава DeepMind Демис Хассабис. — В этом смысле она свободна от ограничений, которыми руководствуются люди, думая об игре".

AlphaZero является прямым потомком AlphaGo, которая в 2016 году одолела Ли Седоля — профессионального игрока из Южной Кореи, одного из сильнейших в мире. Пятиматчевая серия закончилась со счетом 4:1 в пользу ИИ. Седоль, завоевавший многочисленные международные титулы, отыгрался лишь однажды: в четвертой партии, сумев приспособиться к поведению алгоритма.

В конце 2017-го AlphaGo эволюционировала в AlphaGo Zero (AGZ). Инженеры DeepMind переписали алгоритмы нейросети, сделав её полностью самообучаемой: ИИ начал "тренироваться" сам, без какого-либо участия со стороны людей. Снова и снова играя сам с собой, через три дня AGZ смог победить AlphaGo со счетом 100:0.

Однако если AGZ мог играть только в го, AlphaZero самостоятельно освоил сразу три игры, и стал гроссмейстером во всех дисциплинах. Для этого ему потребовались огромные вычислительные ресурсы (5 тысяч нейрочипов TPU), сопоставимые с нуждами суперкомпьютера. Как говорит Хассабис, со временем "самоучка" даже выработала свой собственный, уникальный стиль игры.

Силу алгоритма DeepMind оценил гроссмейстер Гарри Каспаров, пишет ArsTechnica. По словам шахматиста, AlphaZero формирует свои собственные знания, не оглядываясь на человеческий опыт, и всего за несколько часов достигает "результатов, которые превосходят любого человека или машину".