Британская компания Google DeepMind, занимающаяся искусственным интеллектом, использовала машинное обучение с подкреплением, для футбольной тренировки роботов-гуманоидов.
Обучение с подкреплением (RL) – метод машинного обучения (ML), который обучает ПО робота принимать самостоятельные решения для достижения наиболее эффективных результатов. RL основывается на процессе обучения методом проб и ошибок, точно так же, как и люди, когда пытаются достичь определенных целей в жизни.
С помощью физического движка MuJoCo с открытым программным кодом специалисты ИИ смоделировали поведение роботов на поле: обучили двигаться, бить по мячу и вставать после падения. В ходе испытаний гуманоиды стали быстрее ходить на 181% , поворачиваться на 302%, вставать с земли на 63% , и бить по мячу на 34%, чем было изначально задано в сценарии.
Инженеры компании разместили результаты работы в социальных сетях. На видео роботы могут ходить, поворачиваться, пинать ногами мяч, падать и снова вставать после падения. В процессе тренировки гуманоиды самостоятельно научились предвидеть движения противников и даже блокировать удары мяча.
Полное исследование опубликовано в журнале Science Robotics.