強化学習で人に二足歩行を覚えさせました。「proximal policy optimization (PPO)」というアルゴリズムを使っています。
Proximal Policy Optimization Algorithms
https://arxiv.org/abs/1707.06347
Twitter:https://twitter.com/physics_engine0
BGM:
「Trick or treat」written by GT-K
「Halloween Monsters」written by ISAo.