お気に入り piqcy @icoxfog417 強化学習において、頭脳である戦略だけでなく体(エージェントの形態: 足の角度や長さなど)も学習させるという試み。体の調整具合に応じて、報酬も変動させる。戦略と体の調整は重みを共有し、学習は素のPolicy Gradientがベー…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。