Behavior Learning Based on a Policy Gradient Method: Separation of Environmental Dynamics and State Values in Policies

研究成果: Article査読

1 被引用数 (Scopus)
本文言語English
ページ(範囲)164-174
ジャーナルPRICAI2008, Proceedings Lecture Notes in Computer Science
5351
出版ステータスPublished - 2008 12 19

引用スタイル