網站首頁 美容小常識 享受生活 東方時尚 識真假 高奢 資訊 遊戲攻略 搞笑段子
當前位置:品位站 > 享受生活 > 心理

ddpg算法優缺點

欄目: 心理 / 發佈於: / 人氣:1.94W
ddpg算法優缺點

ddpg算法優點:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由於deterministic policy也確實是無偏的,是可以continuous control。DPG的actor是通過SGD去解max-Q的(而不是遍歷),所以也能做continuous control。

缺點:第一點是deterministic policy,意味着不能很好的explore state Action space。