ddpg算法優點:是sample efficiency,DDPG的actor crtic均可以off-policy,而gradient estimator由於deterministic policy也確實是無偏的,是可以continuous control。DPG的actor是通過SGD去解max-Q的(而不是遍歷),所以也能做continuous control。
缺點:第一點是deterministic policy,意味着不能很好的explore state Action space。