题目8多选题
下列关于MDP和RL的说法中,正确的有( )A. 从随机初始值开始的值迭代能收敛到<img src="https://tihai-oss-cloud.itihey.com/img/eb83dde30e38dd8e2deec363d6351a90.png">,其中<img src="https://tihai-oss-cloud.itihey.com/img/e82100bc61ebe5e50da86f6d69771a87.png">是最优策略B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报