题目详情
多选题 下列关于MDP和RL的说法中,正确的有( )
A. 从随机初始值开始的值迭代能收敛到,其中是最优策略
B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的
C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略
D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报
学科:[共享课]人工智能
时间:2024-11-25 00:25:44
相关题目