登陆

题目详情

多选题下列关于MDP和RL的说法中,正确的有( )

A. 从随机初始值开始的值迭代能收敛到,其中是最优策略

B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的

C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略

D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报

[共享课]人工智能课程封面

学科：[共享课]人工智能

时间：2024-11-25 00:25:44

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～