题海让大学四年没有难题
白天模式登陆

题目详情

多选题 下列关于MDP和RL的说法中,正确的有( )

A. 从随机初始值开始的值迭代能收敛到,其中是最优策略

B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的

C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略

D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报

[共享课]人工智能课程封面

学科:[共享课]人工智能

时间:2024-11-25 00:25:44

Copyright © 2022 津ICP备2021001502号