题目详情
单选题 一个MDP问题中有A,B,C这三个状态,智能体可以执行的动作是向右(),转移模型如下.我们据此完成无限次迭代的Q-learning.若衰减因子为1,学习率为1,则( )
A. -1
B. -2
C.
学科:[共享课]人工智能
时间:2024-11-25 00:15:23
相关题目