题海让大学四年没有难题
白天模式登陆

题目详情

单选题 一个MDP问题中有A,B,C这三个状态,智能体可以执行的动作是向右(),转移模型如下.我们据此完成无限次迭代的Q-learning.若衰减因子为1,学习率为1,则( )

A. -1

B. -2

C.

[共享课]人工智能课程封面

学科:[共享课]人工智能

时间:2025-05-11 00:18:03

Copyright © 2022 津ICP备2021001502号