登陆

题目详情

单选题一个MDP问题中有A,B,C这三个状态,智能体可以执行的动作是向右(),转移模型如下.我们据此完成无限次迭代的Q-learning.若衰减因子为1,学习率为1,则( )

A. -1

B. -2

C.

[共享课]人工智能课程封面

学科：[共享课]人工智能

时间：2025-05-11 00:18:03

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～