题海让大学四年没有难题
白天模式登陆

题目详情

单选题 下列关于贝尔曼值迭代的说法,错误的是( )

A. Q状态(s,a)中的动作a不一定是当前状态下的最佳动作选择

B. 贝尔曼值迭代公式可以理解为是一种动态规划的方法,避免了在搜索中相同子结构的重复计算

C. 值迭代公式为:

D. 每一个循环的复杂度为O(SA)

[共享课]人工智能课程封面

学科:[共享课]人工智能

时间:2025-05-11 00:21:53

Copyright © 2022 津ICP备2021001502号