题目详情
单选题 下列关于贝尔曼值迭代的说法,错误的是( )
A. Q状态(s,a)中的动作a不一定是当前状态下的最佳动作选择
B. 贝尔曼值迭代公式可以理解为是一种动态规划的方法,避免了在搜索中相同子结构的重复计算
C. 值迭代公式为:
D. 每一个循环的复杂度为O(SA)
学科:[共享课]人工智能
时间:2025-05-11 00:21:53
相关题目