题目详情
单选题 下列关于马尔可夫决策问题(MDP)的说法中,正确的是( )
A. 假设马尔可夫决策问题(MDP)的状态是有限的,则对于
,如果我们只改变奖励函数R,最优策略会保持不变
B. 假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子
满足
,则值迭代一定会收敛
C. 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略
D. 如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略
![[共享课]人工智能课程封面](https://tihai-oss-cloud.itihey.com/img/cf3bb414b5ea2367f316b2d3561124c7.jpg)
学科:[共享课]人工智能
时间:2025-05-11 00:24:24
相关题目
