题海让大学四年没有难题
白天模式登陆

题目详情

单选题 下列关于马尔可夫决策问题(MDP)的说法中,正确的是( )

A. 假设马尔可夫决策问题(MDP)的状态是有限的,则对于,如果我们只改变奖励函数R,最优策略会保持不变

B. 假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子满足,则值迭代一定会收敛

C. 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略

D. 如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略

[共享课]人工智能课程封面

学科:[共享课]人工智能

时间:2024-11-25 00:15:23

Copyright © 2022 津ICP备2021001502号