题目详情
判断题 假设马尔可夫决策问题(MDP)的状态是有限的,则对于,如果我们只改变奖励函数R,最优策略会保持不变.( )
A. 对
B. 错
学科:[共享课]人工智能
时间:2024-10-25 04:41:08
相关题目
相关作业