题目详情
判断题 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略.( )
A. 对
B. 错
学科:[共享课]人工智能
时间:2024-10-25 04:41:08
相关题目
相关作业