[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fMQzAGPxcQukKLGRMcLQDIZ1JjBJTsUEKTslfH7QlPAE":3},{"answer":4,"createTime":5,"id":6,"options":7,"origin":10,"question":16,"related":17,"source":21,"type":22},[],"2024-10-25 12:41:08",999757507,[8,9],"对","错",{"courseId":11,"courseImg":12,"courseName":13,"workId":14,"workName":15},"1000000860","https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002Fcf3bb414b5ea2367f316b2d3561124c7.jpg","[共享课]人工智能","59023989","第五章单元测试","假设马尔可夫决策问题(MDP)的状态是有限的,则对于\u003Cimg src=\"https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F5b0e53fe3fdd717a53e7667ea982209c.png\">,如果我们只改变奖励函数R,最优策略会保持不变.( )",[18,23,28,33,38],{"answer":19,"createTime":5,"id":6,"options":20,"question":16,"source":21,"type":22},[],[8,9],"v2",3,{"answer":24,"createTime":5,"id":25,"options":26,"question":27,"source":21,"type":22},[],999757513,[8,9],"假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子\u003Cimg src=\"https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F22c8c0aa4b236c64c83dc83a0e71fe55.png\">满足\u003Cimg src=\"https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F91aa50d39ebdc1676c11481226187853.png\">,则值迭代一定会收敛.( )",{"answer":29,"createTime":5,"id":30,"options":31,"question":32,"source":21,"type":22},[],999757514,[8,9],"假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略.( )",{"answer":34,"createTime":5,"id":35,"options":36,"question":37,"source":21,"type":22},[],999757520,[8,9],"如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略.( )",{"answer":39,"createTime":5,"id":40,"options":41,"question":42,"source":21,"type":22},[],999757523,[8,9],"当在一个MDP中只执行有限数量的步骤时,最优策略是平稳的.平稳的策略是指在给定状态下采取相同操作的策略,与智能体处于该状态的时间无关.( )"]