题目4多选题
下列关于MDP和RL的说法中,正确的有( )A. 从随机初始值开始的值迭代能收敛到<img src="https://tihai-oss-cloud.itihey.com/img/eb83dde30e38dd8e2deec363d6351a90.png">,其中<img src="https://tihai-oss-cloud.itihey.com/img/e82100bc61ebe5e50da86f6d69771a87.png">是最优策略B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报
题目8单选题
下列关于马尔可夫决策问题(MDP)的说法中,正确的是( )A. 假设马尔可夫决策问题(MDP)的状态是有限的,则对于<img src="https://tihai-oss-cloud.itihey.com/img/48d35d2a0e26d154fdc0d252397f4ab9.png">,如果我们只改变奖励函数R,最优策略会保持不变B. 假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子<img src="https://tihai-oss-cloud.itihey.com/img/a1b2ddee715b730a9ff177ab1b2358ea.png">满足<img src="https://tihai-oss-cloud.itihey.com/img/6d93e4897668e26e38f5cb3b8fcae955.png">,则值迭代一定会收敛C. 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略D. 如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略
题目9多选题
对于如下的马尔可夫模型以及对应的转移概率,下列说法正确的有( ).<img src="https://tihai-oss-cloud.itihey.com/img/40c5f342e02caeb9582bad624e91aa71.png"><img src="https://tihai-oss-cloud.itihey.com/img/2b3df65e315e5a36c1a83237b5603d4d.png">A. 如果初始概率为P(V0 = a) = P(V0 = b) = P(V0 = c) = 1/3,则最终不动点为P(Vn = a) = P(Vn = b) = P(Vn = c) = 1/3B. 如果初始概率为P(V0 = a) = P(V0 = b) = P(V0 = c) = 1/3,则最终不动点为P(Vn = a) = P(Vn = b) =1/4, P(Vn = c) = 1/2C. 如果初始概率为P(V0 = b) = 1.0,则最终不动点为P(Vn = a) = P(Vn = b) = P(Vn = c) = 1/3D. 如果初始概率为P(V0 = b) = 1.0,则最终不动点为P(Vn = a) = P(Vn = b) =1/2, P(Vn = c) = 0