登陆

题目详情

单选题下列关于马尔可夫决策问题(MDP)的说法中,正确的是( )

A. 假设马尔可夫决策问题(MDP)的状态是有限的,则对于,如果我们只改变奖励函数R,最优策略会保持不变

B. 假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子满足,则值迭代一定会收敛

C. 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略

D. 如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略

[共享课]人工智能课程封面

学科：[共享课]人工智能

时间：2025-05-11 00:24:24

相关题目

依据估价函数f(x)=g(x)+h(x) (其中g(x)为初始节点到节点x已实际付出的代价,h(x)是节点x到目标节点的最优路径的估计代价)对OPEN表中的节点进行排序,并且要求启发函数满足( ),则称这种状态空间图的搜索算法为A*算法

A. h(x)≤h*(x)B. h(x)≠h*(x)C. h(x)≥h*(x)D. h(x)>h*(x)

强化学习的近似的策略评估中,计算真值的方法有( )

A. 蒙特卡洛法B. 梯度下降法C. 牛顿法D. 时序差分法

在强化学习值函数近似中,时序差分方法对参数的更新公式是( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/ef44ff31cc6dc1652dfe3220bd87286d.jpg">B. <img src="https://tihai-oss-cloud.itihey.com/img/11859f378500544dcb5038a169f9e605.jpg">C. <img src="https://tihai-oss-cloud.itihey.com/img/22bbccb46dfdcb434edd5e654fb95087.jpg">D. <img src="https://tihai-oss-cloud.itihey.com/img/203751151e20e8c52e9b45acfdb1ea2f.jpg">

下列关于MDP和RL的说法中,正确的有( )

A. 从随机初始值开始的值迭代能收敛到<img src="https://tihai-oss-cloud.itihey.com/img/eb83dde30e38dd8e2deec363d6351a90.png">,其中<img src="https://tihai-oss-cloud.itihey.com/img/e82100bc61ebe5e50da86f6d69771a87.png">是最优策略B. Q-learning采用对最优动作价值函数的近似作为学习目标,与行动策略无关,是off-policy的C. 当具有确定性转移模型时,Q-learning不需要探索就能收敛到最优策略D. 在MDP问题中,一个较大的衰减因子(接近1)意味着代理更重视长期回报

在alpha-beta剪枝算法中,对于MAX节点,当它的效用值比当前的alpha低时可以进行剪枝.( )

如果回溯搜索算法运行弧相容检查并应用MRV和LCV来选择变量和值,那么回溯算法可能需要回溯的最大次数是多少?( )

A. O(1)B. O(<img src="https://tihai-oss-cloud.itihey.com/img/5d860c080d2fcc6eda26b5d5e1923198.png">)C. O(<img src="https://tihai-oss-cloud.itihey.com/img/097d5da3cee5a216801e06108e13a10d.png">)D. O(<img src="https://tihai-oss-cloud.itihey.com/img/990554dd6b8fa36eb1b1ce788547a4e4.png">)

如果x,y在z的条件下相互独立,则下列公式正确的有( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/7c25348ca03061b47c343421cb77300c.png">B. <img src="https://tihai-oss-cloud.itihey.com/img/2547f9854c2507259552ba69a9dfecf4.png">C. <img src="https://tihai-oss-cloud.itihey.com/img/2d8a1ecf160a1cd7cb65c8ef813a949a.png">D. <img src="https://tihai-oss-cloud.itihey.com/img/4978dff94f32aeec97f23ad87e2868fa.png">

下列关于马尔可夫决策问题(MDP)的说法中,正确的是( )

A. 假设马尔可夫决策问题(MDP)的状态是有限的,则对于<img src="https://tihai-oss-cloud.itihey.com/img/48d35d2a0e26d154fdc0d252397f4ab9.png">,如果我们只改变奖励函数R,最优策略会保持不变B. 假设马尔可夫决策问题(MDP)的状态是有限的,若衰减因子<img src="https://tihai-oss-cloud.itihey.com/img/a1b2ddee715b730a9ff177ab1b2358ea.png">满足<img src="https://tihai-oss-cloud.itihey.com/img/6d93e4897668e26e38f5cb3b8fcae955.png">,则值迭代一定会收敛C. 假设马尔可夫决策问题(MDP)的状态是有限的,通过值迭代找到的策略优于通过策略迭代找到的策略D. 如果两个MDP之间的唯一差异是衰减因子的值,那么它们一定拥有相同的最优策略

对于如下的马尔可夫模型以及对应的转移概率,下列说法正确的有( ).<img src="https://tihai-oss-cloud.itihey.com/img/40c5f342e02caeb9582bad624e91aa71.png"><img src="https://tihai-oss-cloud.itihey.com/img/2b3df65e315e5a36c1a83237b5603d4d.png">

A. 如果初始概率为P(V0 = a) = P(V0 = b) = P(V0 = c) = 1/3,则最终不动点为P(Vn = a) = P(Vn = b) = P(Vn = c) = 1/3B. 如果初始概率为P(V0 = a) = P(V0 = b) = P(V0 = c) = 1/3,则最终不动点为P(Vn = a) = P(Vn = b) =1/4, P(Vn = c) = 1/2C. 如果初始概率为P(V0 = b) = 1.0,则最终不动点为P(Vn = a) = P(Vn = b) = P(Vn = c) = 1/3D. 如果初始概率为P(V0 = b) = 1.0,则最终不动点为P(Vn = a) = P(Vn = b) =1/2, P(Vn = c) = 0

在如下图所示的不确定性的网格游戏中,智能体的行动和结果是不确定的,智能体有80%的概率按计划行动,去向动作方向;有20%的概率去向与预期方向垂直的方向.则如图当智能体处于位置(3,1),执行向上的动作后,出现在(2,1)位置的概率是( )<img src="https://tihai-oss-cloud.itihey.com/img/6df9431af351a5d03b6a0d67d09f3f67.png">

A. 0B. 10%C. 20%D. 80%

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～