登陆

题目详情

单选题下列关于贝尔曼值迭代的说法,错误的是( )

A. Q状态(s,a)中的动作a不一定是当前状态下的最佳动作选择

B. 贝尔曼值迭代公式可以理解为是一种动态规划的方法,避免了在搜索中相同子结构的重复计算

C. 值迭代公式为:

D. 每一个循环的复杂度为O(SA)

[共享课]人工智能课程封面

学科：[共享课]人工智能

时间：2025-05-11 00:21:53

相关题目

Q-learning的一个推广假设MDP问题的状态空间为S,动作空间为A,奖励函数为R(s, a, s'),衰减因子为<img src="https://tihai-oss-cloud.itihey.com/img/6494510fd9def2a2b5ff2ece65f0aa59.png">.我们的最终目标是学习一种机器人可以在现实世界中使用的策略.然而我们只能获得模拟软件的数据而非真实机器人的数据.该模拟软件是根据转移模型<img src="https://tihai-oss-cloud.itihey.com/img/11957ae58492f97996dbe380ad9ef63e.png">建立的,该模型与真实机器人转移模型<img src="https://tihai-oss-cloud.itihey.com/img/d445a3eb7e7399e60d0b14c9be70fd97.png">不同.在不改变仿真模拟软件的情况下,我们希望使用从模拟器中提取的样本来学习我们的真实机器人的q值.Q-learning的更新公式可以写为:<img src="https://tihai-oss-cloud.itihey.com/img/064d3e5c1d221745132312e5fea65740.png">假设样本是从仿真模拟软件中抽取,则可以学到真实世界Q值得q值更新函数为:( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/2805907a1e7b9a0547b332877297e4ae.png">B. <img src="https://tihai-oss-cloud.itihey.com/img/8a95a2284af97c60bbac298893a22bf8.png">C. <img src="https://tihai-oss-cloud.itihey.com/img/4ba696f660ebea22ad4fedd4feffe342.png">D. <img src="https://tihai-oss-cloud.itihey.com/img/e00b40e10d3a0eef658f14bc64d5a6c0.png">

在估价函数中,对于g(x)和h(x) 下面描述正确的是( )

A. h(x)是从节点x到目标节点的最优路径的估计代价B. h(x)是从节点x到目标节点的实际代价C. g(x)是从初始节点到节点x的实际代价D. g(x)是从初始节点到节点x的最优路径的估计代价

似然权重、马尔可夫蒙特卡洛方法这样的随机近似技术,可以对网络的真实后验概率进行合理估计,并能够比精确算法处理规模大得多的网络.( )

在状态变量很多时,可以采用粒子滤波这种有效的精确推理算法.( )

取值为负数的生存奖励总可以用小于1的衰减因子表示.( )

时序概率模型包含了( )

A. 描述状态演变的转移模型B. 描述观察过程的传感器模型C. 观察变量分布的概率模型D. 状态变量的联合分布概率

贝叶斯网络是( )

A. 有向有环图B. 有向无环图C. 无向有环图D. 无向无环图

下面关于采样算法说法错误的是( )

A. 直接采样先采样父节点,再采样子节点变量B. 拒绝采样适合计算条件概率,它会在生成过程中拒绝与证据变量不一致的样本C. 似然权重会固定证据变量,并以非证据变量给定父节点后的条件概率乘积确定权重大小D. 吉布斯采样是特殊形式的马尔可夫链蒙特卡洛算法

Y是贝叶斯网络的一个未观察变量,而Y的马尔可夫覆盖MB(Y)都被观察到,下列说法正确的有( )

A. 删除Y并不会改变其他未观察变量的后验概率B. 如果Y没有子节点,那么删除Y并不会改变其他变量的后验概率.否则,删去Y会影响Y的后续节点的后验概率C. 删去Y后,仍然可以使用拒绝采样D. 删去Y后,仍然可以使用似然权重法

如图所示的贝叶斯网络,每个变量取值范围都是{-1,0,1},目标概率是P(D|e=0),下列说法正确的是( ).<img src="https://tihai-oss-cloud.itihey.com/img/17b45af3a92960fbbfe74cd168b50908.png">

A. 包含G的初始因子是P(G|B,C),维度为3,有8个元素B. 第一个消元变量是B时,可以产生维度最大的因子f(A,F,G,C)C. 为了使第一个生成的因子维度最小,我们可以先消D或者FD. F,B,C,G,A是最佳消元顺序之一

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～