题海
让大学四年没有难题
首页
搜题
登陆
题目详情
单选题
在强化学习值函数近似中,蒙特卡罗方法对参数的更新公式是( )
A.
B.
C.
D.
查看答案
学科:
[共享课]人工智能
时间:
2025-05-11 00:18:03
相关题目
题目1
多选题
若一搜索树的树高有限且所有单步损耗均非负,则为每条边增加一正损耗c>0,以下树搜索算法中( )所得搜索路径保持不变
A. BFS
B. DFS
C. UCS
D. 无
题目2
单选题
使用<img src="https://tihai-oss-cloud.itihey.com/img/29311cf92ac2797226068a7e6ae0bde8.png">-贪心Q-learning算法得到的最优策略是( )
A. <img src="https://tihai-oss-cloud.itihey.com/img/97b167f3818a90dea33605a6ed34d7a7.png">
B. <img src="https://tihai-oss-cloud.itihey.com/img/cedeec654add2b9a6a5a787694ce6f00.png">
C. <img src="https://tihai-oss-cloud.itihey.com/img/b6e7c89a3f5b337c14d00444d8e0b40d.png">
题目3
单选题
一个MDP问题中有A,B,C这三个状态,智能体可以执行的动作是向右(<img src="https://tihai-oss-cloud.itihey.com/img/314a42688fdce41a09ed9f49b8584a7e.png">),转移模型如下.我们据此完成无限次迭代的Q-learning.若衰减因子为1,学习率为1,则<img src="https://tihai-oss-cloud.itihey.com/img/1689b9d180a8ea9f0638df278b32f729.png">( )<img src="https://tihai-oss-cloud.itihey.com/img/03a647b1f55e3d7f0768ba11068dbf8f.png">
A. -1
B. -2
C. <img src="https://tihai-oss-cloud.itihey.com/img/0667569d70d702a708ffd70eafae0159.png">
题目4
多选题
下列公式正确的有( )
A. <img src="https://tihai-oss-cloud.itihey.com/img/9b90370e5ec69b2b59be48507b6e3572.png">
B. <img src="https://tihai-oss-cloud.itihey.com/img/1d4d44977437618fde6664aceef8a95d.png">
C. <img src="https://tihai-oss-cloud.itihey.com/img/f33327ccda535f9d90f8b9f6c47ef6d7.png">
D. <img src="https://tihai-oss-cloud.itihey.com/img/13d08f20bd847d79a33137bb55671741.png">
题目5
判断题
基于模型的强化学习涉及纯离线计算,而模型无关的强化学习需要与环境进行在线交互.( )
A. 对
B. 错
题目6
判断题
广度优先搜索可以找到步数最短的搜索路径,并且能保证路径的代价最小.( )
A. 对
B. 错
题目7
多选题
在有模型的强化学习中,属于动态规划求解的是( )
A. 值迭代方法
B. 状态迭代方法
C. 策略迭代方法
D. 回报迭代方法
题目8
单选题
在强化学习值函数近似中,蒙特卡罗方法对参数的更新公式是( )
A. <img src="https://tihai-oss-cloud.itihey.com/img/337926b18a7ceaabdfad5b2639b7f157.jpg">
B. <img src="https://tihai-oss-cloud.itihey.com/img/4380e14a56df3bb7de25cefb3358a2f9.jpg">
C. <img src="https://tihai-oss-cloud.itihey.com/img/c960c31c4270d294fcb0f674bb6fc0af.jpg">
D. <img src="https://tihai-oss-cloud.itihey.com/img/5f869f433b69cf3430fc9bb56d268ccd.jpg">
题目9
判断题
贪心搜索算法一定能找到最优解,因为它总是朝着离目标状态靠近的方向生成和扩展节点.( )
A. 对
B. 错
题目10
多选题
宽度优先搜索与深度优先搜索有何区别是( )
A. 宽度优先搜索的特点是先生成的节点先扩展
B. 深度优先搜索的特点是先生成的节点先扩展
C. 深度优先搜索的特点是先扩展最新产生的节点
D. 宽度优先搜索的特点是先扩展最新产生的节点
下载
题海APP
拍照搜题更快捷
海量题库
无搜索限制
快捷拍照搜题
扫描他!然后带走我~