登陆

题目详情

单选题在强化学习值函数近似中,蒙特卡罗方法对参数的更新公式是( )

A.

B.

C.

D.

[共享课]人工智能课程封面

学科：[共享课]人工智能

时间：2025-05-11 00:18:03

相关题目

若一搜索树的树高有限且所有单步损耗均非负,则为每条边增加一正损耗c>0,以下树搜索算法中( )所得搜索路径保持不变

A. BFSB. DFSC. UCSD. 无

使用<img src="https://tihai-oss-cloud.itihey.com/img/29311cf92ac2797226068a7e6ae0bde8.png">-贪心Q-learning算法得到的最优策略是( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/97b167f3818a90dea33605a6ed34d7a7.png">B. <img src="https://tihai-oss-cloud.itihey.com/img/cedeec654add2b9a6a5a787694ce6f00.png">C. <img src="https://tihai-oss-cloud.itihey.com/img/b6e7c89a3f5b337c14d00444d8e0b40d.png">

一个MDP问题中有A,B,C这三个状态,智能体可以执行的动作是向右(<img src="https://tihai-oss-cloud.itihey.com/img/314a42688fdce41a09ed9f49b8584a7e.png">),转移模型如下.我们据此完成无限次迭代的Q-learning.若衰减因子为1,学习率为1,则<img src="https://tihai-oss-cloud.itihey.com/img/1689b9d180a8ea9f0638df278b32f729.png">( )<img src="https://tihai-oss-cloud.itihey.com/img/03a647b1f55e3d7f0768ba11068dbf8f.png">

A. -1B. -2C. <img src="https://tihai-oss-cloud.itihey.com/img/0667569d70d702a708ffd70eafae0159.png">

下列公式正确的有( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/9b90370e5ec69b2b59be48507b6e3572.png">B. <img src="https://tihai-oss-cloud.itihey.com/img/1d4d44977437618fde6664aceef8a95d.png">C. <img src="https://tihai-oss-cloud.itihey.com/img/f33327ccda535f9d90f8b9f6c47ef6d7.png">D. <img src="https://tihai-oss-cloud.itihey.com/img/13d08f20bd847d79a33137bb55671741.png">

基于模型的强化学习涉及纯离线计算,而模型无关的强化学习需要与环境进行在线交互.( )

广度优先搜索可以找到步数最短的搜索路径,并且能保证路径的代价最小.( )

在有模型的强化学习中,属于动态规划求解的是( )

A. 值迭代方法B. 状态迭代方法C. 策略迭代方法D. 回报迭代方法

在强化学习值函数近似中,蒙特卡罗方法对参数的更新公式是( )

A. <img src="https://tihai-oss-cloud.itihey.com/img/337926b18a7ceaabdfad5b2639b7f157.jpg">B. <img src="https://tihai-oss-cloud.itihey.com/img/4380e14a56df3bb7de25cefb3358a2f9.jpg">C. <img src="https://tihai-oss-cloud.itihey.com/img/c960c31c4270d294fcb0f674bb6fc0af.jpg">D. <img src="https://tihai-oss-cloud.itihey.com/img/5f869f433b69cf3430fc9bb56d268ccd.jpg">

贪心搜索算法一定能找到最优解,因为它总是朝着离目标状态靠近的方向生成和扩展节点.( )

宽度优先搜索与深度优先搜索有何区别是( )

A. 宽度优先搜索的特点是先生成的节点先扩展B. 深度优先搜索的特点是先生成的节点先扩展C. 深度优先搜索的特点是先扩展最新产生的节点D. 宽度优先搜索的特点是先扩展最新产生的节点

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～