题海让大学四年没有难题
白天模式登陆

题目详情

单选题 在无模型强化学习中,Q-learning是一种重要的算法.关于Q-learning的定义、目标及其应用,以下哪项描述是正确的

A. Q-learning通过估计状态-动作值函数来学习最优策略,目标是最大化未来的累计奖励

B. Q-learning依赖于一个已知的环境模型来预测未来的状态和奖励,因此不适用于无模型强化学习

C. Q-learning只能用于离散的状态空间,不适合连续状态或动作的场景

D. Q-learning的主要优点是收敛速度快,能够在短时间内找到最优策略

undefined课程封面

学科:

时间:2025-03-22 05:34:35

Copyright © 2022 津ICP备2021001502号