题目详情
单选题 在无模型强化学习中,Q-learning是一种重要的算法.关于Q-learning的定义、目标及其应用,以下哪项描述是正确的
A. Q-learning通过估计状态-动作值函数来学习最优策略,目标是最大化未来的累计奖励
B. Q-learning依赖于一个已知的环境模型来预测未来的状态和奖励,因此不适用于无模型强化学习
C. Q-learning只能用于离散的状态空间,不适合连续状态或动作的场景
D. Q-learning的主要优点是收敛速度快,能够在短时间内找到最优策略
学科:
时间:2025-03-22 05:34:35
相关题目
相关作业
