题目详情
单选题 下列关于强化学习的说法不正确的是()
A. 强化学习被广泛应用在自动驾驶、电子竞技和AI游戏中
B. 强化学习中的Agent有明确的目标用于指导自己的行为
C. Policy based的强化学习类型要明显优于Value based和Action based的方法
D. Agent的模型参数是根据环境的反馈来更新
学科:默认课程
时间:2026-03-21 23:32:32
相关题目
相关作业