题海让大学四年没有难题
白天模式登陆

题目详情

单选题 如果某一"状态-动作对"(s,a)的Q值为负,说明( )

A. 该动作在状态s下必然导致失败

B. 执行该动作后,长期累积奖励的期望为负

C. 环境对该动作的即时奖励一定为负

D. 该状态s下没有任何有价值的动作

默认课程课程封面

学科:默认课程

时间:2025-12-11 12:06:51

Copyright © 2022 津ICP备2021001502号