题目详情
单选题 如果某一"状态-动作对"(s,a)的Q值为负,说明( )
A. 该动作在状态s下必然导致失败
B. 执行该动作后,长期累积奖励的期望为负
C. 环境对该动作的即时奖励一定为负
D. 该状态s下没有任何有价值的动作
学科:默认课程
时间:2025-12-11 12:06:51
相关题目
相关作业