题目详情
单选题 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )
A. 价值函数计算与动作-价值函数计算
B. 动态规划与Q-Learning
C. 贪心策略优化与Q-learning
D. 策略优化与策略评估
学科:[智慧共享课]人工智能引论
时间:2024-05-09 00:56:22
相关题目
相关作业