登陆

题目详情

单选题在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )

A. 价值函数计算与动作-价值函数计算

B. 动态规划与Q-Learning

C. 贪心策略优化与Q-learning

D. 策略优化与策略评估

[智慧共享课]人工智能引论课程封面

学科：[智慧共享课]人工智能引论

时间：2024-05-09 00:56:22

下载题海APP

拍照搜题更快捷

海量题库
无搜索限制
快捷拍照搜题

扫描他！然后带走我～