题海让大学四年没有难题
白天模式登陆

题目详情

单选题 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )

A. 价值函数计算与动作-价值函数计算

B. 动态规划与Q-Learning

C. 贪心策略优化与Q-learning

D. 策略优化与策略评估

[智慧共享课]人工智能引论课程封面

学科:[智慧共享课]人工智能引论

时间:2024-05-09 00:56:22

Copyright © 2022 津ICP备2021001502号