题目详情
单选题 Q-learning的一个推广假设MDP问题的状态空间为S,动作空间为A,奖励函数为R(s, a, s'),衰减因子为
.我们的最终目标是学习一种机器人可以在现实世界中使用的策略.然而我们只能获得模拟软件的数据而非真实机器人的数据.该模拟软件是根据转移模型
建立的,该模型与真实机器人转移模型
不同.在不改变仿真模拟软件的情况下,我们希望使用从模拟器中提取的样本来学习我们的真实机器人的q值.Q-learning的更新公式可以写为:
假设样本是从仿真模拟软件中抽取,则可以学到真实世界Q值得q值更新函数为:( )
![[共享课]人工智能课程封面](https://tihai-oss-cloud.itihey.com/img/cf3bb414b5ea2367f316b2d3561124c7.jpg)
学科:[共享课]人工智能
时间:2024-11-25 00:25:44
