[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fBQSxN_LyNBhXKC4Hb370NK6pSWXUSV3W0ukiNE_0Cjo":3},{"answer":4,"createTime":5,"id":6,"options":7,"origin":12,"question":19,"related":20,"source":24,"type":25},[],"2023-11-27 12:03:57",108986318,[8,9,10,11],"支持向量机","决策树","神经网络","线性回归",{"count":13,"courseId":14,"courseImg":15,"courseName":16,"workId":17,"workName":18},12,"306d47969b59e6f36470c235ae597dac","https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F151b1e04e0edd24518d87450e76e122a.jpg","人工智能与信息社会","ae4aef4d7f5a4e9386df663935ef3991","第六章","用于监督分类的算法有()",[21,26,35,45,50,59,68,77,82,91],{"answer":22,"createTime":5,"id":6,"options":23,"question":19,"source":24,"type":25},[],[8,9,10,11],"v1",1,{"answer":27,"createTime":5,"id":28,"options":29,"question":34,"source":24,"type":25},[],108986323,[30,31,32,33],"状态","动作","回报","强化","在强化学习中,主体和环境之间交互的要素有()",{"answer":36,"createTime":37,"id":38,"options":39,"question":43,"source":24,"type":44},[],"2023-11-27 12:03:58",108986325,[40,41,42,11],"监督学习","非监督学习","强化学习","典型的&quot;鸡尾酒会&quot;问题中,提取出不同人说话的声音是属于()",0,{"answer":46,"createTime":37,"id":47,"options":48,"question":49,"source":24,"type":44},[],108986328,[40,41,42,11],"()有跟环境进行交互,从反馈当中进行不断的学习的过程",{"answer":51,"createTime":37,"id":52,"options":53,"question":58,"source":24,"type":44},[],108986330,[54,55,56,57],"状态动作函数","状态值函数","动作值函数","策略函数","在Q-Learning中,所谓的Q函数是指()",{"answer":60,"createTime":37,"id":61,"options":62,"question":67,"source":24,"type":44},[],108986333,[63,64,65,66],"期望值","最大值","最小值","总和","Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()",{"answer":69,"createTime":37,"id":70,"options":71,"question":76,"source":24,"type":44},[],108986337,[72,73,74,75],"大;小","大;大","小;小","小;大","在强化学习的过程中,学习率&alpha;越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()",{"answer":78,"createTime":37,"id":79,"options":80,"question":81,"source":24,"type":44},[],108986339,[72,73,74,75],"在&epsilon;-greedy策略当中,&epsilon;的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()",{"answer":83,"createTime":37,"id":84,"options":85,"question":90,"source":24,"type":44},[],108986342,[86,87,88,89],"探索;开发","开发;探索","探索;输出","开发;输出","在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值",{"answer":92,"createTime":37,"id":93,"options":94,"question":99,"source":24,"type":44},[],108986344,[95,96,97,98],"探索","开发","输入","输出","强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略"]