题海让大学四年没有难题
白天模式登陆

题目详情

单选题 阿尔法狗在 "左右互博" 的强化学习过程中,主要通过()来调整自身的落子策略

A. 人类专家的手动修正

B. 对弈结果的胜负反馈

C. 随机生成的落子建议

D. 固定的规则模板

默认课程课程封面

学科:默认课程

时间:2025-12-21 22:28:50

Copyright © 2022 津ICP备2021001502号