题目详情
单选题 阿尔法狗在 "左右互博" 的强化学习过程中,主要通过()来调整自身的落子策略
A. 人类专家的手动修正
B. 对弈结果的胜负反馈
C. 随机生成的落子建议
D. 固定的规则模板
学科:默认课程
时间:2025-12-21 22:28:50
相关题目
相关作业