题目详情
单选题 大语言模型训练流程中,主要目标是"对齐人类偏好与价值观"的阶段是?( )
A. 预训练 (Pre-training)
B. 有监督微调 (SFT)
C. 基于人类反馈的强化学习 (RLHF)
D. 数据清洗
学科:
时间:2026-01-12 14:14:15
相关题目