![大模型应用开发:核心技术与领域实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/622/53287622/b_53287622.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.3 选择错误目标
在选择目标时,人们可能无意中或出于恶意选择了错误的方向。要从人群中挑选出具有代表性并能提供高质量反馈的个体是困难的。实施大规模RLHF(基于人类反馈的强化学习)时,需要精心挑选和指导参与的人类评估者,但这可能导致样本偏差问题。
研究指出,在应用RLHF后,大模型在政治倾向上会系统性地偏离中立。尽管这种偏见的确切原因尚不清楚,但数据收集过程表明评估者的选择与研究员的判断相一致,这暗示了在偏好数据收集过程中存在明显的选择效应。不同大模型所招募的评估者的构成与一般人口结构存在差异。例如,OpenAI报告其初始的评估者群体中约50%来自菲律宾和孟加拉国,年龄为25~34岁,而Anthropic则称其评估者中有68%为白人。这些评估者的人口统计特征可能会带来难以预测的潜在偏见,进而在模型训练过程中被放大。
一些评估者会持有有害的偏见和观点。由于人类的看法并非总是理想化和道德化的,这个问题可能会因RLHF训练的大模型引入了评估者的偏见而进一步恶化。通常通过与人类互动来收集反馈,如果评估者试图破坏模型,可能会带来严重后果。同时,研究已经表明,使用少量示例对指令进行“投毒”的攻击是能够成功的。