"); //-->
如今,大语言模型如 ChatGPT 已在人们的生产生活中产生广泛影响。作为训练大语言模型的关键步骤,RLHF(Reinforcement Learning from Human Feedback)是一种利用强化学习方法从人类反馈中学习的技术。借助 RLHF 技术,大语言模型可与人类偏好保持对齐并遵循人类意图,满足 “有帮助的”、“诚实的” 和 “无害的” 的 3H(Helpful, Honest, Harmless)标准。然而,当前开源社区中复现 RLHF 技术仍具有较大挑战性,相关研究逐渐走向封闭。尚未有团队公开复现 RLHF 所需的数据、代码基准和验证流程,这极大地阻碍了 RLHF 科研的发展。
另一方面,尽管大语言模型的巨大成功得益于 RLHF 技术,但同时也面临着该技术带来的诸多问题。在 RLHF 中,标注员对大语言模型产生的回答进行偏好性打分,通过这些打分形成的偏序关系来训练模型。然而,由于人们的价值观、世界观存在差异,以及每个人所处地域文化、语言、习俗的不同,这些差异在标注过程中可能产生偏见和歧视性数据,导致目前依赖 RLHF 技术取得巨大成功的大语言模型也存在潜在的不安全问题。
为解决上述两个难题,北京大学团队开源了名为 PKU-Beaver(河狸)项目,其开源地址为:https://github.com/PKU-Alignment/safe-rlhf。
该项目首次公开了 RLHF 所需的数据集、训练和验证代码,是目前首个开源的可复现的 RLHF 基准。同时,为解决人类标注产生的偏见和歧视等不安全因素,北京大学团队首次提出了带有约束的价值对齐技术 CVA(Constrained Value Alignment)。该技术通过对标注信息进行细粒度划分,并结合带约束的安全强化学习方法,显著降低了模型的偏见和歧视,提高了模型的安全性。Beaver 使用 GPT4 进行 Evaluation,结果表明,在原有性能保持不变的情况下,Beaver 回复的安全性大幅度提升。
Why “Beaver”
河狸被誉为 “自然界的水坝工程师”,它们善于利用树枝、灌木、石头、泥土等材料修建水坝和小木屋,创造出适宜其他生物居住的湿地环境,成为生态系统中不可或缺的一环。为了保障大语言模型(LLM)的安全性和可靠性,同时适应不同人群广泛的价值观,北京大学团队将本次开源的模型命名为 Beaver(河狸),旨在通过约束的价值对齐技术 CVA 为 LLM 筑起一道堤坝。这一技术可以对标注信息进行细粒度划分,并结合安全强化学习的方法,显著减少模型的偏见和歧视,从而提高模型的安全性。类比河狸在生态系统中的作用,Beaver 模型将为大语言模型的发展提供重要的保障,为人工智能技术的可持续发展做出积极贡献。
本次开源的内容包括:
一、数据集与模型:PKU-SafeRLHF
1. 开源迄今为止最大的多轮 RLHF 数据集,规模达到 100 万条。
2. 开源经 Safe-RLHF 对齐训练得到的 7B 参数的语言模型 ——Beaver,并支持在线部署。
3. 开源了预训练的 Reward Model 和 Cost Model 的模型和参数。
二、首个可复现的 RLHF 基准,PKU-Alignment/safe-rlhf 支持以下功能:
1. 支持 LLM 模型的 SFT(Supervised Fine-Tuning)、RLHF 训练、Safe RLHF 训练。支持目前主流的预训练模型如 LLaMA、OPT 等模型的训练。
2. 支持 Reward Model 和 Cost Model 训练。
3. 提供安全约束满足的多尺度验证方式,支持 BIG-bench、GPT-4 Evaluation 等。
4. 支持参数定制化的 RLHF 和数据集定制接口。
SafeRLHF 与 DeepSpeed-Chat、trlX 等框架的比较
与 DeepSpeed-Chat、trlX 等框架相比,SafeRLHF 是国内首个可复现的 RLHF 基准。自 LLaMA 模型开源以来,开源社区涌现出许多大型开源模型。然而,由于缺乏高质量人类偏好数据集和强化学习(RL)领域积累不足等限制,大部分机构开源的大型模型通常仅限于监督微调(SFT)阶段,很少尝试运用 RLHF 技术。Safe-RLHF 不仅提供高质量代码库,还额外公开了 RLHF 所需的多轮数据,旨在帮助高校和企业充分研究 RLHF 技术。此外,Safe-RLHF 将安全强化学习(Safe RL)技术引入 RLHF 训练中,为大型模型的训练和对齐提供了新的研究范式。
Safe RLHF vs. RLAIF (Constitutional AI、Self-Align)
目前,实现对齐技术的方法主要有以下三种:
1. 在 LLM 预训练阶段,通过人工筛选和数据清洗,获取更高质量的数据。
2. 在微调(SFT 和 RLHF)阶段,增加更加多元且无害的用户指令和人类偏好模型进行对齐。
3. 在输出阶段使用奖励模型进行 reject sampling,提高输出质量和安全性。或者在上线的产品中,直接基于一定规则进行检测,拒绝回应用户的输入。
然而,这些方法各自存在一些缺陷。第一种方法只能解决部分安全问题,需要大量人力和财力来获得高质量的数据。第二种方法,由于人们的价值观存在差异和普遍存在的歧视和偏见,RLHF 后的大型语言模型仍存在歧视和偏见问题。第三种方法虽然可以确保模型输出的安全性,但也可能影响模型的帮助性。例如,严格的过滤机制可能会影响用户获得有用或有价值的答案。
因此,引入安全约束并引导 LLM 更符合道德和法律的价值观,是更可靠的方式。然而,这需要我们克服现有技术和方法的局限性,并在 RLHF 中结合多种技术和方法,以实现更加全面的安全性约束。目前还有另一种技术路线被提及,即引入 AI 标注来替代 RLHF 步骤中的人类标注,即 RLAIF。例如 GPT-4 使用的基于规则的奖励模型 (RBRM) 和利用 AI 进行指正和修改生成内容的 “Constitutional AI”(Bai et al., 2022)。然而,从作者的角度来看,这个方法有很多限制和缺点,原因有三个方面。
首先,当前即使最先进的大语言模型,例如 GPT-4 也不能完全避免歧视、偏见的不安全的输出。并且在不同的地域文化、风土人情的差异以及一些少数群体的敏感问题中,大型语言模型也未必拥有足够的认识。事实上,在实验过程中,笔者发现 AI 打分模型会偏好大预言模型的输出而非人类的回答,这为 RLAIF 技术的可行性带来了很大的挑战。
其次,现有公开较强的可访问的大语言模型在安全对其之后,会经常拒绝用户关于可能导致不安全内容的讨论,这些 AI 模型无法对安全类型问题的标准提供有效帮助。
再者,人类偏好是一个相当模糊的概念,很难用语言精确描述,例如如何定义 “冒犯” 等。使用 AI 进行标注,非常重要的一点是需要模型具有非常强大的逻辑推理能力。目前基于模型自标注自对齐的方法一般需要模型根据上下文,基于精心设计的规则提示词外加思维链 (CoT, Chain-of-Thought) 技术引导推理得出标注结果。就目前大模型发展现状来看,无论是开源还是闭源的大语言模型,它们还无法完成稍微复杂一些的逻辑推理问题。这一重要挑战仍待解决。
综上,作者认为 AI 的自标注自对齐以及反思等机制可以作为人类数据增广的有效方式,是 RLHF 的有机补充。但如果只用 AI 生成的数据,可能导致会逐渐偏离人类社会的价值观,可能带来潜在的危险后果。
带有约束的价值对齐技术
约束价值对齐技术的目标是将强化学习(RL)智能体的意图与安全行为模式对齐,这类似于安全强化学习(Safe RL)。智能体通过从环境中获得反馈来学习寻找最优策略,同时满足最小化意外伤害或不安全行为的风险要求。在 RLHF 阶段,考虑将涉及偏见、歧视、隐私等有害或不诚实的方面设计成代价函数,同时将模型回答的质量抽象成奖励函数。此外,还可以更细致地划分人类标注数据,以将大型语言模型对齐到符合道德和法律约束的价值观中。用更简洁的数学描述,基于人类反馈的强化学习,其目标是奖励最大化,
而约束价值对齐技术中则是带约束的奖励最大化,即旨在满足约束的前提下进行奖励优化:
其中 R(·) 和 C(·) 分别是奖励和代价函数,它们可以是一些基于规则的函数或神经网络等。它们被认为是人类偏好的代理,其一般由人类偏好数据集训练得来。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。