国内首个可复现的RLHF基准，北大团队开源 PKU-Beaver（1）

机器之心 | 2023-05-20 16:57:01 阅读：2327

如今，大语言模型如 ChatGPT 已在人们的生产生活中产生广泛影响。作为训练大语言模型的关键步骤，RLHF（Reinforcement Learning from Human Feedback）是一种利用强化学习方法从人类反馈中学习的技术。借助 RLHF 技术，大语言模型可与人类偏好保持对齐并遵循人类意图，满足 “有帮助的”、“诚实的” 和 “无害的” 的 3H（Helpful, Honest, Harmless）标准。然而，当前开源社区中复现 RLHF 技术仍具有较大挑战性，相关研究逐渐走向封闭。尚未有团队公开复现 RLHF 所需的数据、代码基准和验证流程，这极大地阻碍了 RLHF 科研的发展。

另一方面，尽管大语言模型的巨大成功得益于 RLHF 技术，但同时也面临着该技术带来的诸多问题。在 RLHF 中，标注员对大语言模型产生的回答进行偏好性打分，通过这些打分形成的偏序关系来训练模型。然而，由于人们的价值观、世界观存在差异，以及每个人所处地域文化、语言、习俗的不同，这些差异在标注过程中可能产生偏见和歧视性数据，导致目前依赖 RLHF 技术取得巨大成功的大语言模型也存在潜在的不安全问题。

为解决上述两个难题，北京大学团队开源了名为 PKU-Beaver（河狸）项目，其开源地址为：https://github.com/PKU-Alignment/safe-rlhf。

该项目首次公开了 RLHF 所需的数据集、训练和验证代码，是目前首个开源的可复现的 RLHF 基准。同时，为解决人类标注产生的偏见和歧视等不安全因素，北京大学团队首次提出了带有约束的价值对齐技术 CVA（Constrained Value Alignment）。该技术通过对标注信息进行细粒度划分，并结合带约束的安全强化学习方法，显著降低了模型的偏见和歧视，提高了模型的安全性。Beaver 使用 GPT4 进行 Evaluation，结果表明，在原有性能保持不变的情况下，Beaver 回复的安全性大幅度提升。

Why “Beaver”

河狸被誉为 “自然界的水坝工程师”，它们善于利用树枝、灌木、石头、泥土等材料修建水坝和小木屋，创造出适宜其他生物居住的湿地环境，成为生态系统中不可或缺的一环。为了保障大语言模型（LLM）的安全性和可靠性，同时适应不同人群广泛的价值观，北京大学团队将本次开源的模型命名为 Beaver（河狸），旨在通过约束的价值对齐技术 CVA 为 LLM 筑起一道堤坝。这一技术可以对标注信息进行细粒度划分，并结合安全强化学习的方法，显著减少模型的偏见和歧视，从而提高模型的安全性。类比河狸在生态系统中的作用，Beaver 模型将为大语言模型的发展提供重要的保障，为人工智能技术的可持续发展做出积极贡献。

本次开源的内容包括：

一、数据集与模型：PKU-SafeRLHF

1. 开源迄今为止最大的多轮 RLHF 数据集，规模达到 100 万条。

2. 开源经 Safe-RLHF 对齐训练得到的 7B 参数的语言模型 ——Beaver，并支持在线部署。

3. 开源了预训练的 Reward Model 和 Cost Model 的模型和参数。

二、首个可复现的 RLHF 基准，PKU-Alignment/safe-rlhf 支持以下功能：

1. 支持 LLM 模型的 SFT（Supervised Fine-Tuning）、RLHF 训练、Safe RLHF 训练。支持目前主流的预训练模型如 LLaMA、OPT 等模型的训练。

2. 支持 Reward Model 和 Cost Model 训练。

3. 提供安全约束满足的多尺度验证方式，支持 BIG-bench、GPT-4 Evaluation 等。

4. 支持参数定制化的 RLHF 和数据集定制接口。

SafeRLHF 与 DeepSpeed-Chat、trlX 等框架的比较

与 DeepSpeed-Chat、trlX 等框架相比，SafeRLHF 是国内首个可复现的 RLHF 基准。自 LLaMA 模型开源以来，开源社区涌现出许多大型开源模型。然而，由于缺乏高质量人类偏好数据集和强化学习（RL）领域积累不足等限制，大部分机构开源的大型模型通常仅限于监督微调（SFT）阶段，很少尝试运用 RLHF 技术。Safe-RLHF 不仅提供高质量代码库，还额外公开了 RLHF 所需的多轮数据，旨在帮助高校和企业充分研究 RLHF 技术。此外，Safe-RLHF 将安全强化学习（Safe RL）技术引入 RLHF 训练中，为大型模型的训练和对齐提供了新的研究范式。

Safe RLHF vs. RLAIF (Constitutional AI、Self-Align)

目前，实现对齐技术的方法主要有以下三种：

1. 在 LLM 预训练阶段，通过人工筛选和数据清洗，获取更高质量的数据。

2. 在微调（SFT 和 RLHF）阶段，增加更加多元且无害的用户指令和人类偏好模型进行对齐。

3. 在输出阶段使用奖励模型进行 reject sampling，提高输出质量和安全性。或者在上线的产品中，直接基于一定规则进行检测，拒绝回应用户的输入。

然而，这些方法各自存在一些缺陷。第一种方法只能解决部分安全问题，需要大量人力和财力来获得高质量的数据。第二种方法，由于人们的价值观存在差异和普遍存在的歧视和偏见，RLHF 后的大型语言模型仍存在歧视和偏见问题。第三种方法虽然可以确保模型输出的安全性，但也可能影响模型的帮助性。例如，严格的过滤机制可能会影响用户获得有用或有价值的答案。

因此，引入安全约束并引导 LLM 更符合道德和法律的价值观，是更可靠的方式。然而，这需要我们克服现有技术和方法的局限性，并在 RLHF 中结合多种技术和方法，以实现更加全面的安全性约束。目前还有另一种技术路线被提及，即引入 AI 标注来替代 RLHF 步骤中的人类标注，即 RLAIF。例如 GPT-4 使用的基于规则的奖励模型 (RBRM) 和利用 AI 进行指正和修改生成内容的 “Constitutional AI”(Bai et al., 2022)。然而，从作者的角度来看，这个方法有很多限制和缺点，原因有三个方面。

首先，当前即使最先进的大语言模型，例如 GPT-4 也不能完全避免歧视、偏见的不安全的输出。并且在不同的地域文化、风土人情的差异以及一些少数群体的敏感问题中，大型语言模型也未必拥有足够的认识。事实上，在实验过程中，笔者发现 AI 打分模型会偏好大预言模型的输出而非人类的回答，这为 RLAIF 技术的可行性带来了很大的挑战。

其次，现有公开较强的可访问的大语言模型在安全对其之后，会经常拒绝用户关于可能导致不安全内容的讨论，这些 AI 模型无法对安全类型问题的标准提供有效帮助。

再者，人类偏好是一个相当模糊的概念，很难用语言精确描述，例如如何定义 “冒犯” 等。使用 AI 进行标注，非常重要的一点是需要模型具有非常强大的逻辑推理能力。目前基于模型自标注自对齐的方法一般需要模型根据上下文，基于精心设计的规则提示词外加思维链 (CoT, Chain-of-Thought) 技术引导推理得出标注结果。就目前大模型发展现状来看，无论是开源还是闭源的大语言模型，它们还无法完成稍微复杂一些的逻辑推理问题。这一重要挑战仍待解决。

综上，作者认为 AI 的自标注自对齐以及反思等机制可以作为人类数据增广的有效方式，是 RLHF 的有机补充。但如果只用 AI 生成的数据，可能导致会逐渐偏离人类社会的价值观，可能带来潜在的危险后果。

带有约束的价值对齐技术

约束价值对齐技术的目标是将强化学习（RL）智能体的意图与安全行为模式对齐，这类似于安全强化学习（Safe RL）。智能体通过从环境中获得反馈来学习寻找最优策略，同时满足最小化意外伤害或不安全行为的风险要求。在 RLHF 阶段，考虑将涉及偏见、歧视、隐私等有害或不诚实的方面设计成代价函数，同时将模型回答的质量抽象成奖励函数。此外，还可以更细致地划分人类标注数据，以将大型语言模型对齐到符合道德和法律约束的价值观中。用更简洁的数学描述，基于人类反馈的强化学习，其目标是奖励最大化，

而约束价值对齐技术中则是带约束的奖励最大化，即旨在满足约束的前提下进行奖励优化：

其中 R(·) 和 C(·) 分别是奖励和代价函数，它们可以是一些基于规则的函数或神经网络等。它们被认为是人类偏好的代理，其一般由人类偏好数据集训练得来。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。