更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了（1）

机器之心 | 2023-07-19 19:35:07 阅读：250

已上微软 Azure，即将要上 AWS、Hugging Face。

一夜之间，大模型格局再次发生巨变。

一直以来 Llama 可以说是 AI 社区内最强大的开源大模型。但因为开源协议问题，一直不可免费商用。

今日，Meta 终于发布了大家期待已久的免费可商用版本 Llama 2。

此次 Meta 发布的 Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还训练了 340 亿参数变体，但并没有发布，只在技术报告中提到了。

据介绍，相比于 Llama 1，Llama 2 的训练数据多了 40%，上下文长度也翻倍，并采用了分组查询注意力机制。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，精调 Chat 模型是在 100 万人类标记数据上训练的。

公布的测评结果显示，Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。

接下来，我们就从 Meta 公布的技术报告中，详细了解下 Llama 2。

论文地址：https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
项目地址：https://github.com/facebookresearch/llama

总的来说，作为一组经过预训练和微调的大语言模型（LLM），Llama 2 模型系列的参数规模从 70 亿到 700 亿不等。其中的 Llama 2-Chat 针对对话用例进行了专门优化。

Llama 2-Chat 的训练 pipeline。

Llama 2 模型系列除了在大多数基准测试中优于开源模型之外，根据 Meta 对有用性和安全性的人工评估，它或许也是闭源模型的合适替代品。

Llama 2-Chat 与其他开源和闭源模型在安全性人类评估上的结果。

Meta 详细介绍了 Llama 2-Chat 的微调和安全改进方法，使社区可以在其工作基础上继续发展，为大语言模型的负责任发展做出贡献。

预训练

为了创建全新的 Llama 2 模型系列，Meta 以 Llama 1 论文中描述的预训练方法为基础，使用了优化的自回归 transformer，并做了一些改变以提升性能。

具体而言，Meta 执行了更稳健的数据清理，更新了混合数据，训练 token 总数增加了 40%，上下文长度翻倍。下表 1 比较了 Llama 2 与 Llama 1 的详细数据。

Llama 2 的训练语料库包含了来自公开可用资源的混合数据，并且不包括 Meta 产品或服务相关的数据。Llama 2 采用了 Llama 1 中的大部分预训练设置和模型架构，包括标准 Transformer 架构、使用 RMSNorm 的预归一化、SwiGLU 激活函数和旋转位置嵌入。

在超参数方面，Meta 使用 AdamW 优化器进行训练，其中 β_1 = 0.9，β_2 = 0.95，eps = 10^−5。同时使用余弦学习率计划（预热 2000 步），并将最终学习率衰减到了峰值学习率的 10%。

下图 5 为这些超参数设置下 Llama 2 的训练损失曲线。

在训练硬件方面，Meta 在其研究超级集群（Research Super Cluster, RSC）以及内部生产集群上对模型进行了预训练。两个集群均使用了 NVIDIA A100。

在预训练的碳足迹方面，Meta 根据以往的研究方法，利用 GPU 设备的功耗估算和碳效率，计算了 Llama 2 模型预训练所产生的碳排放量。

预训练期间 Llama 2 各个模型的碳排放量。

Llama 2 预训练模型评估

Meta 报告了 Llama 1、Llama 2 基础模型、MPT（MosaicML）和 Falcon 等开源模型在标准学术基准上的结果。

下表 3 总结了这些模型在一系列流行基准上的整体性能，结果表明，Llama 2 优于 Llama 1 。

除了开源模型之外，Meta 还将 Llama 2 70B 的结果与闭源模型进行了比较，结果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5，但在编码基准上存在显著差距。

此外，在几乎所有基准上，Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好，不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。