教科书级数据is all you need：1.3B小模型逆袭大模型的秘密（2）

机器之心 | 2023-06-23 15:11:43 阅读：262

在 CodeExercises 上微调后模型能力的峰值

如下图 2.1 所示，该研究发现模型在 HumanEval 基准上的最大改进来自于在小型 CodeExercises 数据集（<200M token）上的微调。CodeExercises 仅包含使用基本 Python 库的简短 Python 任务。

该研究表明，微调后的模型在执行微调数据集中没有的任务上也表现出显著的性能改进。
微调提升了模型的理解能力
该研究仅使用简单的 Python 函数就观察到，微调后的模型对指令的理解和遵循程度要高得多。例如，phi-1-base 很难处理 prompt 中的逻辑关系，而 phi-1 可以正确解释问题并生成答案。

微调提升了模型使用外部库的能力
该研究发现在 CodeExercises 上的微调意外地提高了模型使用 Pygame 和 Tkinter 等外部库的能力，尽管微调中不包含这些库。这表明微调不仅改进了目标任务，还使不相关的任务更容易从预训练中蒸馏（distill）出来。

LLM 分级中非常规问题的评估
如下表 1 所示，phi-1 在 HumanEval 基准上取得了令人惊讶的良好性能。但一个潜在问题是，phi-1 优越的性能可能来源于 CodeExercises 数据集的「污染」。

为了最大限度地减少 bias 和数据泄露（data leakage），该研究在没有访问 CodeExercises 数据集的情况下创建了新的评估问题。具体来说，该研究以 HumanEval 的格式创建了 50 个新问题，并附有设计说明，这些问题不太可能出现在现实世界的代码库或编码练习中。例如：

下表 2 显示了 phi-1 和一些模型的比较结果：

数据修剪及性能评估
如上图 2.1 所示，在 CodeExercises 上的训练显著提升了模型在 HumanEval 基准上的性能。为了研究这种提升，该研究通过移除与 HumanEval「相似」的文件来修剪 CodeExercises 数据集。这个过程可以被视为数据净化的「强力形式」。
然后，该研究在修剪过的数据上重新训练模型，模型在 HumanEval 基准上仍然表现出强大的性能。特别是，即使在修剪超过 40% 的情况下，重新训练的 phi-1 仍然优于 StarCoder。

感兴趣的读者可以阅读论文原文，了解更多研究细节。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。