训练开销骤减，10%成本定制专属类GPT-4多模态大模型（2）

机器之心 | 2023-05-20 16:47:49 阅读：270

三、实验结果

3.1 加速比

表 1：我们的 VPGTrans 的相比于从头训练在各个数据集的加速比
如表 1 所示，我们测试了在不同迁移类型下，VPGTrans 在不同数据集上的加速比。VPGTrans 在某指定数据集 A 上的加速比是通过从头训练达到 A 上最佳效果 a 的轮数除以 VPGTrans 在 A 上效果超过 a 的最小训练轮数得到。比如，从头在 OPT-2.7B 上训练 VPG，在 COCO caption 达到最佳效果需要 10 个 epoch，但从 OPT-125M 迁移 VPG 到 OPT-2.7B，仅需 1 个 epoch 就能达到该最佳效果。则加速比为 10/1=10 倍。我们可以看到，无论是在 TaS 还是在 TaT 场景下，我们的 VPGTrans 都可以实现稳定的加速。
3.2 有趣的发现
我们选取了一个比较有趣的发现进行了说明，其他更多更有意思的发现请参照我们的论文。
TaS 场景下，越小的语言模型上训练的 VPG，迁移起来效率越高，最后模型效果越好。参考表 1，我们可以发现 OPT-1.3B 到 OPT-2.7B 的加速比要远小于 OPT-125M、OPT-350M 到 OPT-2.7b 的加速比。我们尝试提供了一个解释：一般越大的语言模型，由于其文本空间的维度更高，会更容易损害 VPG (VPG 一般都是类似于 CLIP 的预训练模型) 本身的视觉感知能力。我们通过类似于 linear probing 的方式进行了验证：

图８：仅训练 linear projector 层的跨 LLM 大小迁移 (模拟 linear probing)
如图 8 所示，我们进行了 OPT-125M，350M，1.3B，2.7B 之间的跨 LLM 大小的迁移。在实验中，为了公平对比不同模型大小下训练过的 VPG 的视觉感知能力，我们固定住 VPG 的参数仅仅训练 linear projector 层。我们选取了 COCO Caption 上的 SPICE 指标作为视觉感知能力的衡量手段。不难发现，对于每一个给定的，几乎都符合 越小，最终 SPICE 越高的一个现象。
3.3 大规模实验
前文实验主要是在小规模场景下验证猜想。为了证明我们方法的有效性，我们模拟 BLIP-2 的预训练过程进行了大规模实验：

表 2：真实场景下的大规模实验结果
如表 2 所示，我们的 VPGTrans 在大规模场景下依然有效。通过 OPT-2.7B 到 OPT-6.7B 的迁移，我们仅用 10.8% 的数据和不到 10% 的训练时长达到了相似或更优的效果。尤其是，我们的方法在 BLIP-2 以 FlanT5XXL 为基座 LLM 下实现了 5% 左右的训练成本控制。
四、定制自己的 VL-LLMs
我们的 VPGTrans 可以快速为任意新的 LLMs 添加视觉感知模块，从而得到一个全新的高质量 VL-LLM。在本工作，我们额外训练了一个 VL-LLaMA 和一个 VL-Vicuna。其中 VL-LLaMA 的效果如下:

表３：VL-LLaMA 的效果展示
同时，我们的 VL-Vicuna 可以进行多模态对话。我们和 MiniGPT-4 进行了简单的比较:

五、总结
在这项工作中，我们对 VPG 在 LLM 之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。基于关键观察，我们提出了一种新颖的两阶段迁移框架，即 VPGTrans。它可以在显著降低训练成本的同时，实现相当或更好的性能。通过 VPGTrans，我们实现了从 BLIP-2 OPT-2.7B 到 BLIP-2 OPT-6.7B 的 VPG 迁移。相较于从零开始连接 VPG 到 OPT 6.7B，VPGTrans 仅需 10.7% 训练数据和不到 10% 的训练时长。此外，我们展示并讨论了一系列有趣发现及其背后的可能原因。最后，我们通过训练 VL-LLaMA 和 LL-Vicuna，展示了我们的 VPGTrans 在定制新的 VL-LLM 方面的实际价值。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。