直接压缩一切！OpenAI首席科学家Ilya Sutskever这么看无监督学习（3）

机器之心 | 2023-08-20 18:17:05 阅读：612

直接压缩一切！

Sutskever 又进一步提到「直接压缩一切」也是可行的。

条件 Kolmogorov 复杂度 K (Y|X) 在机器学习语境中是不自然的，因为它是基于 X 来压缩 Y，而至少就目前而言，以大型数据集为条件还是基本无法办到的。我们可以拟合大型数据集，但很难以其为条件。

而上式是表示：如果你想要对你监督的东西 Y 进行预测，使用压缩 X 和 Y 连接数据的常规 Kolmogorov 压缩器的表现与条件压缩器一样好。当然实际细节还有更多微妙之处，但这其实就是表示我们可以使用常规 Kolmogorov 压缩器来求解无监督学习 —— 就是将你的所有数据连接起来，然后执行压缩，这样就能在你关心的监督任务上得到很好的结果。

对此的证明要更复杂一些，这里就不再继续深入了。

重点的结论是常规 Kolmogorov 压缩（无需以某个数据集为条件）是「以最好的可能方式使用」无标注数据。这就是无监督学习的解。

联合压缩就是最大似然

Sutskever 在演讲中谈到的最后一点是：这种联合压缩就是最大似然，只要没有过拟合。

如果你有一个数据集，那么给定参数的似然之和就是压缩该数据集的成本。你还需要支付压缩参数的成本。而如果你想压缩两个数据集，也没有问题，只需向你的数据集添加数据点即可，也就是向上面的求和运算 sum 添加更多项。

所以通过连接数据来进行联合压缩在机器学习语境中是非常自然的做法。相比而言，通过条件 Kolmogorov 复杂度就麻烦多了。

我们甚至可以将其用于解释神经网络的工作方式。我们可以将用于大型神经网络的 SGD 用作我们的大型程序搜索器。神经网络越大，就能更好地近似常规 Kolmogorov 压缩器。Sutskever 评价说：「也许这就是我们喜欢大型神经网络的原因，因为我们可以以此近似不可实现的无遗憾常规 Kolmogorov 压缩器思想。随着我们训练的神经网络越来越大，遗憾会越来越低。」

此理论也适用于 GPT 模型吗？

Sutskever 对此的答案是肯定的，不过解释 GPT 模型的行为时，无需引述有关压缩或监督学习的说明，你可以说 GPT 的「理论」可以通过对文本的条件分布进行推理而得到。

那么，我们能找到其它的直接验证方法来验证这一理论吗？我们能用视觉等其它领域来解释吗？如果我们在像素数据上这样操作，我们能得到优良的无监督学习吗？

Sutskever 表示他们已经在 2020 年做过这样的研究，即 iGPT。当然，这主要是一个验证概念的研究，离实践应用还有很大距离，详见论文《Generative Pretraining from Pixels》。

该论文表明：如果你能做出很棒的下一步预测器，那么就能收获很棒的无监督学习效果。这篇论文在图像领域证明了该论断。

简单来说，先将图片转换成像素序列，每个像素都有一个离散的密度值。要做的就是使用同样的 Transformer 来预测下一个像素。这不同于 BERT，就是预测下一个 token，因为这是最大化压缩的似然。

下面来看看结果：

如图所示，这是不同大小的 iGPT 模型在 CIFAR-10 上的线性探查准确度，也就是在无监督学习的像素预测任务上的下一步预测准确度。可以看出，预测下一个像素就和预测下一个词一样有效。当模型规模更大时，无监督学习的效果也更好。

他们进行了实验研究，结果发现在 ImageNet 上，经过多方面扩展的 iGPT 的表现可以接近当今最佳的监督学习，但依然还有些差距。

不过 Sutskever 认为这就是个计算问题，因为 SimCLR 等监督学习方式使用的是高分辨率的大图，他们为巨型 Transformer（68 亿参数）提供的是 64×64 的小图。这就像是基于一个大型数据集以无监督的方式预测下一个像素，然后在 ImageNet 上拟合线性探针，得到很好的结果。

而在 CIFAR-10 上，有 13.6 亿参数的 iGPT-L 取得了准确度 99% 的好成绩，如下图所示。

线性表征

演讲最后，Sutskever 表示他想谈谈线性表征。

他说：「我喜欢压缩理论，因为在此之前还没有以严格方式思考无监督学习的方法。」而现在我们能在一定程度上做到这一点了。但压缩理论不能直接解释为什么表征是线性可分的，也无法解释应该有线性探针。线性表征是无处不在的，它们形成的原因必定很深刻。Sutskever 相信我们能在未来清晰地阐释它。

他觉得另一个有趣的地方是自回归模型在线性表征方面的表现优于 BERT。但目前人们还不清楚其中的缘由。

不过 Sutskever 倒是给出了自己的推测：在根据之前所有的像素预测下一个像素时，模型需要观察数据的长程结构。BERT 在处理向量时会丢弃一些像素 token，通过兼顾地考虑一点过去和一点未来，模型实际上能得到相当好的预测结果。这样一来就去除了所有困难任务，任务的难度就下降了很多。预测下一个像素中最困难的预测任务比 BERT 预测情况中最困难的预测任务难多了。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。