直接压缩一切！OpenAI首席科学家Ilya Sutskever这么看无监督学习（1）

机器之心 | 2023-08-20 18:11:06 阅读：574

近日，OpenAI 首席科学家 Ilya Sutskever 在专注于计算理论研究的 Simons Institute 作了一次讲座，一句话总结就是我们可以通过压缩的视角来看待无监督学习。此外他还分享了不少其它有趣的见解。机器之心整理了该演讲的大体内容，希望借此帮助读者更深入地理解无监督学习。

Sutskever 首先谈到了自己的研究方向的变化，他说：「不久前，我将全部的研究重心都转移到了 AI 对齐研究上。」这说的是 OpenAI 前段时间成立的「Superalignment（超级对齐）」团队，由他与 Jan Leike 共同领导。Sutskever 表示他们已经在 AI 对齐方面取得了一些研究成果，但这并非这次演讲关注的话题。对此感兴趣的读者可参阅《用 AI 对齐 AI？超级对齐团队领导人详解 OpenAI 对齐超级智能四年计划》。

这次演讲的主题为「An observation on Generalization（对泛化的一种观察）」，而 Ilya Sutskever 具体谈论的重点是一种解释无监督学习的理论。

首先，Ilya Sutskever 提出了一连串有关「学习」的广义问题：学习究竟是什么？为什么学习有用？为什么学习应该有用？计算机为什么应该具备学习能力？为什么神经网络可以学习？为什么机器学习模型可以学习到数据的规律？我们能否用数学形式来描述学习？

监督学习

Sutskever 先从监督学习谈起。他表示，监督学习方面已经有了重要的形式化工作，这是多位研究者在多年前得到的成果；这些成果通常被称为统计学习理论。

监督学习的优势在于能提供一个学习必定成功的精确数学条件。也就是说，如果你有一些来自某数据分布的数据，然后你能成功实现较低的训练损失并且你的训练数据足够多（多于数据分布的自由度），那么你的测试误差必定很低。

从数学上讲，如果能在一类函数中找到能实现较低训练损失的函数，那么学习就必定成功。也因此，监督学习非常简单。

研究者在相关研究中已经发现了一些定理，如下便是一例。Sutskever 表示解释这个定理大概需要五分钟，但很显然他的演讲时间有限。

总而言之，这个定理很「优雅」，只用三行数学推导便能证明监督学习过程。

所以相对而言，监督学习已经得到很好的理解。我们知道其必定会成功的原因 —— 只要我们能收集到大规模的监督学习数据集，那么就完全可以相信模型必定越来越好。当然另一点也很重要，也就是保证测试分布和训练分布一致；只有这样，监督学习理论才是有效的。

所以监督学习的概念是很简单的。我们也已经有了监督学习为什么有效的答案 —— 我们知道语音识别和图像分类为什么可以实现，因为它们都基于有效且有数学保证的监督学习。

这里 Ilya Sutskever 顺带提了提 VC 维度。他提到很多统计学习理论的研究者都认为 VC 维度是一大关键组件，但 VC 维度被发明出来的目的是为了让模型有能力处理有无限精度的参数。

举个例子，如果你的线性分类器的每个参数都有无限精度，而现实中的浮点数的精度都是有限的，而且精度会收缩，那么你可以通过 VC 维度实现一些函数，将这个线性分类器归约成前面公式描述的监督学习形式。

无监督学习是什么？

接下来看无监督学习。首先什么是无监督学习？Ilya Sutskever 表示他目前还没看到令人满意的对无监督学习的阐释，我们也不知道如何从数学上推理它 —— 最多只能在直觉上做点推断。

无监督学习是机器学习领域长久以来的梦想。Sutskever 认为这个目标已经在实验研究中达成，即模型在不被告知数据内容的前提下观察数据并发现其中存在的真实有用的隐藏结构。

这是怎么发生的？我们能确保这一定会发生吗？Sutskever 表示我们不能，毕竟我们在无监督学习方面没有在监督学习方面那样的理论保证。

人们早在上世纪 80 年代就在探究无监督学习了，当时使用的术语也是类似。在实验中，人们观察到，当数据量较小时，不会出现无监督学习现象，但是一些现在流行的开发思路已经出现了，比如 BERT、扩散模型、老式的语言模型等。当时的无监督学习也能生成一些很酷的样本，但当然是比不上现在的技术。

但因为我们不知道无监督学习的工作方式，所以它一直都让人困惑。

比如当你针对某个目标（比如图像重建或预测下一个词）进行优化时，你可能也在意另一个目标（比如图像分类或文档分类），而模型可能在这个未经优化的目标上也能取得不错的表现。但为什么会这样呢？不知道，实验结果就是如此。Sutskever 说这就像是魔法。

难道我们就要放弃理论，在实证主义上一路走下去吗？

我们知道无监督学习是学习输入分布中的结构，然后从中获得有助于实现目标的东西。但如果输入分布是均匀分布（uniform distribution）呢？这时候各种无监督学习算法都会失效。我们应该怎么看待这种现象呢？Sutskever 表示我们需要做些假设。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。