图灵奖得主杨立昆：大模型非AI终极答案，未来革命需新突破

图片[1]-图灵奖得主杨立昆：大模型非AI终极答案，未来革命需新突破
在昨天哥伦比亚大学最新一期的AI讲座上，Meta首席科学家Yann LeCun（杨立昆）分享了他对人工智能未来的深刻见解。作为深度学习领域的先驱者和2018年图灵奖得主，LeCun的观点引发了广泛关注。

这位法国计算机科学家的学术之路充满传奇。从1987年在索邦大学提出开创性的反向传播算法，到1989年在贝尔实验室开发出轰动业界的笔迹识别系统，再到在AI”寒冬”期间坚守阵地、深耕卷积神经网络（CNN）技术，LeCun最终见证了2012年深度学习的爆发性革命，并于2018年与Geoffrey Hinton和Yoshua Bengio一起摘得图灵奖的至高荣誉。

然而，对于当前备受追捧的大语言模型（LLM），这位Meta首席科学家却持谨慎态度。他直言不讳地表示，LLM并非下一代AI革命的关键，也无法帮助系统真正理解物理世界。在他看来，虽然各大公司正在投入大量资源研发LLM，但这项技术的主导地位可能仅能维持三到五年。未来，LLM或将成为更复杂系统中的一个组件，而非主流架构。对于年轻研究者，LeCun给出了富有远见的建议。他指出，分层规划（hierarchical planning）领域仍有诸多待解难题，这将是极具潜力的博士研究方向。同时，基于能量的模型（energy-based models）在理论基础方面也存在大量亟待突破的问题。

展望接下来几年，LeCun描绘了一幅令人期待的蓝图：开发出具备人类水平智能的虚拟助手。这种助手不仅能够协助我们处理日常事务，更将成为我们的导师和教授，帮助放大人类的智慧潜能。正如15世纪的印刷机为人类带来了知识传播的革命，这种新一代AI助手也将掀起一场认知革命，开启人类智慧增强的新纪元。

演讲文稿

非常感谢您的精彩介绍。

很高兴来到这里演讲，这次的演讲让我不用坐飞机，挺不错的（笑）。不过如果你去问住在市中心的人，他们大多数都很少走出23街，所以来这儿对他们来说也是件特别的事。说到这儿，我一直努力想摆脱我的法国口音，已经努力了三年半了。不过我最近了解到，如果你说带有法国口音的英语，人们会自动认为你聪明20分（笑）。所以，也许我应该保持法国口音，可能会显得更聪明点。

一、高级机器智能

当然，真正应该显得智能的是机器。如今，许多人已经赋予了这些机器超乎实际的智能，甚至给它们打上了“智商”的标签，不管这是什么意思。但实际上，机器还远没有达到我们所认为的那种“智能”。距离制造出具有像人类一样的智能，甚至是超越人类的智能，还有很长的路要走。我们还没有达到“人类水平的智能”，也就是有些人称之为的AGI（通用人工智能）。其实，我不太喜欢“AGI”这个词，我一直在试图反对它的使用。

原因并不是说机器永远不可能达到人类的智能，当然有可能，未来某一天，我们会拥有像人类一样聪明的机器，甚至会超过人类的智能。但问题是，我们人类的智能并不是真的“通用”的。我们总是认为自己很聪明，因为我们能理解的问题都是我们能够解决的，但其实还有许多我们根本无法想象的问题。人类的智能是有限的、专门化的，所以把“通用”这个词用在我们身上并不准确。

因此，我更喜欢“人类水平的智能”这个词。我们在Meta内部也采用了AMI这个术语，意思是“高级机器智能”（Advanced Machine Intelligence），这个词还有点特别，它在法语中是“朋友”（Ami）的意思。

那么，如何才能让机器达到人类水平的智能呢？机器需要具备一些基本能力，比如学习、记忆、理解物理世界、拥有常识、能够规划和推理，行为合适，不会变得不守规矩或危险。

二、理解世界的AI系统

第一个问题是，我们为什么要构建智能？智能是一个巨大的科学问题，验证我们对智能的任何理论的最佳方式就是去真正构建一个能够实现这些理论的机器，这是一种非常工程化的科学方法。

另一个原因是，我们需要人类水平的智能来增强人类的能力。未来有一天，我们每个人都将拥有一个AI助手，随时为我们解答问题，帮助我们解决日常生活中的难题。这将会极大地放大人类的智慧，就像印刷术在15世纪极大地扩展了人类知识一样。

事实上，我现在戴着一副智能眼镜，我可以让它拍照，或者问它问题。虽然它们现在还很“笨”，但已经很有用了。未来的10到20年内，这些系统会变得非常聪明，并会在我们的日常生活中帮助我们。因此，我们需要这些系统达到人类水平的智能，因为这是让它们不会让我们感到沮丧的最佳方式。机器需要理解物理世界。当前的AI系统对物理世界的理解甚至还不如家猫。我们需要具有持久记忆、能规划复杂行动序列、能推理，并且是可控、安全的AI系统。要做到这一点，我们需要一些全新的原则，而不仅仅是通过像现在这样的神经网络进行微调。

现有的AI系统通过一系列神经网络层来进行推理，但这非常有限。通过优化系统的输入和输出兼容性，才能实现更强大的推理能力。事实上，任何计算问题都可以简化为优化问题。未来的AI系统将基于这种优化推理的原则，而不仅仅是简单的前馈传播。这种基于能量的模型，可以用来解释输入和输出之间的兼容性。如果输入和输出兼容，系统会给出低能量值，反之则是高能量值。

当前的AI热潮集中在大型语言模型（LLM）上，这些模型通过大量的文本数据训练，预测下一个词语，基本上就是自回归的预测方式。这些系统在一定程度上模拟了系统一（System 1）思维，即通过简单的模式进行反应，但无法像系统二（System 2）那样进行复杂的推理或规划。很多人认为，只要让现有的AI模型更大，使用更多的数据进行训练，就能达到人类的智能。但我认为这是非常错误的。这些方法不会让我们实现真正的智能行为，真正的智能需要的是能够规划、推理，并且能理解世界的AI系统。

如果我移动讲台上的盒子，改变的只是这些小细节，但除此之外，其他的就没太大变化了。因此，认为我们的感知能让我们对世界有完整理解的想法是错误的。我们需要将感知与记忆结合在一起，才能形成对当前世界状态的概念。

三、打造“世界模型”

接下来，我们要将这种感知和记忆提供给一个“世界模型”。你们在我接下来的演讲中会听到很多这个词。这个“世界模型”的作用是预测一系列行动的结果。这些行动可以是你自己计划采取的，也可以是其他人或代理者的行动，甚至是某些将要发生的事件。

举个例子，如果我拿起这个水瓶，把它放在我的头上，然后抬起手指，你可以预测接下来会发生什么。瓶子会掉下来，对吧？它可能会掉到左边，也可能掉到右边。你可能无法确切预测它会往哪边倒，因为我在平衡它，但你可以确定它会倒下。这是你大脑中的一个直观物理模型，即便这个情境看起来很简单，背后的计算却很复杂。

这个“世界模型”帮助我们进行规划。通过它，我们可以让机器设定一个任务目标，评估是否达成了某些条件。同时，我们还可以设定一些“护栏目标”，确保在执行任务时不会发生意外，比如保证没人会受伤。这些条件像是一个个“成本函数”，我们会优化它们，让任务顺利完成。

你可能会问，这些规划操作是否需要多个“世界模型”？其实不需要。例如，如果我要将瓶子从这里移动到那里，再移到另一个地方，这只是两次动作的序列。我们可以使用同一个“世界模型”，只不过应用了多次。通过这种方式，我们可以优化一系列动作来达到任务目标。这种方法在控制领域很常见，叫做“模型预测控制”。自1960年代初以来，这种技术就被用于运动规划，比如机器人、火箭轨迹等领域。

与传统方法的不同之处在于，我们的“世界模型”是通过学习得到的，而不是通过一堆手写的方程式。这些模型会通过数据进行训练。当然，这里有两个难题。首先，我们无法比现实时间运行得更快，这是一个限制。其次，世界并不是确定性的。即使物理学家告诉我们世界是确定的，但我们也无法完全预测，因为我们无法获取世界的所有信息。

为了处理不确定性，我们引入了“潜在变量”，这些变量是我们不知道其值的。每次给“世界模型”输入不同的潜在变量时，模型会给出不同的预测结果。这样，我们就能处理不确定的情况。

人类和动物也是这样规划的。我们会进行“分层规划”，也就是我们会在不同的抽象层次上去理解和规划世界的状态。举个简单的例子，假设我现在坐在纽约大学的办公室里，想明天去巴黎。在一个非常抽象的层面上，我可以计划，今天晚上去机场，乘飞机，明天早上到巴黎。这个计划很简单，但我不需要预测每一个细节。我只需要知道大致步骤：去机场，然后上飞机。现在我有一个子目标：如何前往机场？在纽约，我需要先去街上打出租车。那么，怎么去街上呢？我需要先走到电梯那里，按下电梯按钮，走出大楼。那么，如何走到电梯呢？我需要从椅子上站起来，拿好包，打开门，关上门，然后避开周围的障碍物，走向电梯，按下按钮。

那么，如何从椅子上站起来呢？这个动作属于一个更低层次的行为，而用语言来描述如何站起来是很困难的，因为这些细微的动作是嵌在我们身体记忆中的。你无法向别人详细解释你是如何从椅子上站起来的，这是一种对物理世界的感知和理解。而这是目前大型语言模型（LLM）所无法做到的，它们只处理语言，没有关于物理世界的感知，因此容易犯一些非常基础的错误，显得“很蠢”。这就是为什么我会说，你家的猫在某些方面比最聪明的LLM还聪明。猫虽然没有LLM那种丰富的抽象知识，但在理解世界和规划行动方面，它们做得非常好。它们也有能力进行分层规划。而这一点正是我们在未来的人工智能系统中需要实现的。

我们需要建立一个可以在不同抽象层次上运作的“世界模型”。这种模型会帮助AI处理从高层次的目标到低层次的具体行动的转换，如何训练这种模型目前还不是很明确。这引出了一个被称为“目标驱动型AI系统”的概念。我两年半前写了一篇关于这一构想的愿景论文，并在网上公开了它。这篇论文介绍了一个“认知架构”，其中包含了各种组件，比如感知模块（用于估计世界状态）、记忆模块、世界模型、成本模块（用于定义任务目标或限制条件），以及执行优化的“行动者”（actor）。

在这种架构中，行动者的任务是找到一系列最佳行动，来实现设定的目标。这些目标由系统的“配置器模块”动态设定，它根据当前的情况不断调整目标。

通过这种架构，我们可以开发出理解物理世界的AI系统，但更重要的是，这些系统还需要具备不同的推理能力。要从感官输入中学习世界模型的关键是“自监督学习”。

四、模型“监督学习”

在过去几年中，监督学习在自然语言处理（NLP）领域非常成功。它的核心思想是，系统从大规模数据中自我学习，输入和输出没有明显的区分，系统会通过恢复被部分破坏的输入来学习理解整个语境。但尽管如此，现有的LLM依然无法胜任许多日常任务。

例如，你第一次让一个10岁的孩子清理餐桌并装好洗碗机，他们能够立即完成任务，不需要额外的学习。而现有的机器人却无法做到这一点。类似地，一个17岁的青少年只需要20小时左右的练习就可以学会开车，但我们仍然没有完全自主的5级自动驾驶汽车。现有的一些5级自动驾驶系统，其实依赖于预先设定好的环境地图，远非真正的自主驾驶。

这说明我们错过了某些关键的内容。这个现象其实是“Moravec悖论”的新体现：对人类来说简单的事情对AI来说很难，反之亦然。尤其是涉及现实世界的感知和行动时，AI的表现远不如人类。

现有的AI在处理现实世界的复杂性上还存在很大不足，而这些挑战主要来自于对现实世界的感知和行动控制的复杂性。解决这些问题需要新的计算思路和模型。

五、大模型局限

今天的典型大型语言模型（LLM）是在大约20万亿个标记上进行训练的。这听起来很多，但实际上这些标记并不等同于单词。每个标记通常表示的是子词单位，所以这些训练数据大约相当于不到20万亿个单词。你可以想象一下，这几乎涵盖了整个互联网上公开的文本内容。

与此相比，一个四岁的人类孩子在醒着的时间里，总共只经历了大约16,000小时的数据输入。这么看来，似乎人类接触的数据要少得多，但实际上并非如此。我们的大脑通过视神经从眼睛接收了大量关于现实世界的信息。虽然这些信息经过压缩后传送到大脑，但四年间孩子接收到的关于现实世界的感官数据，远远超过了LLM从互联网文本中获得的训练数据。这意味着，仅仅通过训练模型读取文本，是无法达到像人类那样的智能水平的。因为要真正理解世界，系统需要像人类一样，通过视觉、触觉等高带宽的输入来学习世界。尽管盲人能通过其他感官变得非常聪明，但这种学习的多样性和广泛性是LLM无法通过纯文本学习所具备的。

婴儿通过观察，花了几个月的时间去学习世界的基本概念。比如，婴儿在大约出生两个月时，就能开始理解物体的持久性。到六个月时，他们已经明白了物体的坚固性和稳定性。而一些直觉上的物理知识，比如重力和惯性，婴儿在九个月左右时就开始掌握了。同样，有些动物，比如小山羊，在出生后不久就能理解这些物理现象。但对婴儿来说，这个学习过程需要几个月的观察。四个月前，婴儿几乎不与外界互动，更多的是通过观察世界来获取信息。等到他们八个月大的时候，你会看到他们开始将玩具扔到地上，这是他们在做“重力实验”，试图理解这个新的物体是否也受重力的影响。

基于这些观察，我们可以推测，如果能开发出一种像LLM那样通过视频预测学习的模型，也许我们可以教会机器理解世界是如何运作的。过去15年，我的研究一直围绕着这一问题：通过让模型预测视频的方式，让系统学习如何理解现实世界。这个想法在神经科学领域已经存在了很久。具体来说，我们给系统一段视频，然后让它预测接下来会发生什么，就像训练LLM预测文本中的下一个单词一样。我们还可以给系统一些额外的变量，比如它可能要采取的动作，然后让系统预测这些动作会导致什么样的结果。

但是，事实证明，这种方法并不奏效。因为在实际操作中，视频中可能发生的事情太多，系统无法准确预测。系统往往会给出一个模糊的、折中的答案，因为它无法决定哪个预测是准确的。为了应对这一问题，我们提出了一种新的方法，称为“联合嵌入预测架构”（JEPA）。与之前不同的是，这种方法不再试图让系统预测视频中的所有细节，而是让系统预测视频的抽象表示。这种抽象表示捕捉了视频中最重要的信息，而不是去猜测无法预测的细节。

举个例子，如果我拍摄这个房间的视频，然后关闭摄像头，系统可以预测出这是一间会议室，里面有很多人，但它无法预测每个人的长相或墙壁的具体颜色。通过联合嵌入架构，系统只会关注可以预测的内容，而不再浪费资源去处理那些无关紧要的细节。然而，这种架构也有其问题。如果训练时仅仅最小化预测误差，系统可能会忽略输入信息，导致不好的结果。因此，新的挑战在于如何确保系统对不兼容的数据对（即训练集中没有见过的组合）也能做出合理的预测。当前的生成模型在理解世界的复杂性方面存在很大局限，而联合嵌入预测架构为我们提供了新的思路。通过这种方式，系统可以逐步学会在不同的情况下做出合理的预测，最终接近人类的认知水平。

六、图像识别

他们使用了一种叫“对比学习”的方法，比如来自Google团队的SIMCLIR，团队成员包括Jeff Hinton。还有我在90年代推动的“孪生网络”（Siamese Nets）。对比学习的一个问题是，它生成的嵌入表示通常维度较低，结果有时会显得退化。

因此，我更喜欢“正则化”方法。正则化的核心思路是，尽量减少低能耗空间的占用量。也就是说，当你降低某个区域的能量时，其他区域的能量就必须上升，因为低能耗的空间是有限的。虽然这听起来有点抽象，但实际上有几种方法可以实现这一点。现在，我会给大家解释如何测试这些系统是否有效。

在图像识别的背景下，你可以拿两张相同的图片，把其中一张破坏或改变一下，比如调整大小、旋转、改变颜色，甚至掩盖图片的一部分。然后，你训练一个编码器和一个预测器，让它从损坏的图片中预测出原始图片的表示。训练完成后，你可以移除预测器，把编码器用作分类器的输入，接着用监督学习来完成任务，比如识别图片中的对象。这种方法在从图像中提取通用特征方面非常有效。相比之下，一些使用生成模型的系统，比如自动编码器（Autoencoders）、变分自动编码器（VAEs）等，效果不如联合嵌入架构。这种联合嵌入的方法在多项任务中表现出色，尤其是在最大化编码器提取的信息量时效果尤为明显。

为了实现这一点，我们使用了一个叫“方差-协方差正则化”（VCRG）的技巧。这个方法确保每个编码器输出的变量有足够的方差，同时也尽量减少这些变量之间的相关性，保证每个变量都是独立的。还有一种非常有效的方法叫“蒸馏法”。蒸馏法通过两个编码器共享权重，其中一个编码器的权重是另一个编码器权重的时间平均值。这种方法虽然原理上有些神秘，但实际效果非常好，像DeepMind的BYOL和Meta的Dinov2等模型都是基于这种方法构建的。

例如，Dinov2是一个通用的图像特征提取器。如果你有一个随机的计算机视觉问题，你可以下载Dinov2，它会从图像中提取特征，并用少量的样本训练一个分类器来解决问题。这个模型在医学成像、生物成像等领域也表现得非常出色。我们最近开发的IJEPA方法在学习视觉特征方面也非常有效。虽然我不想让大家陷入过多的技术细节，但可以肯定的是，IJEPA比基于重建的方法表现更好。

现在，我们正在尝试将这些方法应用到视频中。事实证明，如果我们训练系统进行时间预测，效果并不好。但如果我们让系统进行空间预测，效果会非常好，甚至在某些情况下，系统还能展示出一些常识和物理直觉。比如，当系统看到一个物体凭空消失时，它会意识到“有些不对劲”，预测误差会明显上升，这说明系统能够理解基本的物理规律。最后，我们可以用这些系统训练“世界模型”，并用这些模型进行规划。比如，我们可以给系统一个环境和一系列动作，让它预测执行动作后的结果。通过这种方式，我们可以规划出一系列操作，达到某个目标。

我们已经在一些简单的任务上测试了这个系统，例如在迷宫中移动物体、推动物体到指定位置等任务上，结果都非常不错。我们还在一个复杂的任务中测试了这个系统，比如通过机械臂移动桌面上的物体，并成功实现了目标。这证明了系统的强大能力。

七、总结

让我再演示一次这个系统。我们从一堆随机放置的筹码开始，系统会使用一系列动作推动这些筹码，直到它们排成一个方形。你看不到动作的过程，只能看到结果。系统在这里是“开环”的，这意味着它会根据初始条件做出一系列预测动作，然后盲目地执行这些动作，完全不管中间发生了什么。你现在看到的就是这些动作执行后的结果。

好了，现在总结一下我今天的演讲，有五个主要建议：

1、放弃生成模型，转向使用联合嵌入预测架构（JEPA）。

2、放弃概率模型，转向基于能量的模型。

3、放弃对比学习方法，采用正则化方法。

4、放弃强化学习，我已经呼吁了十多年，认为强化学习不适合达到人类水平的AI。

5、不要在LLM（大型语言模型）上浪费时间，尤其是如果你是一名博士生，正在攻读人工智能的学位。

LLM并不会是下一场AI革命的关键，也不会帮助系统真正理解物理世界。更重要的是，大公司已经投入大量资源研究LLM，你没有太多可以贡献的余地。虽然LLM目前在很多领域有应用，但它们的寿命大概只有三到五年。以后，LLM可能会成为更大系统的一部分，但主流架构将会不同。如果你想找一份工作，可以考虑从事LLM相关工作，但未来的AI革命不会依赖于此。

现在，还有很多问题需要解决，比如分层规划——如果你对此感兴趣，这将是一个很好的博士研究课题。同时，基于能量的模型还有很多基础理论问题需要攻克。我们现在的目标是在未来十年内，开发出具有人类水平智能的虚拟助手。这种助手将会帮助我们更好地处理日常问题，成为我们的导师、教授，甚至帮助放大人类的智慧，类似于15世纪印刷机带来的知识革命。然而，要实现这一目标，AI平台必须是开源的。现在，训练大规模AI模型的成本非常高，只有少数几家公司能做到。更重要的是，我们现在能使用的数据主要是英文文本，覆盖面很有限。未来的AI系统需要在全球范围内训练，能够访问不同语言和文化的数据，这样才能代表所有人类知识的宝库。

这种系统需要全球合作，分布式训练，才能确保它不仅服务于少数公司或国家的利益。我们不能只依赖于几家美国公司提供的AI模型，因为这对全球许多政府来说是不可接受的。就像新闻界需要多样化的声音，AI系统也需要多样性。我们不能只有几家公司的AI系统来主导整个世界的智能发展。有些人担心让每个人都能使用AI技术的风险，但我认为好处远远超过了风险。真正的危险在于，如果AI被少数公司控制，而这些公司不透明，才会对未来造成严重威胁。因此，开源的AI是非常必要的，不能因为监管而被阻止。

总的来说，如果我们做得对，AI可能会带来一次新的知识复兴，类似于15世纪印刷术带来的革命性变化。我们应该努力朝着这个目标前进，让AI真正放大人类的智慧。

THE END