红杉资本Andrej Karpathy最新对谈:实现AGI需创新架构突破

IMG_256

这是 OpenAI 创始成员、前 Tesla AI 高级总监 Andrej Karpathy 在美国红杉资本 AI Ascent 活动上与投资人 Stephanie Zhan 的最新对话,到场的还有硅谷知名的其它 AI 独角兽公司与早期投资人。
IMG_256
Andrej Karpathy 早年师从于 Jeff Hinton 以及李飞飞,他的成名作是在斯坦福的深度学习课程,并在 2015 年共同创立了 OpenAI ,随后受 Elon 邀请加入 Tesla AI 团队。在这场美国红杉的活动上,Andrej 分享了构建更加开放和充满活力的 AI 生态系统的重要性,与Elon Musk 合作的感觉,以及我们如何利用 AI 让构建事物变得更加容易……以下是 Andrej 这次对谈的全部内容:

回到共同创立 OpenAI 的时光,你最喜欢的时刻是什么?

就在那里,第一个办公室,之前可能是在 Greg 的公寓里,也许这不算。我们可能在这里待了大约两年,而巧克力工厂就在楼下,所以总是闻起来很香。我想团队大概是 10、20 个人左右。我们在这里有过一些非常有趣的经历,其中一个是 Jensen 在 GTC 上暗示的,就在昨天或前天。Jensen 描述了他是如何带来第一个DGX,并将其交付给 OpenAI 的。就是发生在那里的,我们都在那边房间签字。

即使在七年前, AGI 似乎也是一个极其不可能实现的任务,甚至在我们一生中。现在它似乎近在眼前。你对未来十年的看法是什么?

我想几年前,我觉得 AGI 并不清楚它会如何实现。这非常学术化,你会考虑不同的方法,而现在情况很明朗,有很多空间,每个人都在试图填补这个空间,有很多的优化。

大致上,事情发展的方式是每个人都在尝试构建我称之为  LLMs  的东西。基本上我喜欢把它看作是一个操作系统,你必须获得一堆基本的外设,将它们连接到这个新的 CPU 或类似的东西上。外设当然包括文本、图像、音频和所有的模态。然后你有一个 CPU ,即 LLM Transformer 本身,然后它也连接到我们已经为自己建立起来的所有 Software 1.0  Infra 。

每个人都在尝试构建类似的东西,然后将其作为一种可定制的东西提供给经济的所有不同角落。大致上每个人都在努力构建这样的东西。整体上,它的发展方向是我们可以启动和关闭这些相对独立的 Agent ,我们可以给它们提供高层次的任务,并在各种方面进行专业化。这将会是非常有趣和令人兴奋的,而且不只是一个 Agent ,而是许多 Agent。

如果未来的这种看法是正确的,我们应该怎样改变我们的生活方式呢?

我不知道。我猜我们必须试图去构建它,影响它,确保它是好的。只是尽力确保它能够良好地发展。

我想谈一下大家都在谈论的问题,那就是 OpenAI 正在主导生态系统。今天这里的大多数观众都是创始人,他们试图创造一个小的利基,祈祷 OpenAI 不会一夜之间把他们干掉。你认为其他玩家在哪些领域存在建立新独立公司的机会?而 OpenAI 将在哪些领域继续主导,即使它的野心在增长?

基本上是 OpenAI 正在努力构建这个 LLMs 操作系统,就像我们今天早些时候听到的一样,它正试图开发这个平台,上面可以安置不同行业的不同公司。

现在,操作系统的类比也非常有趣,因为当你看到像 Windows 之类的东西时,这些也是操作系统,它们附带一些默认的 App,就像浏览器随 Windows 一起提供,你可以使用 Edge 浏览器。

以同样的方式, OpenAI 或任何其他公司可能会推出一些默认的 App,打引号说,但这并不意味着你不能有不同的浏览器在其上运行,就像不同的聊天 Agent 在那个 Infra 上运行一样。因此,可能会有一些默认的 App,但也可能会有一个繁荣的生态系统,其中包含各种调整到经济的不同角落的应用程序。我真的很喜欢早期iPhone应用的类比以及它们的样子。它们都有点像笑话,需要时间才能发展。

我绝对认同,我们现在正在经历同样的事情。人们正在努力弄清楚这个东西擅长什么?它不擅长什么?我该如何使用它?我该如何编程?我该如何调试?我该如何实际执行真正的任务?以及什么样的监督?因为它相当自主,但又不是完全自主。那么监督是什么样的?评估又是什么样的?有许多事情需要考虑,并且要了解它的心理学。这需要一些时间来确切地了解如何使用这个 Infra ,我们会在接下来的几年里看到这一点。

目前, LLMs 、 OpenAI 、Anthropic、Mistral、Llama、Gemini 以及整个开源模型生态系统,现在有一整套小模型的长尾。你如何预见生态系统的未来发展?

再次,操作系统的类比很有趣,比如说,我们基本上有几个专有系统的寡头,比如说 Windows 、MacOS 等等。然后我们也有 Linux ,而 Linux 有无穷无尽的发行版,我想也许它会看起来有点像那样。

我也认为我们在命名方面要小心,因为你列出的很多,比如 Llama、Mistral 等等,我其实不会说它们是开源的,所以就像将一个二进制文件扔给一个操作系统一样,你可以用它工作。它有用,但不是完全有用,

还有一些上限,完全开源的 LLM 会更好一些,他们完全公开了编译操作系统所需的全部 Infra ,从数据中训练模型、收集数据等等。当你只是得到一个二进制文件时,当然会更好,因为你可以 finetune 模型,这是有用的,但这有点微妙,但你不能完全 finetune 模型,因为你 finetune 模型越多,它就越可能在其他方面退化。

实际上,如果你想增加功能,你不想减弱其他功能,你可能会想在以前的数据集分布和新的数据集分布之间进行某种混合训练,因为你不想减弱以前的分布,你应该增加知识。如果你只给出权重,你就做不到这一点,你需要训练循环,你需要数据集等等。

你实际上在如何使用这些模型方面受到了限制。再次,它肯定是有帮助的,但我们需要稍微更好的语言来描述它。有开放权重模型、开源模型,然后是专有模型,我想这可能是生态系统。可能它看起来会与我们今天拥有的非常相似。

微软联合举办的生成式 AI 旧金山峰会 2024 火热来袭!RSVP 获行业领袖深度交流机会,文末领取专属九折优惠

IMG_257

另一个我想谈的是规模。简单地说,规模似乎是唯一重要的,数据规模,计算规模。因此,大型研究实验室、大型科技巨头如今拥有巨大的优势。你对此持什么看法?这难道就是全部吗?如果不是,还有什么其他因素?

我会说规模绝对是第一位的。我确实认为在那里有细节需要处理。很多也涉及到数据集的准备等等,使其非常好和干净,等等,那非常重要,这些都是你可以获得的计算效率提升。有数据、算法,然后当然,模型的训练,使其变得非常庞大。

规模将是主要的决定因素,确实是第一个原则性组成部分,但还有许多其他你需要做对的事情,这就像规模设置了某种速度限制,但你确实需要一些其他的东西,但如果你没有规模,那么你基本上就无法训练一些庞大的模型。

如果你只是进行 finetune 等训练模型,那么也许规模要求就不那么高,但是,我们还没有真正看到这种情况完全实现。

你能分享更多你认为同样重要但在规模之后的一些因素吗?

首先是,你不能只是训练这些模型。如果你只给了钱和规模,实际上要构建这些模型仍然非常困难。部分原因是 Infra 还是很新的,还在发展中,还没有完全成熟,但是在规模上训练这些模型非常困难,它是一个非常复杂的分布式优化问题。

目前这方面的人才还相对稀缺。基本上变成了这种疯狂的事情,在数以万计的 GPU 上运行,所有这些 GPU 在不同时间点都会随机出现故障,监控和让它正常运行实际上是一个非常困难的挑战。

直到最近, GPU 并不是为像万级的 GPU 工作负载而设计的。很多 Infra 都在这种压力下发出了吱吱声,我们需要解决这个问题。现在,如果你只是给某人大量资金或大量规模或大量 GPU ,我不确定他们是否可以轻松制造出这样的模型,这就是为什么,这不仅仅是规模的问题。

你实际上需要大量的专业知识,无论是 Infra 方面、算法方面,还是数据方面,都需要小心处理。这些是主要的组成部分。

生态系统发展如此迅速,即使我们一年前认为存在的一些挑战也越来越多地得到了解决。幻觉、上下文、窗口、多模态能力、推理能力都在变得更好、更快、更便宜。在你看来,今天 LLM 研究面临的让你夜不能寐的挑战是什么?你认为哪些问题是即时的但也是可解决的,我们可以继续努力解决的?

在算法方面,我正在思考的一个问题是扩散模型和自回归模型之间的明显分歧。它们都是表示概率分布的方式,事实证明,不同的情景似乎对其中一种方式更适合。可能有一些空间可以将它们统一起来,或者以某种方式将它们连接起来。还有一些最佳方案,或者找出如何得到混合架构之类的东西。

对我来说,有些奇怪的是,我们在模型空间中有两个单独的点,它们都非常好。我觉得有些不对劲,中间什么都没有。我们会看到这个空间被挖掘出来,那里有一些有趣的问题。还有可能我会指出的另一件事是,在运行所有这些东西的能量效率方面仍然存在巨大的差距。

我的大脑大约是 20 瓦。Jensen 刚在 GTC 上谈到了他们即将建造的庞大超级计算机。现在,这些数字是以兆瓦为单位的,也许你不需要那么多来运行一个大脑。我不知道你确切需要多少,但可以肯定地说,我们的能源效率可能低了一千到一百万倍。因为我们设计的计算机只是不适合这样的工作负载。

英伟达 GPU 在这方面是一个不错的方向,因为你需要极高的并行性。我们实际上并不关心某种程度上顺序计算,这种计算在某种程度上是数据相关的。我们只需要将相同的算法传播到许多不同的数组元素或者某种程度上进行操作。

所以我会说,第一点是将计算机架构调整到新的数据工作流。第二点是在一些我们目前正在看到改进的领域上继续努力。也许第一点可能是精度。我们看到精度从最初的 64 位双精度降低到,我不知道是 4、5、6 或者甚至 1.58,这取决于你读哪些论文,精度是一个重要的杠杆。

然后第二个杠杆当然是稀疏性。这也是另一个重要的差距。就像你的大脑并不总是完全激活一样。稀疏性是另一个重要的杠杆,但是最后一个杠杆,我也觉得,就是冯·诺依曼体系结构,以及它们构建计算机的方式,你正在将数据在内存和处理器之间来回传递,处理器在做所有的计算。

这都是有问题的,有些是因为你的大脑是如何工作的,这也是为什么它效率如此高的原因。现在是计算机架构非常令人兴奋的时候。我不是计算机架构师,但,似乎我们的效率低了一千到一百万倍,或者是这个数量级。应该有非常令人兴奋的创新可以将其降低。

黄仁勋最新 GTC 投行分析师对谈:加速计算与 GenAI 是新工业革命的交流发电机,机器人的ChatGPT 时刻即将到来…

IMG_258

你曾与我们这一代的许多伟大人物一起工作过。Sam、Greg 以及 OpenAI 团队的其他成员,还有 Elon Musk。Elon 分享了构建文化和团队方面的许多哲学,一个有关划船队的美国队与日本队的笑话,假设你有两个队,日本队有 4 名划手和 1 名舵手,而美国队有 4 名舵手和 1 名划手,有人猜到美国队何时失败吗?也就是他们解雇了划手。Elon 分享了这个例子,这是他思考如何招聘合适的人员、构建合适的团队的一种反映,从与这些不可思议的领导者密切合作中,你学到了什么?

Elon 经营这家公司的方式非常独特。我实际上认为人们不太能够理解这种独特性。你甚至阅读了很多关于他的东西,仍然无法理解,这很难描述。我甚至不知道从哪里开始,但这是一个非常独特、不同寻常的事情。

我喜欢说他不经营最大的初创公司,这是一种…我甚至不知道如何描述。我觉得我需要花更多的时间去思考,但第一点是,他喜欢非常小、强大、高度技术化的团队。

在公司中,通常情况下,团队会成长壮大。Elon 一直都是对增长持反对态度的力量,我必须努力招聘人才,基本上是乞求才能雇佣人才,而且另一件事是,通常情况下,在大公司中,你很难摆脱低绩效者。

Elon 对默认情况下剔除低绩效者非常友好。实际上,我不得不为了留住人才而努力。因为他默认情况下会想要解雇人员,这是一件事情,保持一个小、强大、高度技术化的团队,没有非技术的中层管理。

第二点是这个公司的运作方式和氛围,当他走进办公室时的感觉,他希望这是一个充满活力的地方,人们在走来走去,他们在忙碌地工作,他们在绘制某些东西,他们在编码,他不喜欢停滞,他不希望看起来像那样,他不喜欢大型会议。,总是鼓励人们如果会议没用就离开。

你实际上确实可以看到这一点,或者你知道这是一个大型会议,有些人如果你既不贡献也不学习,就离开。这是完全鼓励的,这是你不经常看到的。氛围是第二个重要的杠杆,他在文化上真正灌输了这一点。也许这其中的一部分也是因为很多变得更大的公司,他们会宠爱员工。这种情况要少得多。文化上你在那里是为了做最好的技术工作,那里充满了紧张和其他因素。

也许最后一个非常独特、非常有趣、非常奇怪的是,他与团队的联系有多密切。通常情况下,一家公司的 CEO 是一个远程人,远在 5 层楼之上,他与他们的 VP 交谈, VP 与他们的下属和主管交谈,最终你与你的经理交谈,这不是你经常遇到的公司,

比如 Elon 会来到办公室,他会与工程师交谈。我们的许多会议就是这样的, Elon 和 50 个人在房间里,他直接与工程师交谈,他不只是想与 VP 和主管交谈,通常人们会花 99% 的时间,也许是在与 VP 交谈,可能会花 50% 的时间,他只想与工程师交谈。

如果团队是小而强大的,那么工程师和代码就是真相的源头,他们拥有真相的源头,而不是某个经理。他希望与他们交谈,了解实际情况以及应该采取什么措施来改进。所以我会说,他与团队的联系程度,不是什么遥远的东西,这也是独特的,还有他在组织内部行使它的意愿。

如果他与工程师交谈,他们提到了什么在阻碍你,如果他听到两次这样的情况,他会说,这是个问题,我们的时间表是什么?当你没有满意的答案时,他会说,我想和负责 GPU 集群的人谈一谈,然后有人打电话,他就会说,现在就把集群扩大一倍,从现在起,我们每天都要有会议,直到集群的规模增加一倍,然后他们有些推迟,他们说,好吧,我们已经有了这个采购计划。我们有了这个时间表,而且视频说我们没有足够的 GPU ,需要六个月左右才能准备好。然后他眉毛一挑,然后他就会说,我想和 Jensen 谈谈。然后他就会解决瓶颈。他非常投入并消除了瓶颈,行使他的权力,这也是不被人们所重视的。

有很多这样的方面是非常独特的,我会说,也非常有趣的。老实说,去一个普通的公司,你绝对会错过其中的一些方面,也许这是一个很长的话题,但这只是一种是非常独特的、非常有趣的东西。我想这可能是我没有涵盖所有要点,但这是一个非常独特的事情,非常有趣的事情。

放眼未来,你已经帮助打造了一些最有影响力的公司之一。你也是许多人进入 AI 领域的关键推动者,而其中许多人就在今天的观众中。根据你的了解,你最关心的是普及 AI 教育工具,帮助整个生态系统创造更多的质量。还有更多的优胜者。当你考虑你人生的下一个篇章时,什么给了你最多的意义?

你描述得很对。我的大脑的默认反应是,我为一家公司工作过,但最终我更关心的不是任何一个具体的公司。我更关心的是整个生态系统,希望生态系统健康,希望它蓬勃发展,希望它像珊瑚礁一样,有许多酷炫的、令人兴奋的初创公司,并且在整个经济的各个角落都有,希望整个生态系统都像一个充满了酷炫东西并沸腾的汤,希望它是一个很酷的地方。

我爱初创公司,我爱公司,我希望有一个充满活力的初创公司生态系统。默认情况下,我会对 5 家大公司接管,尤其是 AGI 是权力的放大器这一点感到有些犹豫。我对这可能会变成什么样子感到有些担忧,我需要更多时间去思考,但我喜欢这个生态系统,我希望它健康、充满活力。

你会推荐创始人遵循 Elon 的管理方法,还是这种方法对他而言是独特的?在某种程度上是独特的,你不应该尝试模仿他吗?

这是一个很好的问题。这取决于创始人的 DNA,就像你必须拥有相同的 DNA 和某种氛围。当你雇佣团队时,非常重要的一点是你要在一开始就清楚地表明,这是你的公司的类型。当人们加入时,他们确实很乐意跟随,但是如果你以后改变了,人们会对此感到不满,这会非常混乱。只要你从一开始就这样做,并且保持一致,你可以经营这样的公司,但它也有自己的利弊。这取决于个人,但这是一个一致的公司建设和经营模式。

我很好奇你是否对某些类型的模型组合性非常感兴趣,也许不仅仅是专家混合模型?我不确定你对于像模型合并、弗兰克合并或任何其他可以使模型开发更具组合性的事情有何看法。

这是一个好问题。我看到了这个领域的论文,但我不知道是否有什么是真正成功的。也许组合性,我不确定你的意思,但有很多关于主要高效训练等方面的工作。我不知道你是否会把这归类为我理解的组合性的范畴,但通常情况下,传统代码非常易于组合。神经网络默认情况下是更具完全连接性和不太易于组合的,但它们确实可以组合和联合调整成为整体的一部分。

举个例子,如果你正在做一个系统,你想让其中有 ChatGPT 和图像之类的东西,很常见的是你预先训练组件,然后将它们插入并进行联合调整,也许是整个过程的一部分。在这些方面可能有一些可能性,我们可以在此之后预先训练小部分外围皮质并稍后组合它们。我想在某种程度上来说,也许这是我零散的想法,但我不知道我是否有其他非常连贯的想法。

我们有这些下一个词预测的东西。你认为是否存在一条路径可以构建一个物理学家或冯诺依曼类型的模型,它具有物理学的心理模型,是自洽的,并且可以为如何实际进行聚变、如何实现超光速旅行提供新的思路,如果这可能的话?有没有任何路径可以实现这一点?还是说这在AI模型发展的基本不同方向上?

在某些方面这是根本性不同的,你所谈论的也许是一个能力问题,因为当前的模型还不够好。这里有一些重要的问题有待解决。人们仍然没有真正看到在这个领域可能出现的可能性。粗略地说,我们已经完成了 AlphaGo 的第一步。这就是团队所做的,我们完成了模仿学习部分。

AlphaGo 的第二步是 RL,但人们还没有做到。这将从根本上改变事情,这是使之超越人类的关键。在这个领域还有很大的潜力可以挖掘。至于细节可能有些棘手,但我们只是完成了 AlphaGo 的第一步,长话短说,我们只是完成了模仿学习部分。

我不认为人们意识到,像 ChatGPT 这样的数据收集有多糟糕,比如说你遇到了一个问题,像某个提示是某种数学问题,一个人过来给出了理想的解决方案,问题在于,人类的心理和模型的心理是不同的。

对于人类来说,什么是容易的,什么是困难的与模型的感知是不同的。人类会填写一些跟踪,以达到解决方案,但模型很容易理解的部分,模型根本无法理解的部分。你就失去了这部分,然后后面的一切都被这个影响。从根本上来说,模型需要自己练习如何解决这些问题。它需要弄清楚对它有用或无用的东西。也许对于四位数的加法它不太擅长,所以它会退而使用计算器,但它需要根据自己的能力和知识来学习。这就是第一点,这是完全错误的。它是一个很好的初始化器,可以用于某种 Agent 式的东西。

然后另一个问题是我们是从 RLHF 的,但这是一种非常弱的形式的强化学习。甚至不算是强化学习,像 AlphaGo 中的 RLHF 等效物是什么?它是一个奖励模型吗?我称之为氛围检查。想象一下,如果你想训练 AlphaGo 的 RLHF,你会给两个人两个棋盘,然后问,你更喜欢哪一个?然后你会获取这些标签并根据它们来训练模型,然后根据它们进行强化学习?或者这样做的问题是什么?

首先,这只是棋盘的氛围。这是你训练的东西。其次,如果这是一个神经网络的奖励模型,那么很容易过度拟合于优化的模型。它会找到所有这些欺骗这个 LLM 的方法,AlphaGo 之所以能够解决这些问题,是因为它有一个非常明确的客观函数。你可以针对它进行强化学习。

RLHF 目前处于一个非常初级的阶段,它的情况仍然很糟糕。另一个问题是模仿学习,非常不好。RLHF 是一个很好的改进,但仍然不好。人们需要寻找更好的方法来训练这些模型,使其在自身循环技术中参与。在那个方向上可能会有一些突破。

这有点像 AI 模型的研究生阶段,它需要坐在一个房间里,拿着一本书,静静地质疑自己十年。

是的。当你学习东西并阅读教材时,教材中会有一些练习,这些练习就是促使你运用所学知识的提示。因此,当你学习材料时,不仅是简单地从左到右阅读,首先,你是在进行练习,但也许你还在做笔记,你在重新表述、重新构思。你在以某种方式操纵这些知识,以便你能够更好地学会这些知识,而在 AI 领域,我们尚未看到类似的东西。这还处于非常早期阶段。

你会如何平衡定制生产和收入生成的优先级,或者是寻找具有更好推理能力的更高质量模型的优先级?你会怎样调整它们的优先级?

也许我理解了你的问题。我看到很多人做的一件事情是,他们从最有能力的模型开始,不管成本如何。你使用 GPT 来进行超级提示,等等。你只是尝试让你的东西起作用。你首先追求的是准确性,然后再做出让步。你检查是否可以回退到 3.5 或某些类型的查询。你检查你是否可以,然后你逐层地使它变得更便宜。我会说首先追求性能,然后再使它更便宜。

这有点像我听到一些人谈论的范式,他们说这种方法对他们有效。也许它甚至不仅仅是一个单一的产品。思考一下,哪些方式你甚至可以让它起作用。因为如果你只能让它起作用,就像说你制作了 10 个提示或 20 个提示,然后你选择了最好的一个,你进行了一些讨论或者我不知道你会想出什么样的疯狂流程,就是让你的东西真的很好地起作用。

因为如果你有一个真的很好的东西,那么另一件事情你可以做的就是你可以提炼它,所以你可以得到一系列可能的问题类型。你在上面运行你的超级昂贵的东西以获得你的标签,然后你得到一个更小、更便宜的东西,你在上面进行 finetune ,我会说我会始终追求让它尽可能地起作用,然后再使它变得更便宜。这是我建议的做法。

在过去的一年里,我们看到了开源生态系统中的许多令人印象深刻的结果。我想知道你对于开源发展将如何继续与封闭源发展的步伐保持一致或不一致的看法,尤其是在模型不断改进和扩展的情况下?

这是一个非常好的问题。我并不真正了解根本问题,就是这些模型需要如此巨大的资本投入,例如,你有 Facebook、Meta 等等,他们有能力以规模化的方式训练这些模型,但是这也不是他们做的事情的一部分,与他们的“铸钱机”无关。

因此,他们实际上有动机释放其中一些模型,以使整个生态系统得到加强,这样他们就可以借鉴所有最好的想法。对我来说这是有意义的,但到目前为止,我会说他们只是释放了开源模型。他们应该进一步,这是我希望看到的,对每个人来说都会更好。而且,也许他们对此的一些方面感到不安,尤其是涉及到数据等方面。我不知道该如何解决这个问题。也许他们应该尝试找到一些他们认为非常容易使用的数据来源,然后尽量限制自己使用这些数据。

我会说,这些人可能是我们的英雄。我希望看到更多的透明度也来自 Meta 和 Facebook 做得相当好,比如他们发布论文,他们发布日志和对我来说是博客的东西。日志和诸如此类的东西。他们做得不错,但是他们在促进生态系统方面可以做得更好,我想我们将会看到这一点。

考虑到之前的问题,但你认为什么会使 AI 生态系统更加酷和更具活力?或者是什么因素阻碍了它的发展?是开放性还是你认为还有其他的因素需要解决?

我确实认为其中一个重要方面就是可用的东西。我最近发了一条推文,关于第一步是建立一个东西,第二步是建立一个斜坡。我会说很多人都在建立一个东西,但很少有人在建立斜坡,让人们真正理解所有这些东西。

我们都是这个领域的新手。我们都在努力理解它是如何运作的。我们都需要一定程度的合作,甚至才能有效地使用它。我希望人们在关于他们所学到的东西、他们是如何训练的、所有这些方面、什么有效、什么无效方面能够更加开放。我们需要彼此更多地学习,这是第一点。

第二点,我也认为在开放的生态系统中已经有相当多的动力,这已经是一个好现象了,也许有一些改进的机会,我已经谈到了。

要达到模型的下一个大的性能飞跃,你认为仅仅修改 Transformer 架构,比如说,增加思考令牌或激活信标,就足够了吗?或者我们需要彻底放弃它,并提出一个新的基本构建模块?带我们迈向下一个大的前进步伐,或者说  AGI 。

这是一个非常好的问题。答案可能是两者结合。一方面,通过在 Transformer 架构中使用新组件,如思考令牌或激活信标,可以确实实现性能的渐进改进。这些修改可以帮助解决当前模型的特定限制或瓶颈,并推动它们的能力边界。

然而,要实现下一个重大的飞跃,或者接近  AGI ,可能需要探索基本上全新的构建模块和架构。

首先,我想说的是,Transformer 极其惊人,简直令人难以置信。我肯定没有料到这一点。在 Transformer 出现之前的一段时间里,神经网络会出现疯狂的分化,但事实并非如此,事实上,情况完全相反,它是完全统一的模型。我对我们拥有这样的模型感到非常惊讶。

我不知道它是否是最终的神经网络。我想肯定会有。鉴于该领域的历史,我已经在这个领域工作了一段时间了,很难说这就是终点。绝对不是。我对有人能够找到一种相当大的改变我们今天所做的事情的方式感到非常乐观,我想说在自动聚合扩散的前端,这在某种程度上就像建模和设置法律一样,我想说那里肯定有一些成果。但是在 Transformer 和我提到的精度和稀疏性的杠杆上。

当我们推动这一点,并与硬件的共同设计以及网络架构如何更好地针对这些约束进行协调时。在某种程度上,我想说 Transformer 在设计上是为 GPU  设计的,顺便说一句,这是 Transformer 论文中的重大突破。这是他们的想法,我们需要一种基本上非常可并行化的架构。因为循环神经网络具有顺序依赖性,对于 Transformer 来说是可怕的,基本上通过注意力打破了这种依赖关系。这是当时的一个重要见解。它有一些先前的见解,比如神经  GPU  和谷歌的其他论文。

他们在考虑这个问题,但这是将算法定位到你可用的硬件的方式。这和那种精神是一致的,但长话短说,很有可能我们仍然会看到对它的改变,但是它已经被证明非常有韧性,我不得不说。它诞生于许多年前,现在已经有一段时间了。我不知道,大约 6 年了。最初的 Transformer 和我们今天使用的并没有太大的区别。

作为对在场所有创始人和建设者的告别信息,你会给他们什么建议,因为他们致力于帮助塑造 AI 的未来。

我通常没有什么非常普遍的建议。也许我最关心的事情是,创始人们当然非常关心他们的创业公司。我还希望,我们如何拥有一个充满活力的创业生态系统?创业公司如何继续取得胜利,特别是在大型科技公司方面?生态系统如何变得更加健康?你可以做什么?

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容