OpenAI 的 o1 模型发布后,可谓是 AI 圈最重磅的新闻!🤯 很多人都惊叹于它强大的推理能力,但 o1 背后的故事,以及 OpenAI 团队的努力和付出,却鲜为人知
刚刚,OpenAI 发布了o1推出后开发团队完整采访(之前只有几分钟片段),揭秘了 o1 模型的诞生过程。采访中,OpenAI o1 的研究人员们分享了他们的心路历程,以及那些让他们 “Aha” 的灵光乍现的瞬间
o1:会“思考”的 AI 模型
o1 最大的特点就是它会“思考”!🧠 OpenAI 的研究人员们希望 AI 模型不仅能够快速给出答案,还能像人类一样,在回答问题之前先进行推理,思考时间越长,答案越准确
漫长的探索之路:从强化学习到监督学习
OpenAI 团队很早就开始探索如何让 AI 模型具备推理能力。他们最初的灵感来自于 AlphaGo,并尝试将强化学习应用到更通用的领域
“在 OpenAI 的早期,我们受到了 AlphaGo 结果和深度强化学习潜力的启发,因此我们一直在深入研究它,并且我们看到了在数据和机器人技术方面的巨大扩展,我们一直在思考,如何才能在通用领域进行强化学习,从而获得一个非常强大的人工智能。”
后来,他们看到了 GPT 系列模型在监督学习方面的惊人成果,于是开始思考如何将强化学习和监督学习这两种范式结合起来
“从那以后,我们一直在思考如何将这两种不同的范式结合起来。”
“Aha” 时刻:那些灵光乍现的瞬间
“私密思维链” 的诞生: 当 OpenAI 团队第一次看到模型能够生成连贯的“思维链”时,他们意识到 这是一种与以往完全不同的东西,并预感到 这将带来重大的改变。
强化学习的突破: 研究人员发现,如果用强化学习来训练模型生成和完善自己的“思维链”,效果甚至比人类编写的“思维链”还要好!这让他们意识到,强化学习是扩展 AI 推理能力的关键!
AI 的“自我反思”: 在早期测试中,研究人员发现 o1 模型开始质疑自己的错误,并进行反思。这让他们意识到,o1 模型已经具备了某种程度的“自我意识”, 这将带来全新的可能性!
中文完整版梳理
OpenAI o1 诞生记:一群天才程序员的血汗与泪,还有那些灵光乍现的瞬间!
构建 OpenAI o1(扩展版)
大家好,我是 Bob McGrew,我是 OpenAI 研究团队的负责人。我们刚刚发布了我们新系列模型 o1 和 o1 mini 的预览版,我们对此非常兴奋,并且今天有整个团队来向大家介绍这些模型。
什么是 o1?
我们启动了一系列新模型,命名为 o1。这是为了强调与之前的模型(如 GPT-4)相比,当你使用 o1 时,可能会有不同的感受。正如其他人稍后会解释的那样,o1 是一个推理模型,它会在回答你的问题之前进行更多思考。我们发布了两个模型:o1 预览版,它展示了即将推出的 o1 系列;以及 o1 mini,这是一个更小、更快的模型,使用与 o1 相似的训练框架。希望大家喜欢我们新的命名方式 o1
推理到底是什么?
推理的一种方式是,有时我们提出问题时,需要立即得到答案,因为这些问题比较简单。比如,如果你问“意大利的首都是哪里?”,你知道答案是罗马,不需要多想。但是,如果你要解决一个复杂的难题,或者想写一份商业计划,或者写一部小说,你可能会希望多花点时间去思考,思考得越久,结果往往会越好。所以推理就是把思考时间转化为更好结果的能力,无论任务是什么
你们花了多长时间在这个项目上?
OpenAI 的早期阶段,我们受到 AlphaGo 结果的启发,看到深度强化学习的潜力,所以我们在这方面投入了大量研究,并在 Dota 和机器人技术领域取得了巨大进展。我们开始思考,如何在通用领域应用强化学习,以实现非常强大的人工智能。然后,我们看到了 GPT 模型在监督学习方面的惊人成果,自那以后我们一直在思考如何将这两种不同的范式结合在一起。
这个项目的确切开始时间很难界定,但我们与 Yakob 和 Shimon 进行了早期的探索,也有与 Lukash 和 Ilya 的早期合作。当然,Jerry 的加入后,他推动了这个大型项目的进展,这也是一个重要的时刻。所以,这个项目已经持续了很长时间,但研究中最酷的地方在于那个“啊哈”时刻,当某些惊人的事情发生时,一切突然变得清晰了
你们有没有过‘啊哈’的时刻?
我们训练了 GPT-2、GPT-3 和 GPT-4,但第一次有这种感觉是当我们看到模型时,大家都感叹“哇,这个模型真的很棒”,并开始真正讨论它的表现。我记得在训练过程中,我们投入了更多计算资源,并第一次生成了连贯的思维链,我们心想“哇,这看起来与之前真的不一样”。对我来说,那是一个关键时刻
与此相关的另一个发现是,当我们思考如何训练推理模型时,自然而然想到的一件事是可以让人类写下他们的思维过程,然后用它来训练模型。然而,当我们使用强化学习让模型生成并改进自己的思维链时,发现它做得比人类编写思维链还要好,这是我的一个“啊哈”时刻,证明我们可以通过这种方式真正扩展模型的推理能力。
一个早期的 o1 模型展示了这种推理能力。我们长时间致力于让模型在解决数学问题上表现得更好。我们为此投入了大量精力,尝试了各种不同的方法,但每次看到模型的输出时,总是感到挫败,因为模型从不质疑它的错误。然而,当我们训练并开始与 o1 模型对话时,看到它在数学测试中的得分提高了。通过观察它的推理过程,你会发现它开始质疑自己的结论,并且表现出真正有趣的反思能力。那一刻我意识到,我们确实发现了一些不同的东西
当你们读这些思维过程时,感觉如何?感觉像是在观察一个人类,还是像在看一个机器?
这更像是一种精神体验。你可以与模型共鸣,看到它犯了很多人类常犯的错误,或者看到它质疑一些常规的假设。这是一种精神体验,但同时也奇怪地带有人类的行为
我们还观察到另一个现象,在模型被限制了思考时间的情况下,它往往会在快到时间截止点时迅速得出结论,仿佛意识到“我必须现在给出答案了”。这让我们想起了年轻时参加数学竞赛时的经历,这也是我们对 AI 产生兴趣的原因之一。所以,当我们看到模型在解题时,几乎跟随我曾经使用的步骤,感到非常兴奋
这些模型正在推动工程和科学的进步。它们在解决那些对我们来说很难的难题时表现得非常出色,甚至那些对专家来说也很棘手的问题,这可能会推动科学的突破
你们遇到过什么挑战?
训练大型模型本质上是非常困难的事情,有成千上万的事情可能出错,实际上每次训练中至少有几百件事情确实出错了。几乎每个人都投入了大量心血来解决这些问题,并让模型保持学习和改进。成功的道路非常狭窄,而失败的方式却很多。就像发射火箭一样,稍有偏差就可能偏离目标。这是我们的工作
你们如何测试这些模型?
有趣的是,我们会经常在社交媒体上看到有人说“大语言模型无法做某些事情”,然后我们会把这些问题输入我们的模型进行测试,验证它是否能做到
如何测试 o1 mini?
o1 mini 的动机是为了让更广泛的用户以更低的成本使用 o1 系列模型。我们设计了 o1 mini,它展示了整个 o1 训练框架的最小实现。它在推理能力上非常出色,尽管可能不知道某些名人信息,但在科学和技术领域,它的表现几乎可以与 o1 相媲美,同时大幅降低了成本和延迟。虽然它的知识面相对较窄,但我们正在不断改进
你们是如何使用 o1 的?
用 o1 来进行编程,我们的工作大部分涉及编程。所以更多地关注问题定义,而不是直接编写代码。通过使用测试驱动开发(TDD),专注于编写单元测试,来定义正确的代码行为,然后交给 o1 实现功能,这样我就能把精力集中在高层次的问题解决上
调试也是一个重要的领域。当我遇到错误时,我可以把它交给 o1,它会提供解答,甚至如果没有直接解决问题,也会提出有意义的反思问题
我们越来越多地用 o1 来学习,当向它询问各种复杂的技术问题时,发现它产生的幻觉更少,解释得更好。
我们也喜欢把 o1 作为一个头脑风暴的伙伴,无论是解决机器学习问题,还是撰写博客文章。我可以向它咨询文章结构、基准的优缺点,甚至是写作风格。由于它在回答之前会进行思考,能更好地连接想法,并且它还能修改和批判候选方案
我们发现当你有一些无结构的想法时,它是一个很好的伙伴,可以帮你将这些想法串联起来,找出遗漏的部分。通过阅读它的思维过程,最终可以获得更好的结果
你们的研究动机是什么?
我觉得在这个世界上,存在这样一些事物,它们能够表现出智能和推理,而且比我们想象的要小得多,并且能够以不同的方式实现这一点,这让我感到非常着迷。好的事物往往需要时间,而我们的模型通常回答得太快。最终,我希望能够有模型能够进行长时间的研究,持续数月甚至数年。而我觉得这次的突破是朝着这个方向迈出的第一步
你们觉得 AI 研究的任务是什么?
我认为,AI 研究人员的工作就是找到将更多计算能力应用于硬件的方法,硬件开发人员的表现非常出色,导致计算成本持续指数级下降。我们没有太多时间去寻找其他方式来增加计算能力,这对我来说是一种越来越大的压力。然而,这种新的范式确实提供了一个解决方案,可以在未来很长一段时间内缓解这种压力
你们对这整个项目还有什么看法?
每个模型都有它独特的个性,像是手工艺品一样。它们在不同任务上表现得略有不同,可能在某些任务上表现更好,在另一些任务上表现稍差。因此,每个模型都有自己独特的特点,带有一种美感
暂无评论内容