9月12日,OpenAI造势已久的“草莓”模型——OpenAI o1正式上线。Sam Altman称该模型开启了AI新范式:实现AI的通用复杂推理。对比GPT系列,之前大模型更多是System1的思考,而o1聚焦于让AI进行System2思考。它通过强化学习(Reinforcement Learning)为主的训练,让模型在回答问题前主动“思考”自动生成“思维链”,以使模型能够像人类一样进行复杂推理来解答问题。在数学和编程方面,o1能力大大超过GPT-4o;在涉及化学、物理和生物等的专业测评中,它的表现超过了人类博士水平。
o1上线之后,业界评价褒贬不一。赞誉者认为o1代表了大模型领域的范式转移:从训练的Scaling Law走向推理的Scaling Law;而许多用户在实测后则给出了失望的评价:大量问题的回答与GPT-4o差异不大,成本却差了十倍甚至百倍;在一些问题上没有必要地过度思考。就连OpenAI也在其帮助页面上提醒用户:“GPT-4o 仍然是大多数提示的最佳选择”…… OpenAI似乎失去了之前每次发布会都能“硬控”市场和舆论的魔力。
OpenAI为什么在产品体验不够完善的情况下仍选择发布o1,背后深层次的原因是什么?这个技术路线面临着哪些挑战?o1引领的新方向,对整个AI行业,尤其是大模型的应用领域,将会带来什么影响?它是不是真的让我们在通向AGI的路上前进了一大步?这篇文章我们聊聊自己对此的观察与思考,来回答这些问题。
01 OpenAI o1发布概览
模型上线
9月12日,OpenAI正式发布了其造势已久的“草莓”模型-OpenAI o1。命名之所以没有沿用GPT,是因为它的训练重点有明显变化。与以往GPT系列相比,o1会花更多时间思考再做出反应。o1主要采用强化学习的训练方式,模型被训练像人类一样会完善自己的思维过程,尝试不同的策略,并认识并改正自己的错误。在科学、编程和数学领域,它能够解决难度更大的问题。
此次发布上线了两个模型:o1-preview 和 o1-mini,并预告正式的o1模型即将发布:
- OpenAI o1-preview:o1模型的早期预览版,用于利用广泛的通用知识来推理复杂的问题。每周可使用30次;定价为每百万输入token 15美元,每百万输出token 60美元,分别是GPT-4o价格的3倍和4倍。
- OpenAI o1-mini:速度更快且成本更低,擅长不需要通用知识的编码任务。每周可以使用50次,价格比比 o1-preview 便宜80%。
用户可通过ChatGPT和API两种方式访问o1。原厂评测效果
为突出o1推理能力的提升,OpenAI在一系列推理密集的人工考试及ML基准上进行了测试。结果显示,OpenAI o1-preview 解决高难度数学题和处理编程任务方面大幅超过GPT-4o。比如在竞赛数学数据集AIME 2024 上,o1-preview 得分是GPT-4o的4倍多;在编程竞赛数据集Codeforces上,差距变成5.6倍。此外,在涉及化学、物理学和生物学专业知识的GPQA-diamond评测中,o1的表现更是超过了拥有博士学位的人类专家。但OpenAI也强调,“这些结果并不意味着它在所有方面都比拥有博士学位的专家更强,只能说o1更擅长解决一些博士能够解决的特定问题。”
用户实际评测
虽然OpenAI原厂测评显示o1提升显著,但从模型发布后大量用户的实际体验来看,许多用户反馈o1模型的能力与宣传相比还存在较大差距,在此总结一些用户的真实反馈:
o1在在行为和语言风格上与GPT-4o高度相似,用户在实际体验中感受不到与GPT-4o的明显差距,甚至有用户猜测新模型是否只是GPT-4o的微调版本。
上下文长度不符合官宣的64k,实际输出长度远少于此。比如,当用户要求o1写”不少于2万字的黑神话悟空同人小说”时,模型只返回了1000多字。这背后的原因可能是新的推理范式(Self-play Reinforcement Learning)导致模型消耗了大量token用于过程的思维链。
API调用成本大幅上涨:在一些用户实测案例中,o1完成相同任务的成本比GPT-4o高出40-258倍不等。
API功能有所阉割:不支持system、tool等字段以及json mode等方法。
总体而言,o1 preview和mini版的实际表现与官方宣传存在较大差距,不少用户对高昂的使用成本与实际体验效果不成正比感到不满。
02 o1背后的技术原理探讨
强化学习和思维链
关于如何训练o1达到目前的推理能力,OpenAI在其技术文档Learning to Reason with LLMs(https://openai.com/index/learning-to-reason-with-llms/)中有所提及:“o1在尝试解决问题时会使用思维链(Chain of Thoughts)。通过强化学习,o1学会如何磨练自己的思维链,并完善它所使用的策略。它学会了识别和纠正自己的错误;将复杂步骤分解为更简单的步骤;在当前方法不起作用时尝试不同的方法。这极大地提高了模型的推理能力。”
虽然OpenAI并未透露更多技术细节,但可以看到,o1的关键词是强化学习(RL,Reinforcement Learning)和思维链(CoT, Chain of Thoughts)。两者都不是新的技术,也并非OpenAI率先提出的技术方向。在o1之前,Anthropic的Claude 3.5 Sonnet就已经引起业内对RL的关注——该模型采用RL显著提升了代码能力。Google DeepMind也在7月发布了用RL训练的 AlphaGeometry 模型更新版,达到国际奥数竞赛IMO的银牌水平。前OpenAI核心人物之一Ilya新创立的公司SSI也是围绕RL路线展开工作。
在研究o1的过程中,我们还意外地发现,字节ByteDance Research实验室在今年1月就发表了一篇将SFT与RL结合从而提升模型推理能力的论文《REFT: Reasoning with Reinforced Fine-Tuning》(https://arxiv.org/pdf/2401.08967v1)。这篇论文有助于我们推测o1的具体做法:我们猜测,o1最核心的算法可能是在fine-tuning的loss function中加入了RL的reward项,根据有正确答案的问题生成CoT,根据答案是否正确分配reward给fine-tuning过程引入反馈,这样模型就可以学到正确的CoT能力,反复迭代训练,生成越来越多正确的CoT。这个过程类似于AlphaZero在围棋领域的自对弈(self-play)学习,但o1将这一概念扩展到了更广泛的领域。
核心挑战虽然RL在提升模型推理能力上效果显著,但我们认为,这个路线存在两个挑战:1)推理能力在开放领域是否能够泛化o1目前选择的几个针对性领域是数学、科学和编程,这是非常好的切入点,因为它们符合如下两个特征:
- 有明确的答案。
- 领域知识是公开的。因此绝大部分相关知识已经被LLM学习过,底层大模型有相关知识储备。
在现实世界中,大多数问题并没有唯一正确答案,有的反馈链路也非常长。比如,产品的用户体验哪种方式最好,并不是确定或唯一的;研制出来的新药,试用在病人身上需要一定时间后才能知道结果;企业内部的信息,基本是不公开的。真正 System2的决策问题,往往需要更复杂的数据和知识,不像数理化⽣问题的所有背景知识都已经在公开语料中学过了。开放问题不仅没有标准答案,⽽且需要的知识和数据大多是企业私有的,问题也都跟业务逻辑相关。面对这些,RL的训练方法是否依旧好用?通过RL所训练的推理能力,是否能够泛化到这些领域、解决现实世界的问题?目前这仍然是个未知数。我们猜测,这也是OpenAI在赌的方向——能否通过收集足够多的问题和答案作为反馈,构建一个真正泛化的推理模型。
2)如何判断是否启动System2思考
有了System2的思考能力,大模型在回答用户提问时会遇到一个很具挑战性的问题:如何判断一个问题是否需要启动System2的推理能力?如果不做判断,事事都做System2思考,会造成大量的计算资源浪费,同时大幅提高了用户的使用成本。但如果判断不准确,让本来应该用复杂推理推导的问题只做System1思考,则会降低回复质量。决定是否启动System2思考,成为了大模型平衡成本与性能的关键。 但对于开放问题,决定Sytem1还是System2,不仅需要尝试,还需要大量的外部反馈。虽然OpenAI存在一个独特的技术优势——只有它可以通过模型推理过程的置信度来判断一个问题System1的回答是否足够好,但这种评估的准确性也存在着较大的不确定性。
03 对大模型技术的影响
开启大模型的增量发展模式
o1发布之后,许多业内人士提出,o1意味着大模型技术发展的“范式转移”——从Training Scaling Law转向Inference Scaling Law(RL路线下,scaling law仍然存在,计算成本的增加仍然会转化成更高的智能,但计算主要消耗在推理侧,提升也不再靠参数量本身的持续增长)。然而,事实真是如此吗?根据大模型预训练Scaling Law,要想得到更强大的模型,唯一的办法就是增加算力和数据的规模。这意味着预训练的过程不是增量的,无法通过有限的算力和数据来增强现有的预训练模型。虽然 Llama-3发布后,激活了各种fine-tuning技术,很多社区模型在Llama-3的基础上刷榜打平甚至打败 GPT-4,但模型能力并没有本质性的提升。相对于中小企业,头部企业因此有了规模屏障:必须要有足够大的资本投入,才有资格加入,这是一个只有巨头能参与的游戏。而o1所采取的RL路线,一个根本区别在于RL是可以增量发展的——可以在现有模型基础上,花费有限算力去做增强改进,训出一个更强的模型。可以设想,如果有大厂开源一个推理能力与o1相当的模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只需要要正确的答案;目前已有一些开源的推理数据集),任何人都有可能通过Reinforcement learning fine-tuning,在现有强大的开源推理模型基础上训练出推理能力更强的模型。人们也可以利用这个开源模型,聚焦蒸馏出更紧凑的小模型,结合给定领域私有数据和业务逻辑复杂的推理数据集,fine-tuning出强大的领域模型,这将为领域垂直模型、小型化模型等开辟巨大的想象空间。关于增量机制和规模屏障的关系,软件工程与芯片制程是两个经典例子。软件工程通过增量机制冲破了代码集与系统复杂性的规模屏障,而芯片制程始终无法通过增量的办法冲破规模屏障。随着先进制程的纳米数每缩小一倍,所有的投资都要重新投入,导致工程投资成倍地增长,最终的结果就是资本的高度集中和全球垄断的格局。
o1的出现,似乎预示着大模型技术从预训练阶段的规模屏障有望走向类似软件工程的增量机制。如果增量发展模式成为可能,我们可能很快就会看到AI推理能力的普及和快速提升,这将极大地降低入局门槛,为创新创业带来前所未有的机遇,推动我们在AGI路上前进一大步。
垂直模型的可能
o1的发布证明了,给定优质推理数据集,通过RL可以确定性提高模型的推理能力。但如前面提到,对于OpenAI等基础模型厂商而言,选择这条路最大的风险在于:推理能力是否可以泛化?对于聚焦垂直领域的大模型应用开发者,则不存在这个令人头疼的问题——他们所面对的本来就是封闭领域。RL路线下,垂直领域的应用开发者,反而可以借鉴Reinforcement Learning Fine tuning的方式,结合领域数据和领域经验(特定领域的业务逻辑、工作流程、专家经验等),去训练一个垂直领域的小模型,提升AI在特定领域的推理能力,从而加速AI在各个应用场景落地的进程。
对应用开发者而言,这样做的好处不言而喻:提升了AI性能的同时,也加深了业务的护城河。但这一做法也存在一个潜在风险:如果底层大模型推理能力泛化被证实是可行的,或者预训练Scaling Law之下模型能力出现了再一次的飞跃,做垂直模型的公司可能会面临技术适应性差、被大模型淹没的风险。
开源差距进一步缩小
如果推理能力的增量发展模式成立,对OpenAI来说,并不是个好消息——这意味着它靠着庞大算力和数据优势所维持的领先地位可能会被动摇,增量的发展模式意味着开源相对于闭源的差距有可能被进一步缩小。社区开发者的动作非常快,Github上已经出现模仿o1的开源项目:g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains(https://github.com/bklieger-groq/g1)。对中国大模型而言,这是个好消息。
04 对应用的影响现阶段o1对开发者不够友好目前o1发布的这两个版本,对于开发者并不友好,主要体现在如下几方面:
- System Prompt不开放,开发者无法定制System Prompt
- o1的CoT推理过程不透明,这导致开发者难以优化prompt和控制推理过程。
- 限制检索增强生成 (RAG) 中的附加上下文。OpenAI提示用户在提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。这导致应用开发者无法把领域/业务相关数据上传给模型,也就导致无法让模型针对性地处理特别具体的复杂问题。
- CoT推理中所耗费的Token是个黑盒。这些Token在API响应中不可见,但仍被记账并算作输出Token,这导致了推理Token的成本难以控制和优化。这是企业客户不能接受的,如果一个东西的成本不可预测、不可控,让企业买单几乎是不可能的。这也让使用o1的应用开发者,很难做针对企业客户的应用。
推理及生成式AI的本质虽然o1对应用开发而言存在大量的局限性,但它的发布却让我们更清晰地看到了语言智能和推理能力的本质。简单来说,大模型就是通过“说”来思考的,所以思维链也好、让机器生成更细致的promt也好,本质就是让大模型多说、更多消耗Token,推理能力其实就是要让大模型把足够深入和尖锐的token说出来,就可以引导来做对推理过程。这是自然语言和思维互动的基本形式——说到了合适的token,就可以引出一段合适的推理,积累了越来越多的合适的推理过程,大模型的推理能力自然有所提高。开启应用开发的新思路这一洞察为应用开发者提供了重要启示。既然我们已经理解了推理成功的秘诀和生成式大模型的本质,那么完全可以借鉴类似的思路在应用层自己实现推理过程——要提升AI的推理能力,关键在于让它”多说”,不要吝啬token。即使短期内还用不上o1的推理能力,只要能够找到方法,让AI尽可能详细地表达其思考过程(比如,多Agent架构、思维链提示、引导AI说出自己的推理过程等等),推理能力也可以得到提升。当然,前提是基座模型要够强,同时配合好RAG,让AI在一个合理的范围内发挥,而不是没有约束地随意发挥。按此思路,在应用层提升推理能力,不仅能更好地控制成本和性能,还能更灵活地融入特定领域的知识和数据。对应用开发者来说,o1帮助开发者打开了全新的思路。
05 对OpenAI产品战略的推测
虽然o1预览版还有各种不完备,但OpenAI却仍然快速推出了该模型,用一些吸人眼球的测评结果吸引用户来用,同时价格定得很高。这么做的原因是什么?这里我们试着推测一下OpenAI的战略。o1的真实目的我们认为,o1背后OpenAI的核心目的是收集大量真实的CoT数据,其中最核心的是两部分:
- 用户提出的问题。
- 通过用户的后续行为来判定模型给出的答案是否正确。
用户的使用和反馈可以帮助OpenAI建立庞大的真实CoT数据库(一个完整的数据对:问题–>CoT推理过程–>推理结果是否满意)。随着其真实CoT数据库不断丰富,模型就可以逐步从从封闭的、特定领域的问题求解,向更加开放的、复杂的推理任务迈进。
o1定价的逻辑理解了o1发布的核心目的,再来思考它的定价,似乎就能理解OpenAI在背后的考量了:这个推理模型未必一定比4o贵,却动辄40-300倍的收费,而且一个月只给30-50次调用,搞这么高的使用门槛是为什么呢?在OpenAI这么缺营收支撑其估值的当下,为什么不更低价开放给更多用户来赚取营收?我们认为,OpenAI之所以把o1门槛提得这么高,核心是为了数据质量。价格和门槛都相当于“非诚勿扰”的牌子,否则在默认启动CoT的情况下,一下涌入太多“你好”这类问题,后续浪费的数据处理资源可能比推理token的成本高得多。而如果能通过价格和用户门槛在前端挡住没有训练价值的数据样本,进来的都是最困扰用户、用户愿意花大价钱的重要问题,模型改进的闭环一下就紧凑很多,改进的价值也大很多。
为什么o1 API要隐藏CoT过程?
我们也可以推测出,为什么o1 API中隐藏CoT推理过程,不允许用户看到中间过程的prompt。除了官方所说的安全和合规考虑之外,可能有一个最重要的原因:这些数据本身就是最宝贵的训练资源。一旦能大量获得o1的CoT推理过程作为起点,竞争者可能只要花非常有限的算力,很快就复制出类似的能力。
综上,我们认为,现阶段o1可能只是一个工具性的模型,OpenAI收够了数据,可能就会发布新的模型——要么会发布o2继续在RL路线上的探索;如果推理能力的泛化不及预期,则会回归GPT-5主线。估计未来3-6个月,OpenAI就会走出下一步。OpenAI在面对巨大的营收压力、复杂的融资环境和内部动荡之时,仍然能在o1的产品战略上如此聚焦——仅仅围绕着收集优质CoT数据展开,展现了在管理团队面对风险时的成熟度和战略定力,对于一家创业公司,这是非常难得的。
06 我们最关心的问题
虽然RL提升推理能力已经有多家头部公司在探索,我们认为,o1的发布会加速这一共识的形成,将RL从头部大模型公司的尝试迅速扩展至全行业,包括应用层。
新范式带来了根本的技术架构改变,接下来的核心问题是:企业数据和业务决策的推理能力是否可以泛化?未来这部分推理能力会放在应用层还是大模型中?行业的终局是一个强大的预训练大模型还是众多垂直的领域大模型?这些选择将决定 AI 产业的结构和技术发展的走向,也是我们接下来对该领域的核心观察锚点。
在我们看来,o1的发布真正开启了一轮非常伟大的探索过程,开始深入探索思维的本质。人类思维的过程可能是推理能力(递归细化和回溯)、记忆和学习、以及跟环境交互这三个方面都不可或缺的一个循环。o1等大模型公司在RL领域的尝试是一个很好的起点,但要真正实现这个循环,光靠静态的大模型也许是不够的,未来可能需要构建一个完整的agent system才能搞定。领域知识和经验固然重要,但是也许构建了这样的通用agent system之后,大模型就拥有了学习能力,弥补了智能上的重要一环。未来,通用模型只是需要一个进入特定领域的学习过程,就可以适配到该领域。o1的发布,让我们隐约看到了一条从大模型到拥有持续学习能力的Agent的新路线。这个方向上的探索,可能会大大加速AI的落地应用,对于应用开发者而言,意味着巨大的机遇。欢迎创业者与我们多多交流、探讨!
About Atom Capital
Atom Capital是一支由连续创业者和投资人成立的新锐风险投资基金,专注于AI、大数据和云原生领域的早期投资,聚焦颠覆式创新机遇,发掘、孵化和陪伴优秀的科技创业者成长。
暂无评论内容