OpenAI 新发布的 o1 推理模型,可谓是 AI 领域的核弹级消息!o1 不仅在性能上碾压 GPT-4o,更重要的是,它首次在语言模型领域实现了强化学习和“私密思维链”,让 AI 真正拥有了“思考”能力!
然而,鲜为人知的是,这项突破性技术的核心原理,早在今年 1月份就由谷歌和斯坦福大学的研究人员在一篇名为 “思维链赋能 Transformer 解决本质上的串行问题” 的 ICLR 2024(人工智能顶级会议) 论文中提出!
谷歌错失良机?
就在OpenAI o1推出不久后,这篇论文的作者之一 Denny Zhou(DeepMind 的首席科学家) 发出感慨:
“LLM 推理能力的极限是什么?天空才是极限。我们已经用数学方法证明了 Transformer 可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理 token。值得注意的是,恒定深度就足够了。”
简单来说,这篇论文的核心思想就是:只要给 LLM 足够的时间去“思考”,它就能解决任何问题! 而这个“思考”过程,就是通过生成一系列中间推理 token 来实现的
然而,令人尴尬的是,谷歌却没有将这一重要发现转化为实际产品,再次白白错失了 AI 推理领域的重要机遇!
OpenAI o1 的发布,恰恰证明了这篇论文的价值! Bindu Reddy 一针见血地指出:
“谷歌已经放弃了这个,以及过去几篇关于 CoT 的论文,而这篇论文正好说明了 o1 的性能。这证明了 Transformer 可以通过在推理过程中生成中间推理 token 来解决大多数问题。值得注意的是,他们做了 A++ 的研究,但在 Gemini 方面仍然落后。”
OpenAI o1 的核心技术:强化学习 (RL) + “私密思维链”
o1 模型正是利用了 RL 和“私密思维链”这两项技术,实现了 AI 推理能力的巨大飞跃
“私密思维链”,其实可能就是 Denny Zhou 等人提出的“中间推理 token ”! o1 模型会像人类一样,在给出答案之前先进行“思考”,而这个“思考”过程,就是通过生成一系列“私密思维链”来实现的。
现在,让我们简要分析一下这篇由Zhiyuan Li、Hong Liu ,Denny Zhou和 Tengyu Ma 共同撰写的 ICLR 2024 论文的核心内容:
paper:https://arxiv.org/abs/2402.12875
1. CoT:打破 Transformer 的“并行诅咒”
传统的 Transformer 模型虽然在自然语言处理领域取得了巨大成功,但它有一个致命弱点:擅长并行计算,但不擅长串行推理。 这就像一个超级聪明的孩子,能快速完成大量的计算题,但却无法理解简单的逻辑推理
而 CoT (Chain of Thought,思维链) 技术,就是为了解决这个问题而诞生的。CoT 的灵感来源于人类的思维过程,它可以让 Transformer 模拟人类的思考方式,通过生成一系列中间推理步骤,来解决那些需要逻辑推理的复杂问题
2. CoT 的理论基础:从电路复杂度到 Transformer 表达能力
论文作者用电路复杂性理论来解释 CoT 的强大之处。他们将 Transformer 的计算过程与电路模型进行类比,并将 Transformer 能够解决的问题类别定义为“CoT 复杂性类”
他们证明了传统的 Transformer 模型(没有 CoT)只能解决 AC0 电路能够解决的问题,而 AC0 电路是一种计算能力非常有限的电路模型
但是,如果加入 CoT,Transformer 的表达能力将得到质的飞跃!
作者用数学严格证明了:
只要 CoT 步骤足够多,Transformer 就能模拟任意大小的布尔电路,从而解决 P/poly 问题,这是一个包含了 P 问题的更大的问题类别。这相当于证明了 CoT 可以让 Transformer 解决几乎所有可以用计算机解决的问题! 🤯
3. CoT 的实验验证:从模加到电路值问题,CoT 全面胜出!
为了进一步验证 CoT 的有效性,论文作者设计了四个核心问题:
模加: 计算两个数的和,并对某个整数取模
排列组合: 计算一组排列的组合
迭代平方: 对一个数进行多次平方运算
电路值问题: 计算一个布尔电路的输出值
其中,模加问题可以用并行计算高效地解决,而其他三个问题则需要串行计算。实验结果表明:
对于模加问题,即使不使用 CoT,Transformer 也能取得不错的效果
但对于其他三个问题,使用 CoT 可以显著提高 Transformer 的准确率,尤其是在模型深度较浅的情况下
用更准确学术的表述,这篇论文结论为:
通过表达能力的视角研究了仅解码器结构的 Transformer 的链式思维(CoT)能力。借用电路复杂性理论的术语,定义了一个新的复杂性类 CoT[T(n), d(n), s(n), e(n)],它对应于可以通过常深度、常精度的仅解码器结构 Transformer 解决的问题类,其中 O(T(n)) 表示 CoT 的执行步骤数,O(d(n)) 表示嵌入大小,O(e(n)) 表示指数部分的位数,O(s(n)) 表示有效位数。论文理论表明,增加 CoT 的长度可以显著增强 Transformer 的表达能力。通过实验验证了理论,针对四个算术问题进行测试。发现,对于其中三个本质上是串行的问题,Transformer 只有通过使用 CoT 才能表达出标注值函数
4. CoT 的未来展望:通往 AGI 的必经之路?
论文作者认为, 这项工作从表现力的角度提供了对纯解码器 Transformer 的 CoT 威力的理论理解,CoT 技术为训练更强大的 LLM 推理模型提供了一种全新的思路,并预测 CoT 将成为未来 LLM 发展的重要方向。
大家可能已经注意到了,论文四位作者全是华人:
Zhiyuan Li,本科毕业于清华大学姚班,并于2022年在普林斯顿大学获得计算机科学博士学位,博士后师从马腾宇。芝加哥丰田技术学院 (TTIC) 的终身制助理教授,他的研究重点是机器学习和优化,尤其是深度学习理论
Hong Liu,本科毕业于清华大学电子工程系,斯坦福大学计算机科学专业的博士生,师从 Tengyu Ma 教授,目前的研究兴趣主要集中在大语言模型上,尤其是它们的优化和适应性
Denny Zhou,拥有中国科学院的人工智能博士学位。谷歌 DeepMind 的首席科学家/研究主管,领导着 LLM 推理团队,致力于构建和教授大型语言模型 (LLM) 以实现完美的泛化。他们的主要研究成果包括:思维链提示、自洽性、从少到多提示、自调试、思维链解码、类比推理、指令微调、组合泛化、少样本提示和推理的数学理论。他获得了 2022 年谷歌研究技术影响力奖和 2022 年 WSDM 时间检验奖
Tengyu Ma,本科毕业于清华大学姚班,于2017年在美国普林斯顿大学获得计算机科学博士学位。斯坦福大学计算机科学与统计学助理教授,主要研究方向包括机器学习、算法及其理论,如深度学习、(深度)强化学习、预训练/基础模型、鲁棒性、非凸优化、分布式优化和高维统计
OpenAI o1 模型的成功,正是对这篇论文最好的证明!它不仅验证了 CoT 技术的可行性和有效性,也让我们看到了 AI 推理领域的巨大潜力!
谷歌痛失好局,令人惋惜,但 o1 的成功也证明了 AI 推理领域的巨大潜力!
暂无评论内容