谷歌再次痛失好局！OpenAI o1证实谷歌ICLR 2024论文价值“四位华人贡献”

OpenAI 新发布的 o1 推理模型，可谓是 AI 领域的核弹级消息！o1 不仅在性能上碾压 GPT-4o，更重要的是，它首次在语言模型领域实现了强化学习和“私密思维链”，让 AI 真正拥有了“思考”能力！

然而，鲜为人知的是，这项突破性技术的核心原理，早在今年 1月份就由谷歌和斯坦福大学的研究人员在一篇名为 “思维链赋能 Transformer 解决本质上的串行问题” 的 ICLR 2024（人工智能顶级会议） 论文中提出！

谷歌错失良机？

就在OpenAI o1推出不久后，这篇论文的作者之一 Denny Zhou（DeepMind 的首席科学家）发出感慨：

“LLM 推理能力的极限是什么？天空才是极限。我们已经用数学方法证明了 Transformer 可以解决任何问题，只要允许它们根据需要生成任意数量的中间推理 token。值得注意的是，恒定深度就足够了。”

简单来说，这篇论文的核心思想就是：只要给 LLM 足够的时间去“思考”，它就能解决任何问题！ 而这个“思考”过程，就是通过生成一系列中间推理 token 来实现的

然而，令人尴尬的是，谷歌却没有将这一重要发现转化为实际产品，再次白白错失了 AI 推理领域的重要机遇！

OpenAI o1 的发布，恰恰证明了这篇论文的价值！ Bindu Reddy 一针见血地指出：

“谷歌已经放弃了这个，以及过去几篇关于 CoT 的论文，而这篇论文正好说明了 o1 的性能。这证明了 Transformer 可以通过在推理过程中生成中间推理 token 来解决大多数问题。值得注意的是，他们做了 A++ 的研究，但在 Gemini 方面仍然落后。”

OpenAI o1 的核心技术：强化学习 (RL) + “私密思维链”

o1 模型正是利用了 RL 和“私密思维链”这两项技术，实现了 AI 推理能力的巨大飞跃

“私密思维链”，其实可能就是 Denny Zhou 等人提出的“中间推理 token ”！ o1 模型会像人类一样，在给出答案之前先进行“思考”，而这个“思考”过程，就是通过生成一系列“私密思维链”来实现的。

现在，让我们简要分析一下这篇由Zhiyuan Li、Hong Liu ，Denny Zhou和 Tengyu Ma 共同撰写的 ICLR 2024 论文的核心内容：

paper：https://arxiv.org/abs/2402.12875

1. CoT：打破 Transformer 的“并行诅咒”

传统的 Transformer 模型虽然在自然语言处理领域取得了巨大成功，但它有一个致命弱点：擅长并行计算，但不擅长串行推理。 这就像一个超级聪明的孩子，能快速完成大量的计算题，但却无法理解简单的逻辑推理

而 CoT (Chain of Thought，思维链) 技术，就是为了解决这个问题而诞生的。CoT 的灵感来源于人类的思维过程，它可以让 Transformer 模拟人类的思考方式，通过生成一系列中间推理步骤，来解决那些需要逻辑推理的复杂问题

2. CoT 的理论基础：从电路复杂度到 Transformer 表达能力

论文作者用电路复杂性理论来解释 CoT 的强大之处。他们将 Transformer 的计算过程与电路模型进行类比，并将 Transformer 能够解决的问题类别定义为“CoT 复杂性类”

他们证明了传统的 Transformer 模型（没有 CoT）只能解决 AC0 电路能够解决的问题，而 AC0 电路是一种计算能力非常有限的电路模型

但是，如果加入 CoT，Transformer 的表达能力将得到质的飞跃！

作者用数学严格证明了：

只要 CoT 步骤足够多，Transformer 就能模拟任意大小的布尔电路，从而解决 P/poly 问题，这是一个包含了 P 问题的更大的问题类别。这相当于证明了 CoT 可以让 Transformer 解决几乎所有可以用计算机解决的问题！ 🤯

3. CoT 的实验验证：从模加到电路值问题，CoT 全面胜出！

为了进一步验证 CoT 的有效性，论文作者设计了四个核心问题：

模加： 计算两个数的和，并对某个整数取模

排列组合： 计算一组排列的组合

迭代平方： 对一个数进行多次平方运算

电路值问题： 计算一个布尔电路的输出值

其中，模加问题可以用并行计算高效地解决，而其他三个问题则需要串行计算。实验结果表明：

对于模加问题，即使不使用 CoT，Transformer 也能取得不错的效果

但对于其他三个问题，使用 CoT 可以显著提高 Transformer 的准确率，尤其是在模型深度较浅的情况下

用更准确学术的表述，这篇论文结论为：

通过表达能力的视角研究了仅解码器结构的 Transformer 的链式思维（CoT）能力。借用电路复杂性理论的术语，定义了一个新的复杂性类 CoT[T(n), d(n), s(n), e(n)]，它对应于可以通过常深度、常精度的仅解码器结构 Transformer 解决的问题类，其中 O(T(n)) 表示 CoT 的执行步骤数，O(d(n)) 表示嵌入大小，O(e(n)) 表示指数部分的位数，O(s(n)) 表示有效位数。论文理论表明，增加 CoT 的长度可以显著增强 Transformer 的表达能力。通过实验验证了理论，针对四个算术问题进行测试。发现，对于其中三个本质上是串行的问题，Transformer 只有通过使用 CoT 才能表达出标注值函数

4. CoT 的未来展望：通往 AGI 的必经之路？

论文作者认为，这项工作从表现力的角度提供了对纯解码器 Transformer 的 CoT 威力的理论理解，CoT 技术为训练更强大的 LLM 推理模型提供了一种全新的思路，并预测 CoT 将成为未来 LLM 发展的重要方向。

大家可能已经注意到了，论文四位作者全是华人：

Zhiyuan Li，本科毕业于清华大学姚班，并于2022年在普林斯顿大学获得计算机科学博士学位，博士后师从马腾宇。芝加哥丰田技术学院 (TTIC) 的终身制助理教授，他的研究重点是机器学习和优化，尤其是深度学习理论

Hong Liu，本科毕业于清华大学电子工程系，斯坦福大学计算机科学专业的博士生，师从 Tengyu Ma 教授，目前的研究兴趣主要集中在大语言模型上，尤其是它们的优化和适应性

Denny Zhou，拥有中国科学院的人工智能博士学位。谷歌 DeepMind 的首席科学家/研究主管，领导着 LLM 推理团队，致力于构建和教授大型语言模型 (LLM) 以实现完美的泛化。他们的主要研究成果包括：思维链提示、自洽性、从少到多提示、自调试、思维链解码、类比推理、指令微调、组合泛化、少样本提示和推理的数学理论。他获得了 2022 年谷歌研究技术影响力奖和 2022 年 WSDM 时间检验奖