智谱深度推理模型 GLM-Zero 预览版震撼上线 – 领先技术探索

IMG_256

在 2024 年的最后一天,我们将发布我们本年度最后一个模型 GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。

GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面的表现大幅提升,其在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。

目前 GLM-Zero-Preview 已经上线使用:

用户可以在「智谱清言」(chatglm.cn)中的「Zero推理模型」智能体免费使用,支持上传文字或图片,模型会输出完整推理过程;

开发者可以在「智谱开放平台」(bigmodel.cn)中,通过 API 进行调用。

目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距。未来,我们将持续优化迭代强化学习技术。很快,我们将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术。

01

模型表现

我们探索并验证了强化学习在增强模型深度推理能力方面不可取代的作用。随着强化学习训练量的增加,模型在深度推理等方面的效果稳步提升。

此外,我们也深入探究了模型在推理阶段的 scaling law,随着模型可以思考的 token 数变多以及更多的计算量,模型给出的结果质量也稳步提升,体现了模型“自我反思和优化、复杂问题分解、尝试用不同方法解决问题”等能力——这与人类的思考决策过程类似。

与现有模型不同,GLM-Zero-Preview 能够初步实现推理过程中自主决策、问题拆解和尝试多种方式解决问题。

模型表现如下:

IMG_257

02

实测案例

逻辑推理

在逻辑推理方面,GLM-Zero-Preview 善于识别逻辑漏洞,能够模拟多种假设和可能性。在以下案例中,GLM-Zero-Preview 不仅能够识别图片中的数字,还能通过反思,发现答案的关键在于“9”可以倒置为“6”。

思考过程

IMG_258

数学

在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题。以 2025 年考研数学一为例,GLM-Zero-Preview 得分为 126,达到优秀研究生水平。GLM-Zero-Preview 能够提供详细的解题过程,帮助用户理解问题的核心思路,成为大家学习数学的好帮手。

IMG_259

图|2025 年考研数学一卷最后一题

思考过程

IMG_260

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容