专访智谱AI CEO张鹏：多模态、认知能力与通用人工智能的未来

智谱AI CEO张鹏。受访者供图

“让机器像人一样思考。”

进入位于搜狐网络大厦的智谱AI（人工智能）办公区域，公司愿景映入眼帘。随着ChatGPT、Sora相继问世，智谱公司也在这波人工智能大模型浪潮中更为忙碌，调研、合作接踵而至。

“创业像用百米的速度跑马拉松。”创业的快节奏让张鹏团队不断拓展边界，跨出舒适圈。这正是众多风口创业者的常态。

坐落在北京中关村的搜狐网络大厦，见证着中国互联网行业腾飞，助力一批又一批明星企业成长。如今，再度站在风口，吸引众多人工智能创业企业入驻。

张鹏与人工智能的缘分追溯至1998年，当时互联网行业在中国萌发，计算机尚未普及。彼时，张鹏填报了清华大学计算机专业，也逐渐打开人工智能世界的大门。张鹏在清华园浸润二十多年后，开启创业，“从研究到产业落地需要一定时间过渡，在这样的历史浪潮中，产生了科技成果向社会转化的契机，我们应该厚积薄发。”

“用人工智能技术谱写未来的华章。”这是智谱公司名称的由来，张鹏团队创业之初便试图解局——如何将研究到实践落地的过程缩短，或者亲自下场产生更大价值。

目前，智谱AI专注于人工智能大模型研发与商业化落地。近日，针对Sora技术难点、行业发展趋势以及公司商业化进展等问题，新京报贝壳财经记者专访了智谱AI CEO张鹏。

谈迭代

Sora领跑，生成视频连续性更好、逻辑性更强

贝壳财经：初次看到Sora生成的视频时感受如何？

张鹏：OpenAI近期发布了视频生成模型Sora，能够生成一分钟的高精度视频。更重要的是，让大家看到也许这是构建物理世界通用模型的可能路径。

这确实是非常不错的进展，文生视频研发有段时间了，之前可能只实现几秒，或者分辨率不高，或者是生成的画面有闪烁、跳帧、前后不一致的情况，从去年下半年开始进展还比较明显。

Sora主要的优点是生成视频的连续性更好、分辨率更高、逻辑性更强，本质上解决了一些关键性的问题，对文生视频的理解和了解更深入、广泛。

贝壳财经：文生视频的技术难点在哪，Sora的技术具有哪些突破性？

张鹏：Sora的主要技术思路是用视觉块编码（Visual Patch）的方式，把不同格式的视频进行统一编码，然后用Transformer（变换器）架构进行训练，并引入类似Diffusion的Unet方式，在降维和升维的过程中做加噪和去噪。

Sora提到的Diffusion Transformer（扩散型变换器）架构，和之前的“小”视频模型不同，Sora是一个很大的视频模型，估算起来可能和千亿Dense语言模型需要的训练量（算力）相当。

Sora可以生成长达60秒语义丰富的视频，这说明训练的序列也比较长，训练时的窗口至少也得有5s+。

贝壳财经：Sora如何反映了大模型发展水平的差异？

张鹏：Sora的出现更鲜明地体现了OpenAI在技术方面的领先，它把这种领先具象化了。

这里面有很多原因，总体上看，Open AI对大模型技术路线的认知更早、更透彻，目光更长远，足够坚持探索AGI（人工通用智能）机理。在人才方面，其团队足够强，都是世界比较顶级的人才聚集，有共同的理想和愿景。此外，专利、资金、数据等各资源能够集中发挥作用。

贝壳财经：追赶或者实现Sora的技术有时间表吗？

张鹏：不好判断，文生视频技术有许多团队都在研究，关键是需要点对点针对性解决问题。此外，模型规模变大，数据量增加，数据的标注、清洗、选择、合成都有待探索，所以很难有准确时间预估。

谈落地

需要承认差距，完美的产品靠打磨

贝壳财经：智谱已经在大语言模型上有诸多成果，比如智谱清言去年上线公测，目前使用效果如何？

张鹏：智谱清言是C端产品，产品本身根植在模型之上，它的版本迭代和效果提升，绝大部分来自于模型本身的迭代，从去年到今年更迭了3个版本，效果提升了许多。

智谱清言产品本身也做了非常多的优化，早期具备简单聊天功能，现在已经是比较全面的AI效率工具，无论是工作学习和日常生活都可以用AI赋能。

贝壳财经：1月16日，智谱AI发布了基座大模型GLM-4，从标准大模型评测角度看，其性能整体上已经逼近GPT-4。不过，如何看待有些评测的效果并不是很惊艳？

张鹏：从主流、标准的大模型测评角度看，我们在1月的智谱AI技术开放日上已经公布了完整的 benchmark（基准）测评结果，GLM-4性能整体比肩GPT-4，在一些测评中还有所反超，比如在基于AlignBench的测评中，GLM-4的中文对齐能力优于GPT-4。

当然，我们留意到了在某些案例中，智谱清言的效果不尽如人意，我们的产品团队正在持续优化，努力为所有用户提供优秀体验。完美的产品是靠打磨出来的，大模型是个新生事物，在发展过程中肯定会出现各种问题，在某一方面存在差距非常正常，我们正视差距，努力做到超越大家的预期。

贝壳财经：你曾表示希望2024年让大模型真正落地，大模型如何从实验室到商业化？

张鹏：2021年就提出商业化落地，目前商业化效果还可以，现在已经有2000多家合作伙伴，其中有1000多家实现了规模化落地，有200多家深度共创的用户。商业化当然还有很大的空间。

另外，我们也在思考大模型商业化落地的逻辑和范式是什么？市场上可能有各种各样的声音，是做通用技术模型还是做行业垂直模型，是以标准化产品的方式做平台，还是定制化开发应用落地，大家都有很多的讨论。

贝壳财经：大家用智谱大模型，更看重产品的性价比？

张鹏：我觉得我们给大家的价值应该是技术本身的优势，重要的是把技术做到最好，技术决定模型能力的好与坏。我们努力给客户提供有竞争力的价格方案。

贝壳财经：对标OpenAI的过程中，智谱AI有什么转变吗？

张鹏：我们起步比OpenAI晚，人家做得比我们好，需要承认差距，但是我们的目标一致，那就是AGI。现在OpenAI还是处于领先地位，有非常多值得我们学习的地方。

谈布局

让机器像人一样思考，通用人工智能不是单项能力突破

贝壳财经：智谱在文生视频方面有无布局，下一步有何计划？

张鹏：团队从2021年开始布局文生图和文生视频。其中，根据CogView（模型名），我们研发了基于大模型的文本到视频生成模型CogVideo，采用了多帧率分层训练策略，生成高质量的视频片段，提出一种基于递归插值的方法，逐步生成与每个子描述相对应的视频片段，并将这些视频片段逐层插值得到最终的视频片段。这个工作引起了脸书、谷歌、微软的广泛关注。

实现全系列产品矩阵对标Open AI，是我们大模型系列产品布局的一贯目标，多模态模型在其中扮演着重要角色，也始终是我们的研究重点。

未来智谱AI也会第一时间向大家公布我们在多模态方面的最新成果。

贝壳财经：除了文生图、文生视频外，智谱是否有其他计划？

张鹏：首先创业团队做事要聚焦，我们布局文生图、文生视频，最终还是要收拢，并不是去做一堆的模型，更要看重技术之间解决了哪些核心问题，是否具有一致性。我们的愿景是“让机器像人一样思考”。

最后要解决通用人工智能认知问题。文生图、文生视频就是把人的认知能力拆解，一项一项解决，最终才能把这些事情统合起来解决。真正的通用人工智能不是单项能力的突破，而是追求本质上的认知能力突破。一旦让机器具备这种认知能力，就有可能突破人脑上限。

THE END