贾扬清分享AI行业洞察：硅谷创业一年的感悟

创业一年的贾扬清，选择的方向是 AI Infra。

贾扬清是最受关注的全球 AI 科学家之一，博士期间就创立并开源了著名的深度学习框架 Caffe，被微软、雅虎、英伟达等公司采用。

2023 年 3 月，他从阿里离职创业，并在随后录制的播客中说，自己并非是因为 ChatGPT 火爆而创业，后来创业项目浮出水面，也确实证实，他没有直接入局大模型。硅谷著名风投 a16z 在去年发表的一篇关于 AIGC 的文章中就曾经提到过：“目前来看，基础设施提供商是这个市场上最大的赢家。”

贾扬清在去年的文章中也提到，“不过要做这个赢家，就要更聪明地设计 Infra 才行”。在他创办的公司 Lepton.AI 的官网上，有一句醒目的 Slogan“Build AI The Simple Way（以简单的方式构建 AI）”。

最近，贾扬清在高山书院硅谷站“高山夜话”活动中，给到访的中国企业家做了一次深度的闭门分享，分享的内容直击行业痛点，首先从他最专业的 AI Infra 开始，详细分析了 AI 时代的 Infra，到底有什么新的特点；然后，基于 AI 大模型的特点，帮助企业算了一笔比较详细的经济账——在不可能三角成本、效率、效果中，如何选才能达到比较好的平衡点。

最后也讨论到 AI 整个产业链的增量机会及目前大模型商业模式的纠结点：

“每次训练一个基础大模型，都要从零开始。形象一点来描述，这次训练‘投进去 10 个亿，下次还要再追加投 10 个亿’，而模型迭代速度快，可以赚钱的窗口也许只有大概一年。所以每个人都在思考这个终极问题，‘大模型的商业模式到底怎样才能真正有效？’”

贾扬清的过往经验大部分是 TOB 的。他也多次在分享中很坦诚地表示，“TOC 我看不太清楚，TOB 看得更清晰一些。”

“AI 从实验室或者说从象牙塔出来到应用的过程中，该蹚过的雷，都会经历一遍。”无论大语言模型给人们多少惊艳，它的发展都不是空中楼阁，既往的经验和范式有变也有不变。

为了方便阅读，我们在文首提炼几个主要观点，但强烈建议完整阅读，以了解贾扬清完整的思考逻辑：

一个通用的大模型的效果固然非常好，但是在企业实际应用当中，中小型模型加上自己的数据，可能反而能够达到一个更好的性价比。

至于成本问题，我们也算了一笔经济账：一台 GPU 服务器就可以提供支撑的 7B、13B 模型通过微调，性价比可能比直接使用闭源大模型高 10 倍以上。

我个人认为，英伟达在接下来的 3~5 年当中，还会是整个 AI 硬件提供商中绝对的领头羊，我认为它的市场发展占有率不会低于 80%。但是今天 AI 模型逐渐标准化，我们也看到了硬件层面另外一个机会。

目前我们看到 AI 应用中，有两大类应用，已经跨越死亡谷，开始有比较持续的流量：一个是提效，另外一个是娱乐。

大量的传统行业应用，其实是 AI 行业里值得探究的深水区。

我个人关于 Supper App 的观点可能稍微保守一些，也有可能是因为我自己的经历很多都在做 TOB 的服务，我认为 Super APP 会有，但是会很少。

以下为分享内容精华整理：

随着大型语言模型的兴起，出现了一个新概念——Scaling Law（规模定律）。根据 Scaling Law，大语言模型的性能与其参数量、训练数据的大小和计算量呈幂律关系。简单来说，用通用的方法给模型巨大的数据，让模型能够拥有输出我们想要的结果的能力。

这就使得 AI 计算与“云计算”有很大的不同，云计算主要服务于互联网时代的需求，关注资源的池化和虚拟化：

怎么把计算，存储，网络，从物理资源变成虚拟的概念，“批发转零售”；

如何在这种虚拟环境下把利用率做上去，或者说超卖；

怎么更加容易地部署软件，做复杂软件的免运维（比如说，容灾、高可用）等等，不一而足。

用比较通俗的语言来解释，互联网的主要需求是处理各种网页、图片、视频等，分发给用户，让“数据流转（Moving Data Around）起来。云服务关注数据处理的弹性，和便捷性。

但是 AI 计算更关注以下几点：

并不要求特别强的虚拟化。一般训练会“独占”物理机，除了简单的例如建立虚拟网络并且转发包之外，并没有太强的虚拟化需求。

需要很高性能和带宽的存储和网络。例如，网络经常需要几百 G 以上的 RDMA 带宽连接，而不是常见的云服务器几 G 到几十 G 的带宽。

对于高可用并没有很强的要求，因为本身很多离线计算的任务，不涉及到容灾等问题。

没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高（否则 GPU 运维团队就该去看了），同时训练本身经常以分钟级别来做 checkpointing，在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。

今天的 AI 计算，性能和规模是第一位的，传统云服务所涉及到的能力，是第二位的。

这其实很像传统高性能计算领域的需求，在七八十年代我们就已经拥有超级计算机，他们体积庞大，能够提供大量的计算能力，可以完成气象模拟等服务。

我们曾做过一个简单的估算：过去，训练一个典型的图像识别模型大约需要 1 ExaFlop 的计算能力。为了形象地描述这一计算量，可以想象全北京的所有人每秒钟进行一次加减乘除运算，即便如此，也需要几千年的时间才能完成一个模型的训练。

那么，如果单台 GPU 不足以满足需求，我们应该如何应对呢？答案是可以将多台 GPU 连接起来，构建一个类似于英伟达的 Super POD。这种架构与最早的高性能计算机非常相似。

这时候，如果一台 GPU 不够怎么办？可以把一堆 GPU 连起来，做成一个类似于英伟达的 Super POD，它和最早的高性能计算机长得很像。

这就意味着，我们又从“数据流转”的需求，回归到了“巨量运算”的需求，只是现在的“巨量运算”有两个进步，一是用于计算的 GPU 性能更高，另外就是软件更易用。伴随着 AI 的发展，这将是一个逐渐加速的过程。今年 NVIDIA 推出的新的 DGX 机柜，一个就是几乎 1Exaflops per second，也就是说理论上一秒的算力就可以结束训练。

去年我和几位同事一起创办了 Lepton AI。Lepton 在物理中是“轻子”的意思。我们都有云计算行业的经验，认为目前 AI 的发展给“云”带来一个完全转型的机会。所以今天我想重点分享一下，在 AI 的时代，我们应该如何重新思考云的 Infrastructure。

THE END