创业一年的贾扬清,选择的方向是 AI Infra。
贾扬清是最受关注的全球 AI 科学家之一,博士期间就创立并开源了著名的深度学习框架 Caffe,被微软、雅虎、英伟达等公司采用。
2023 年 3 月,他从阿里离职创业,并在随后录制的播客中说,自己并非是因为 ChatGPT 火爆而创业,后来创业项目浮出水面,也确实证实,他没有直接入局大模型。硅谷著名风投 a16z 在去年发表的一篇关于 AIGC 的文章中就曾经提到过:“目前来看,基础设施提供商是这个市场上最大的赢家。”
贾扬清在去年的文章中也提到,“不过要做这个赢家,就要更聪明地设计 Infra 才行”。在他创办的公司 Lepton.AI 的官网上,有一句醒目的 Slogan“Build AI The Simple Way(以简单的方式构建 AI)”。
最近,贾扬清在高山书院硅谷站“高山夜话”活动中,给到访的中国企业家做了一次深度的闭门分享,分享的内容直击行业痛点,首先从他最专业的 AI Infra 开始,详细分析了 AI 时代的 Infra,到底有什么新的特点;然后,基于 AI 大模型的特点,帮助企业算了一笔比较详细的经济账——在不可能三角成本、效率、效果中,如何选才能达到比较好的平衡点。
最后也讨论到 AI 整个产业链的增量机会及目前大模型商业模式的纠结点:
“每次训练一个基础大模型,都要从零开始。形象一点来描述,这次训练‘投进去 10 个亿,下次还要再追加投 10 个亿’,而模型迭代速度快,可以赚钱的窗口也许只有大概一年。所以每个人都在思考这个终极问题,‘大模型的商业模式到底怎样才能真正有效?’”
贾扬清的过往经验大部分是 TOB 的。他也多次在分享中很坦诚地表示,“TOC 我看不太清楚,TOB 看得更清晰一些。”
“AI 从实验室或者说从象牙塔出来到应用的过程中,该蹚过的雷,都会经历一遍。”无论大语言模型给人们多少惊艳,它的发展都不是空中楼阁,既往的经验和范式有变也有不变。
为了方便阅读,我们在文首提炼几个主要观点,但强烈建议完整阅读,以了解贾扬清完整的思考逻辑:
一个通用的大模型的效果固然非常好,但是在企业实际应用当中,中小型模型加上自己的数据,可能反而能够达到一个更好的性价比。
至于成本问题,我们也算了一笔经济账:一台 GPU 服务器就可以提供支撑的 7B、13B 模型通过微调,性价比可能比直接使用闭源大模型高 10 倍以上。
我个人认为,英伟达在接下来的 3~5 年当中,还会是整个 AI 硬件提供商中绝对的领头羊,我认为它的市场发展占有率不会低于 80%。但是今天 AI 模型逐渐标准化,我们也看到了硬件层面另外一个机会。
目前我们看到 AI 应用中,有两大类应用,已经跨越死亡谷,开始有比较持续的流量:一个是提效,另外一个是娱乐。
大量的传统行业应用,其实是 AI 行业里值得探究的深水区。
我个人关于 Supper App 的观点可能稍微保守一些,也有可能是因为我自己的经历很多都在做 TOB 的服务,我认为 Super APP 会有,但是会很少。
以下为分享内容精华整理:
随着大型语言模型的兴起,出现了一个新概念——Scaling Law(规模定律)。根据 Scaling Law,大语言模型的性能与其参数量、训练数据的大小和计算量呈幂律关系。简单来说,用通用的方法给模型巨大的数据,让模型能够拥有输出我们想要的结果的能力。
这就使得 AI 计算与“云计算”有很大的不同,云计算主要服务于互联网时代的需求,关注资源的池化和虚拟化:
怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;
如何在这种虚拟环境下把利用率做上去,或者说超卖;
怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。
用比较通俗的语言来解释,互联网的主要需求是处理各种网页、图片、视频等,分发给用户,让“数据流转(Moving Data Around)起来。云服务关注数据处理的弹性,和便捷性。
但是 AI 计算更关注以下几点:
并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。
需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。
对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。
没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。
今天的 AI 计算 ,性能和规模是第一位的,传统云服务所涉及到的能力,是第二位的。
这其实很像传统高性能计算领域的需求,在七八十年代我们就已经拥有超级计算机,他们体积庞大,能够提供大量的计算能力,可以完成气象模拟等服务。
我们曾做过一个简单的估算:过去,训练一个典型的图像识别模型大约需要 1 ExaFlop 的计算能力。为了形象地描述这一计算量,可以想象全北京的所有人每秒钟进行一次加减乘除运算,即便如此,也需要几千年的时间才能完成一个模型的训练。
那么,如果单台 GPU 不足以满足需求,我们应该如何应对呢?答案是可以将多台 GPU 连接起来,构建一个类似于英伟达的 Super POD。这种架构与最早的高性能计算机非常相似。
这时候,如果一台 GPU 不够怎么办?可以把一堆 GPU 连起来,做成一个类似于英伟达的 Super POD,它和最早的高性能计算机长得很像。
这就意味着,我们又从“数据流转”的需求,回归到了“巨量运算”的需求,只是现在的“巨量运算”有两个进步,一是用于计算的 GPU 性能更高,另外就是软件更易用。伴随着 AI 的发展,这将是一个逐渐加速的过程。今年 NVIDIA 推出的新的 DGX 机柜,一个就是几乎 1Exaflops per second,也就是说理论上一秒的算力就可以结束训练。
去年我和几位同事一起创办了 Lepton AI。Lepton 在物理中是“轻子”的意思。我们都有云计算行业的经验,认为目前 AI 的发展给“云”带来一个完全转型的机会。所以今天我想重点分享一下,在 AI 的时代,我们应该如何重新思考云的 Infrastructure。
暂无评论内容