贾扬清团队发文阐述H100 GPU的一切

这篇文章将会告诉你有关 H100 GPU 市场的一切。

GPU 市场可能非常复杂，难以驾驭。如果你花了数小时搜索有关 H100 市场的信息，可能会遇到无数带有类似信息的报价：“请与我们的销售人员联系。”

所有 GPU 基础设施选项可能看起来都一样，但它们并不一样——尤其是如果你听说过有关稳定性问题和管理 GPU 集群的隐藏挑战的故事。

GPU 市场缺乏全面的指南，Lepton AI团队特地分享了其见解，尤其是关于旗舰 H100 GPU 的见解。截至 2024 年 8 月底，本指南将涵盖：

市场上各种期权的一般价格是多少？

如何确保 GPU 可靠？

除了 GPU 之外的硬件规格是否重要？

GPU 在哪里？位置重要吗？

Lepton AI 是 Caffe、ONNX、PyTorch 和 etcd 背后的团队，创始人为贾扬清。在之前的履历中，Lepton AI 为一些世界上最大的科技公司运营 AI 基础设施，包括 Meta、Uber 和阿里巴巴。

Lepton AI 正在构建 AI 云，在所有主要 IaaS 提供商上运行大量 GPU 资源，并为客户提供本地资源，能够为训练和推理提供最具成本效益和最可靠的解决方案。

获取 GPU：定价

首先是价格。简而言之，H100 的价格将维持一段时间，但最终会下降，而且租赁期限越来越短，从而可以更灵活地规划容量。我们将介绍租用和购买 GPU 之间的比较，并按关键参数细分价格。

1. 租赁：从短期到长期的期望

H100 和 A100 期限内每小时价格

市场奖励可预测性

到目前为止，访问 H100 GPU 的最常见方式是预留计算能力。这是因为 GPU 价格昂贵，供应商不喜欢闲置 GPU。预留提供了可预测性，而您作为用户则能获得更优惠的价格。

预订通常以 6 个月的最低承诺开始。对于小型集群（16 到 512 个 GPU 之间），当前公平基准定价为 6 个月承诺约 2.60 美元/小时，12 个月承诺约 2.40 美元/小时，长期承诺不到 2.20 美元/小时。

这些价格包括满载配置，包括服务器级 CPU、2 TB 内存、40 TB 本地 NVMe 存储和 InfiniBand/RoCE 互连（我们稍后将介绍硬件规格）。

美国以外的定价可能会有所不同，具体取决于具体位置，某些地区会根据当地情况提供较低或较高的价格。但一般来说，如果您发现价格与上述价格有很大偏差，您可以询问根本原因，以确保您选择了一家好的供应商。

对于大规模集群（超过 512 个 GPU），定价变化很大且取决于多种因素，因此很难建立标准基线。

按需服务正在成为一种趋势

在 2023 年末和 2024 年初，按需访问 GPU 几乎是不可能的。尽管 Lambda Labs 以每小时约 3.50 美元的价格提供按需 H100 GPU，但可用性极其有限，通常需要很大的运气才能获得一台机器。我们也看到按需领域正在发生变化。

目前，按需 H100 GPU 更容易获得，Lambda Labs、Voltage Park、DigitalOcean、Runpod 和 CoreWeave 等多家供应商的价格约为每小时 3 至 3.5 美元。然而，这些按需 H100 GPU 通常有局限性，例如缺乏高带宽 GPU 结构（如 InfiniBand 或 RoCE），并且等待时间比普通的基于 CPU 的按需资源更长。

A100 作为 H100 定价趋势的基准

A100 GPU 的历史为我们提供了有关 H100 市场当前趋势的有用见解。当 A100 于 2020 年首次发布时，租赁费用为每小时 2.4 美元。到 2023 年，这一价格已降至每小时 1.8 美元，到 2024 年，价格进一步下降至约每小时 1.4 美元。价格下降伴随着可用性的显着提高。例如，Azure 现在提供具有合理可用性和诱人折扣的A100 现货实例。

H100 似乎也走上了类似的道路，过去一年价格下降了约 20%。交货时间过去长达 6 个月，现在已缩短至几周甚至更短。然而，H100 的定价仍不明朗，而且受到营销策略的严重影响。

展望未来，由于即将推出的 Blackwell GPU 存在不确定性以及需求变化，预测未来的 H100 价格很困难。即便如此，我们预计供应将继续改善，定价也将变得更加清晰。随着可用性不再是问题，可靠性、支持和软件功能等因素在选择不同 GPU 时将变得更加重要。

2. 购买：成本明细

另一种选择是预先购买机器。“我听说云提供商收取的费用很高。我应该自己构建 GPU 集群吗？”

我们将做出一些会计假设：机器和其他部件将在 4 年内线性折旧；我们假设价格在 4 年内都相同；我们忽略财务因素（购买需要更高的预付款）。当然，这些都是粗略的简化，但它们有助于使计算更清晰。我们还将把所有内容转换为“每 GPU 每小时”价格，以便于比较。

我们将成本分解为以下几个部分：计算硬件、网络硬件、电力和其他 IDC 成本以及备件。

H100 BOM 成本明细

计算硬件：1.1 美元/小时

主要成本因素无疑是硬件。配备 8 个 H100 GPU 的戴尔 HGX 系统，通常配置 2TB 内存和 40TB NVMe 存储，售价约为 280,000 美元。Supermicro 的类似配置略便宜，约为 270,000 美元。考虑到销售税，这相当于每 GPU 小时约 1.10 美元。

网络硬件：0.2 美元/小时

通常，如果要构建一个用于大规模分布式计算的微型集群，还需要部署高性能网络。通常，这涉及两部分：服务器上的网络设备以及用于连接服务的交换机和电缆。根据集群的规格和规模，预计网络成本将占机器成本的 20% 以上。您可以在本文后面的部分阅读有关网络规格的更多信息。我们大致估计为每 GPU 小时 0.2 美元左右。

电力及其他IDC成本：0.3美元/小时

每台充分利用的 H100 GPU 消耗大约 800 瓦的电力。美国的平均电力和 IDC 租金约为每千瓦每月 200 美元，因此每台 GPU 的每月能源成本约为 160 美元。此外，每台机器的现场维护服务费（有时称为“智能手”）通常需要每三个月一小时，费率为每小时 150 美元。因此，运行 H100 GPU 的每月总成本约为每卡每小时 0.3 美元。

备件：0.1 美元/小时

为了实现 99.9% 的正常运行时间，通常需要保留 3-5% 的备件储备。但是，即使采取了这种预防措施，一些不可避免的硬件或网络问题仍可能导致偶尔进一步的停机。在本次讨论中，我们乐观地使用 5% 的储备作为基准。我们还考虑了更换备件可能造成的停机时间，估计总成本约为每小时 0.1 美元。

不涵盖的内容

上述成本明细显示，4 年内总计约为 1.7 美元/小时。请注意，这仅涉及 BOM 成本，并且您可能需要投入一定数量的人力资源来启动和运行自己的集群。这包括“由自己的研究人员管理”到“专门的 SRE 工作组”，具体取决于专用 GPU 集群的规模和复杂性。肯定会有复杂性，例如脾气暴躁的研究团队或不小的运营成本，但这些可能很难以标准方式进行分析。

如果你是一家初创公司，你可能会问——这值得吗？这引出了我们的下一个问题。

租还是买？

这是一个很难的问题，但根据多年的观察，我们稍微倾向于租赁作为 Lepton 的建议，理由如下：

价格下降。4年是一段很长的时间。H100的租赁价格肯定会持续下降，因此购买的收益可能会比预期的更快衰减。

前期成本较低：每台 HGX 机器的成本约为 6 辆特斯拉 Model Y。租赁可以为您带来更好的现金流，尤其是在您花费昂贵的风险投资资金的情况下。

更好的灵活性：如果您需要扩大或缩小计算资源，租用相对容易，至少在每个租赁期结束时是这样。扩展您拥有的集群将更加棘手；您的数据中心用完机架空间的情况并不少见，您必须将您的集群转移到另一个数据中心。

当然，也有购买的理由，例如：

数据安全和相关考虑至关重要，您确实需要一个隔离系统。

您绝对必须承诺在确定的几年使用时间内进行固定量的计算。

与原始 GPU 基础设施提供商不同，Lepton 可帮助我们的用户高效地运行计算，无论是租用的 GPU 计算容量还是专用集群。Lepton 的客户通过拥有完全云原生的平台来管理 GPU、编排训练作业和推理服务，并高效地运行 AI 工作负载，从而充分利用容量。

使用 GPU：可靠性

GPU 速度快，但运行不稳定。一般来说，它们比传统的 CPU 机器更容易出现故障。如果您管理着大约 100 张 GPU 卡，那么每月至少会出现一张卡故障是合理的。在最近一篇介绍 GPUd 的博客文章中，我们讨论了 GPU 的可靠性和恢复。领先的 GenAI 公司也观察到了类似的情况，例如Meta在 Llama 3 405B 预训练的 54 天期间每天大约有8.6 次作业中断。

54 天 Llama 3 405B 预训练期间中断的根本原因

因此，无论您是租用还是购买 GPU，务必询问您的提供商是否执行以下操作：

他们在交付前是否进行彻底的预生产和老化测试？

他们是否在集群运行期间进行广泛的主动监控？

是否有IDC现场人员支持，SLA保证是什么？

彻底的预生产和老化测试

GPU 在首次启动时故障率往往较高。部署 GPU 机器之前最关键的步骤之一是消除错误配置和到货即报废的组件。与仅使用 CPU 的系统不同，GPU 机器具有更复杂的组件，需要进行超出标准 CPU 基准测试的全面测试。常见测试包括 GPU 老化测试和 NCCL 全还原测试。此类测试可确保满足基本硬件规格。

在 Lepton，我们更进一步。在向客户交付 H100 GPU 机器之前，我们不仅进行标准老化测试，还运行流行的训练框架，如 torch.distributed 和 DeepSpeed，以验证端到端训练性能。我们识别隐藏的问题，例如潜在的 ECC 错误、由于 GPU-GPU 通信、以太网或存储导致的速度减慢以及 GPU 集群和外部互联网之间的网络吞吐量。因此，我们的客户从第一天起就收到了经过全面优化并准备好应对苛刻工作负载的机器。

广泛主动监控

持续监控至关重要。没人希望 GPU 在凌晨 3 点坏掉，然后在早上 9 点才被发现。至少，您的基础设施提供商应该配置IPMI或类似工具来跟踪基本硬件状态和 PCIe 状态。这可以检测常见问题，例如 GPU 与 PCIe 总线断开连接或 NVMe 磁盘故障。一些高级 IaaS（基础设施即服务）提供商提供额外的全面 GPU-GPU 和数据中心网络监控，但我们发现这种级别的服务很少见。在撰写本文时，我们还没有看到任何提供商（包括 AWS 或 GCP）提供全面、主动的 GPU 健康监控（ECC 错误、电源问题、NVLink 状态等）。这些通常由用户负责。

在 Lepton，我们相信用户应该获得更好的可靠性。这就是我们开源GPUd 的原因：通过主动监控 GPU 和有效管理 AI/ML 工作负载来确保 GPU 的效率和可靠性。

我们在 Lepton 上的每台机器上部署了 GPUd，以确保全面监控 GPU 和相关组件。这使我们能够检测到潜在故障的早期迹象，并进行详细的诊断以确定问题的根本原因。通过这样做，我们可以确定将集群恢复到健康状态的最有效方法。这还有助于确保满足 SLA，并使您能够在必要时从提供商处获得适当的退款。

一个典型的例子是 ECC 错误：虽然“软件 ECC 错误”通常被认为是“可纠正的”，但我们发现它们会在几天的密集使用中持续导致无法纠正的硬件故障。因此，我们可以主动污染节点并进行预测性维护。这消除了对客户不必要的干扰，包括训练和推理。对于我们的供应商合作伙伴，这也有助于改善 SLA 和端到端的整体满意度。

IDC 现场人员配备和 SLA 保证

大多数基础设施提供商都宣称提供 24/7 现场支持，但服务质量会因员工的可用性而有很大差异。此外，24/7 现场保证并不一定意味着可以快速解决机器故障，尤其是当问题超出简单的重启范围时。常见的数据中心任务包括重置 GPU 卡、更换或重新连接网络电缆以及排除电源设备故障。但是，识别这些问题可能需要额外的时间。

为了应对这一挑战，Lepton 开发了GPUd，这是一种主动工具，可监控机器状态并帮助快速查明问题的根本原因。一旦发现问题，现场工作人员通常可以在几个小时内解决问题，从而最大限度地降低停机时间延长的风险。

服务水平协议 (SLA) 要求提供商对其性能负责，如果未达到标准，则提供补偿。但是，需要注意的是，GPU 集群的 SLA 通常与常规 CPU 集群的 SLA 不同。虽然大多数提供商为控制平面提供高 SLA 保证，但 GPU 的正常运行时间保证通常较低，因为它们的故障率更高，并且与 CPU 相比，迁移和虚拟化的难度更大。这些措施共同确保了平稳运行、及时解决问题并防止重大业务中断。

硬件规格：数据中心视图

猜不出来，GPU 无法在没有外围设备的情况下运行，而其周围的基础设施相当复杂和错综复杂。你买的不是一张卡。这样的周边基础设施与 GPU 一样重要，可以确保你获得最佳系统性能。我们将为你提供有关 GPU 服务器、网络、CPU 和内存、存储等选择的更多信息。

GPU 集群的简化视图。

GPU 服务器

Nvidia H100 HGX 系统由几家主要供应商提供，包括但不限于戴尔、技嘉和超微。虽然这些供应商的定价相对相似，并不是一个重要的差异因素，但需要注意供应商特定的注意事项，例如 PSU、冷却和其他与硬件相关的问题。然而，随着 H100 平台的成熟，这些问题通常可以通过固件和部件更新来解决。

在交付、安装、客户支持和事件响应方面，我们对 Supermicro 的体验非常满意。市场上的其他参与者可能更喜欢戴尔，因为它具有广泛的可用性和支持网络。总体而言，随着 H100 的成熟，GPU 机器本身是一种相对标准的产品。随着配备 Blackwell GPU 的新型 NVidia NVL36/NVL72 的推出，这种情况可能会改变，因此我们会持续关注它们。此外，如果您正在构建集群，您可能希望与系统集成商（例如 AMAX）合作，除了单个服务器之外，他们还将提供更多端到端解决方案。

GPU 网络

GPU 网络专注于 GPU 之间的高性能、低延迟互连，以便您高效地进行分布式训练。通常有两种选择：InfiniBand（有时称为 IB）和融合以太网上的远程直接内存访问 (RoCE)。这两种选择都可以提供高网络带宽，其中 InfiniBand 提供略低的端口到端口延迟（约 200 纳秒），而 RoCE 更像是一种开放标准。

一个常见的误解是 InfiniBand 对于训练必不可少。然而，RoCE 多年来已经发展成熟，其能力由领先的模型（例如具有超大规模训练基础设施的 LLAMA 3.1）证明。一般来说，InfiniBand 更省心，并配有成熟的商业结构管理解决方案，例如 NVidia UFM。RoCE 通常提供更好的可用性，并且可以说更具可扩展性，尽管这需要专业知识。

根据我们的经验，对于 GPU 数量少于 1,000 的训练集群，RoCE 和 InfiniBand 之间的差异很小。如果您自己构建和管理集群，InfiniBand 可能会提供一些运营优势。但是，RoCE 也是一个同样可行的选择，而且价格通常更具竞争力。

在这两种情况下，可用带宽都是值得一提的设计因素。一种流行的选择是 8 路 Infiniband 或 RoCE 网卡，每张卡可提供 400GB 的吞吐量。这就是为什么您经常听到供应商说“3.2T 互连”。实际上，您也可以将其减少到 4 路或 2 路，并且仍然可以有效地训练大多数模型。不过，我们确实发现许多提供商为了面向未来而提供 8 路。

CPU/内存

鉴于 H100 GPU 的成本较高，CPU 和内存的费用在总成本中所占比例相对较小，通常占整个机器的 10% 左右。大多数提供商都为其系统配备完整的 CPU 和内存，以最大限度地提高性能。对于配备 8 个 H100 GPU 的机器，通常会看到超过 96 个物理核心或 192 个 vCPU 的配置，通常使用 Intel Xeon Platinum Sapphire Rapids 或 AMD 9004 系列处理器。内存配置通常包括 2TB，尽管 1TB 也是一个可行的选择。

Lepton 通常建议充分利用可用的 CPU 和内存资源，以确保它们不会成为训练或推理期间的瓶颈。

贮存

快速本地存储对于 AI 工作负载中的训练和推理任务都至关重要。理想情况下，一台机器应配备至少 20 TB 的 NVMe 存储，尽管高性能系统通常提供 40 TB 或更多。本地磁盘应足够大，以容纳服务器在训练或推理期间所需的整个数据集，从而减少对网络的依赖并最大限度地提高本地 GPU 的性能。

然而，对于涉及图像、视频和音频训练等大型数据集的任务，存储需求通常超过本地容量，需要使用远程存储解决方案。最常见的方法是使用 NFS，Lustre、VAST 和 Weka 等商业替代方案也很受欢迎。此外，S3、Minio 或 Ceph 等对象存储选项也是可行的，尽管研究人员通常更熟悉 POSIX 文件系统。每个 GPU 的读取吞吐量至少应为 200MB/s，系统支持 1GB/s 的机器范围写入吞吐量以进行检查点。

除了存储容量之外，还经常会出现其他挑战，例如处理大量小文件。例如，每个小图像或视频可能只有几千字节，研究人员通常更喜欢直接从无服务器存储随机访问。

为了满足这些需求，Lepton 开发了一款专为 AI 训练量身定制的通用存储解决方案。我们的 POSIX 兼容分布式文件系统将数据保存在远程存储或对象存储中，同时以对等、无服务器的方式将其缓存在本地 NVMe 磁盘上。这种方法提供了远程存储的可扩展性，同时保持了本地磁盘访问的性能和简单性。

位置，位置，位置

如今，GPU 供应商遍布全球。北美是最受欢迎的托管选择，因为其电力成本较低、网络费率实惠且零件供应更充足。欧洲排名第二，而亚太地区的带宽和电力成本通常较高。但 GPU 租赁价格也取决于需求，因此价格并非线性相关。

对于训练，位置并不那么重要，只要您可以将训练数据块（通常为 TB 或低 PB 级）移入和移出集群一次即可。对于推理，延迟和可靠性是重要因素。将基础设施放置在靠近大多数客户群的位置非常重要。此外，将您的容量分布在多个位置有助于防止单点故障并增强网络稳健性。经验法则：美国东部到美国西部的延迟增加约 60 毫秒，美国到亚太地区的延迟增加约 150 毫秒。

Lepton 运营着全球供应链，以最大限度地提高 GPU 的可用性。我们还采用了大量接入点 (POP) 节点，以最大限度地减少 GPU 和客户端之间的延迟。

结论

无论是自行构建集群还是从 IaaS 提供商处租用 GPU，从原始计算能力到完全正常运行的高性能训练作业还有很长的路要走。计算、存储、网络和特定于模型的优化都涉及其中，以使一切变得高效。

本文只是对 GPU 市场巨大复杂性的简单介绍。

THE END