英伟达推出B200：成本和能耗降低 25 倍，性能提升30倍

“

Nvidia的新款Blackwell B200 GPU和GB200“超级芯片”或将进一步巩固其在人工智能领域的领先地位。这些芯片性能强劲，能够在AI推理任务中提供高效能力，并在训练速度上取得了显著提升。Nvidia的新技术还包括改进的变压器引擎和下一代NVLink交换机，进一步提升了系统性能和效率。

Nvidia的H100人工智能芯片正在将其推向市值数万亿美元的巅峰，甚至有可能超过谷歌母公司Alphabet和电商巨头亚马逊，而与此同时，其竞争对手一直在不遗余力地追赶。然而，或许Nvidia即将通过其新推出的Blackwell B200 GPU和GB200“超级芯片”进一步扩大其领先优势。

在Nvidia GTC 2024的主题演讲中，Nvidia首席执行官黄仁勋向数千名工程师发布了Blackwell，表示该产品将引领计算领域的变革。

黄先生表示：“三十年来，我们一直致力于加速计算，旨在实现深度学习和人工智能等变革性突破。生成式人工智能是我们时代的关键技术。Blackwell GPU是推动这场新工业革命的引擎。与全球最有活力的公司合作，我们将让AI对各行各业都带来改变。”

根据Nvidia提供的信息，基于Blackwell的计算机将使世界各地的组织能够以比其前身Hopper低25倍的成本和能耗在兆参数大型语言模型上构建和运行实时生成式AI。处理能力将扩展到具有高达10万亿参数的AI模型。

据称，Nvidia的新款B200 GPU拥有高达20P FP4的性能，搭载了来自2080亿个晶体管的先进技术。此外，结合两个这样的GPU与一个Grace CPU的GB200“超级芯片”在LLM推理工作负载下提供的性能将提高至30倍，同时可能具备更高的效率。Nvidia表示，相较于H100，它们已经将成本和能源消耗降低了多达25倍。

在以往的情况下，训练1.8万亿参数模型需要8000个Hopper GPU以及15兆瓦的功率，然而现在，Nvidia的CEO表示，仅需2000个Blackwell GPU即可在4兆瓦功率下完成任务。

在拥有1750亿个参数的GPT-3 LLM基准测试中，Nvidia声称GB200的性能为H100高出七倍，同时训练速度提高了四倍。

Nvidia告诉记者，其中一个关键改进是第二代变换器引擎，通过使用每个神经元的4位而不是8位（之前提到的FP4 20petaflops），使计算、带宽和模型大小翻倍。另一个关键区别在于连接大量GPU时的性能表现，这得益于一种下一代NVLink交换机，使得576个GPU之间的双向带宽达到每秒1.8TB。

这促使Nvidia构建了一整套全新的网络交换芯片，其中包含500亿个晶体管以及一些内置计算功能，据Nvidia表示，其计算能力可达每秒3.6 teraflops FP8。