黄仁勋一口气解密三代 GPU，量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题

新智元
2024-06-03 09:26

感谢IT之家网友佳宜的线索投递！

【新智元导读】刚刚，老黄又高调向全世界秀了一把：已经量产的 Blackwell，8 年内将把 1.8 万亿参数 GPT-4 的训练能耗狂砍到 1/350；英伟达惊人的产品迭代，直接原地冲破摩尔定律；Blackwell 的后三代路线图，也一口气被放出。

就在刚刚，老黄手持 Blackwell 向全世界展示的那一刻，全场的观众沸腾了。它，是迄今为止世界最大的芯片！

▲ 眼前的这块产品，凝聚着数量惊人的技术

如果用老黄的话说，它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」

▲ 8 年内，1.8 万亿参数 GPT-4 的训练能耗，直接疯狂降到 1/350；而推理能耗则直接降到 1/45000

英伟达产品的迭代速度，已经彻底无视摩尔定律。

就如网友所言，无所谓，老黄有自己的摩尔定律。

一手硬件，一手 CUDA，老黄胸有成竹地穿过「计算通货膨胀」，放出豪言预测道 —— 在不久的将来，每一个处理密集型应用都将被加速，每一个数据中心也肯定会被加速。

▲ 同时公开的 Blackwell 后三代路线图：Blackwell Ultra（2025 年），Rubin（2026 年），Rubin Ultra（2027 年）

「买得越多，省得越多」的黄式数学公式，也再次亮相。

全新计算时代开启

演讲开篇，老黄最先放出了一个 Omniverse 模拟世界中的演示。

他表示，「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。

这一切都是物理世界中的模拟，它的实现，得益于两项基本的技术 —— 加速计算和人工智能，将重塑计算机产业。

到目前为止，计算机行业已有 60 多年的历史，而现在，一个全新的计算时代已然开始。

1964 年，IBM 的 System 360 首次引入了 CPU，通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等，所有我们今天所了解的技术，都是从这个时间点而来。

直到 1995 年，PC 革命开启让计算走进千家万户，更加民主化。2007 年，iPhone 推出直接把「电脑」装进了口袋，并实现了云端链接。

可以看出，过去 60 年里，我们见证了 2-3 个推动计算行业转变的重要技术节点。

加速计算：一手 GPU，一手 CUDA

而如今，我们将再一次见证历史。老黄表示，「有两个最基础的事情正发生」。

首先是处理器，性能扩展已经大大放缓，而我们所需的计算量、需要处理的数据都在呈指数级增长。按老黄的话来说，我们正经历着「计算通货膨胀」。

过去的 20 年里，英伟达一直在研究加速计算。比如，CUDA 的出现加速了 CPU 负载。事实上，专用的 GPU 效果会更好。

当我们运行一个应用程序，不希望是一个运行 100 秒，甚至是 100 个小时的 App。

因此，英伟达首创了异构计算，让 CPU 和 GPU 并行运行，将过去的 100 个时间单位，加速到仅需要 1 个时间单位。

可见，它已经实现了 100 倍速率提升，而功耗仅增加的 3 倍，成本仅为原来的 1.5 倍。

英伟达同时为价值十亿美元的数据中心，配备了 5 亿美元的 GPU，让其变成了「AI 工厂」。

有了加速计算，世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」，买得越多，省得越多。

除了 GPU，英伟达还做了业界难以企及的事，那就是重写软件，以加速硬件的运行。

如下图所示，从深度学习 cuDNN、物理 Modulus、通信 Aerial RAN、基因序列 Parabricks，到 QC 模拟 cuQUANTUM、数据处理 cuDF 等领域，都有专用的 CUDA 软件。

也就是说，没有 CUDA，就等同于计算机图形处理没有 OpenGL，数据处理没有 SQL。

而现在，采用 CUDA 的生态遍布世界各地。就在上周，谷歌宣布将 cuDF 加入谷歌云中，并加速世界上受欢迎的数据科学库 Pandas。

而现在，只需要点击一下，就可以在 CoLab 中使用 Pandas。就看这数据处理速度，简直快到令人难以置信。

老黄表示，要推行一个全新的平台是「蛋和鸡」的困境，开发者和用户，缺一不可。

但是经过 20 年的发展，CUDA 已经打破了这个困境，通过全球 500 万开发者和无数领域的用户实现了良性循环。

有越多人安装 CUDA，运行的计算量越大，他们就越能据此改进性能，迭代出更高效、更节能的 CUDA。

「AI 工厂」全栈重塑

2012 年，神经网络 AlexNet 的诞生，将英伟达第一次与 AI 联系起来。我们都知道，AI 教父 Hinton 和高徒当时在 2 个英伟达 GPU 上完成 AlexNet 的训练。

深度学习就此开启，并以超乎想像的速度，扩展几十年前发明的算法。

但由于，神经网络架构不断 scaling，对数据、计算量「胃口」愈加庞大，这就不得不需要英伟达重新发明一切。

2012 年之后，英伟达改变了 Tensor Core，并发明了 NvLink，还有 TensorRT、Triton 推理服务器等等，以及 DGX 超算。

当时，英伟达的做法没有人理解，更没人愿意为之买单。由此，2016 年，老黄亲自将英伟达首个 DGX 超算送给了位于旧金山的一家「小公司」OpenAI。

从那之后，英伟达在不断扩展，从一台超算、到一个超大型数据中心。

直到，2017 年 Transformer 架构诞生，需要更大的数据训练 LLM，以识别和学习一段时间内连续发生的模式。

之后，英伟达建造了更大的超算。2022 年 11 月，在英伟达数万个 GPU 上完成训练的 ChatGPT 横空出世，能够像人类一样交互。

这是世界第一次看到了生成式 AI。它会一次输出一个 token，可以是图像、语音、文字、视频，甚至是天气 token，全部都是关于生成。

老黄表示，「我们可以学习的一切，现在都可以生成。我们现在已经进入了一个全新的生成式 AI 时代」。

当初，那个作为超算出现的计算机，已经变成了数据中心。它可以输出 token，摇身一变成为了「AI 工厂」。而这个「AI 工厂」，正在创造和生产巨大价值的东西。

19 世纪 90 年代末，尼古拉・特斯拉发明了 AC Generator，而现在，英伟达正创造可以输出 token 的 AI Generator。

英伟达给世界带来的是，加速计算正引领新一轮产业革命。

人类首次实现了，仅靠 3 万亿美元的 IT 产业，创造出能够直接服务于 100 万亿美元产业的一切东西。

传统的软件工厂，到如今 AI 工厂的转变，实现了 CPU 到 GPU，检索到生成，指令到大模型，工具到技能的升级。

可见，生成式 AI 推动了全栈的重塑。

从 Blackwell GPU 到超级「AI 工厂」

接下来就让我们看看，英伟达是如何将一颗颗地表最强的 Blackwell 芯片，变成一座座超级「AI 工厂」的。

注意看，下面这块是搭载了 Blackwell GPU 的量产级主板。

老黄手指的这里是 Grace CPU。

而在这里，我们可以清晰地看到，两个连在一起的 Blackwell 芯片。

在 8 年里，每一代英伟达芯片的 Flops，都增长了 1000 倍。

与此同时，摩尔定律在这 8 年里，却似乎逐渐失效了。

即使和摩尔定律最好的时刻相比，Blackwell 算力的提升也是惊人的。这将直接导致的结果，就是成本的显著下降。

比如，训练一个 1.8 万亿参数、8 万亿 token 的 GPT-4 所用的能耗，直接降至 1/350！

Pascal 需要消耗的，是 1000 吉瓦时，这就意味着，它需要一个 1000 吉瓦的数据中心。（1 吉瓦 = 1000 兆瓦）

而且如果这样的数据中心真的存在的话，训练也 GPT-4 也需要整整一个月的时间。而 100 兆瓦的数据中心，大概需要一年。

这也就是为什么，ChatGPT 这样的 LLM，在八年前是根本不可能存在的。

如今有了 Blackwell，过去的 1000 吉瓦时直接可以降到 3 吉瓦时。可以说，Blackwell 就是为了推理，为了生成 token 而生的。它直接将每 token 的能量降低了 45000 倍。

在以前，用 Pascal 产生 1 个 token 的消耗，相当于两个 200 瓦的灯泡运行 2 天。让 GPT-4 生成一个单词，大概需要 3 个 token。这根本不可能让我们得到如今和 GPT-4 聊天的体验。

而现在，我们每个 token 可以只使用 0.4 焦耳，用很少的能量，就能产生惊人的 token。

它诞生的背景，正是运算模型规模的指数级增长。每一次指数级增长，都进入一种崭新的阶段。

当我们从 DGX 扩展到大型 AI 超算，Transformer 可以在大规模数据集上训练。

而下一代 AI，则需要理解物理世界。然而如今大多数 AI 并不理解物理规律。其中一种解决办法，是让 AI 学习视频资料，另一种，则是合成数据。

第三种，则是让计算机互相学习！本质上就和 AlphaGo 的原理一样。

巨量的计算需求涌来，如何解决？目前的办法就是 —— 我们需要更大的 GPU。而 Blackwell，正是为此而生。

Blackwell 中，有几项重要的技术创新。

第一项，就是芯片的尺寸。

英伟达将两块目前能造出来的最大尺寸的芯片，用一条 10TB / s 的链路链接起来；然后再把它们放到同一个计算节点上，和一块 Grace CPU 相连。

在训练时，它被用于快速检查点；而在推理和生成的场景，它可以用于储存上下文内存。

而且，这种第二代 GPU 还有高度的安全性，我们在使用时完全可以要求服务器保护 AI 不受偷窃或篡改。

并且，Blackwell 中采用的是第 5 代 NVLink。而且，它是第一代可信赖、可使用的引擎，

通过该系统，我们可以测试每一个晶体管、触发器、片上内存和片外内存，因此我们可以当场确定某个芯片是否出现故障。

基于此，英伟达将拥有十万个 GPU 超算的故障间隔时间，缩短到了以分钟为单位。

因此，如果我们不发明技术来提高超算的可靠性，那么它就不可能长期运行，也不可能训练出可以运行数月的模型。

如果提高可靠性，就会提高模型正常的运行时间，而后者显然会直接影响成本。

最后，老黄表示，解压缩引擎的数据处理，也是英伟达必须做的最重要的事之一。通过增加数据压缩引擎、解压缩引擎，就能以 20 倍的速度从存储中提取数据，比现在的速度要快得多。

超强风冷 DGX & 全新液冷 MGX

Blackwell 是一个重大的跃进，但对老黄来说，这还不够大。

英伟达不仅要做芯片，还要制造搭载最先进芯片的服务器。拥有 Blackwell 的 DGX 超算，在各方面都实现了能力跃升。

集成了 Blackwell 芯片的最新 DGX，能耗仅比上一代 Hopper 提升了 10 倍，但 FLOPS 量级却提升了 45 倍。

下面这个风冷的 DGX Blackwell，里面有 8 个 GPU。

而对应散热器的尺寸也很惊人，达到了 15kW，并且是完全的风冷。

如果你喜欢部署液冷系统呢？英伟达也有新型号 MGX。

单个 MGX 同时集成 72 个 Blackwell GPU，且有最新的第五代 NVLink 每秒 130TB 的传输速度。

▲ NVLink 将这些单独的 GPU 彼此连接起来，因此我们就得到了 72 个 GPU 的 MGX

介绍完芯片，老黄特意提到了英伟达研发的 NVLink 技术，这也是英伟达的主板可以越做越大的重要原因。

由于 LLM 参数越来越多、越来越消耗内存，想要把模型塞进单个 GPU 已经几乎是不可能的事情，必需搭建集群。其中，GPU 通信技术的重要性不亚于计算能力。

英伟达的 NVLink，是世界上最先进的 GPU 互连技术，数据传输速率可以堪称疯狂！

因为如今的 DGX 拥有 72 个 GPU，而上一代只有 8 个，让 GPU 数直接增加了 9 倍。而带宽量，则直接增加了 18 倍，AI FLops 增加了 45 倍，但功率仅仅增加了 10 倍，也即 100 千瓦。

下面这个 NVLink 芯片，也堪称是奇迹。

人们之所以意识到它的重要性，是因为它将所有这些不同的 GPU 连接在一起，从而能够让十万亿参数的 LLM 运行起来。

500 亿个晶体管，74 个端口，每个端口 400GB，7.2TB 每秒的横截面带宽，这本身就是个奇迹。

而更重要的是，NVLink 内部还具有数学功能，可以实现归约。对于芯片上的深度学习，这尤其重要。

有趣的是，NVLink 技术，大大拓宽了我们对于 GPU 的想象。

比如在传统的概念中，GPU 应该长成这样。

但有了 NVLink，GPU 也可以变成这么大。

支撑着 72 个 GPU 的骨架，就是 NVLink 的 5000 根电缆，能够在传输方面节省 20kw 的功耗用于芯片计算。

老黄拿在手里的，是一个 NVLink 的主干，用老黄的原话说，它是一个「电气机械奇迹」

NVLink 做到的仅仅是将不同 GPU 芯片连接在一起，于是老黄又说了一句「这还不够宏大」。

要连接超算中心内不同的主机，最先进的技术是「无限带宽」（InfiniBand）。但很多数据中心的基础设施和生态，都是基于曾经使用的以太网构建的，推倒重来的成本过高。

因此，为了帮助更多的数据中心顺利迈进 AI 时代，英伟达研发了一系列与 AI 超算适配的以太交换机。

网络级 RDMA、阻塞控制、适应性路由、噪声隔离，英伟达利用自己在这四项技术上的顶尖地位，将以太网改造成了适合 GPU 之间点对点通信的网络。

由此也意味着，数百万 GPU 数据中心的时代，即将到来。

全球 2800 万开发者，即时部署 LLM

在英伟达的 AI 工厂中，运行着可以加速计算推理的新型软件 ——NIM。

老黄表示，「我们创建的是容器里的 AI」。

这个容器里有大量的软件，其中包括用于推理服务的 Triton 推理服务器、优化的 AI 模型、云原生堆栈等等。

现场，老黄再一次展示了全能 AI 模型 —— 可以实现全模态互通。有了 NIM，这一切都不是问题。

它可以提供一种简单、标准化的方式，将生成式 AI 添加到应用程序中，大大提高开发者的生产力。

现在，全球 2800 万开发者都可以下载 NIM 到自己的数据中心，托管使用。

未来，不再耗费数周的时间，开发者们可以在几分钟内，轻松构建生成式 AI 应用程序。

与此同时，NIM 还支持 Meta Llama 3-8B，可以在加速基础设施上生成多达 3 倍的 token。

这样一来，企业可以使用相同的计算资源，生成更多的响应。

而基于 NIM 打造的各类应用，也将迸发涌现，包括数字人、智能体、数字孪生等等。

老黄表示，「NVIDIA NIM 集成到各个平台中，开发人员可以随处访问，随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。

智能体组队，万亿美元市场

而智能体，是未来最重要的应用。老黄称，几乎每个行业都需要客服智能体，有着万亿美元的市场前景。

可以看到，在 NIM 容器之上，大多数智能体负责推理，去弄清任务并将其分解成多个子任务。还有一些，它们负责检索信息、搜索，甚至是使用工具等。

所有智能体，组成了一个 team。

未来，每家公司都将有大量的 NIM 智能体，通过连接起来组成一个团队，完成不可能的任务。

GPT-4o 躯壳，老黄做出来了

在人机交互这方面，老黄和 Sam Altman 可以说是想到一起了。

他表示，虽然可以使用文字或语音形式的 prompt 给 AI 下达指令，但很多应用中，我们还是需要更自然的、更类人的交互方式。

这指向了老黄的一个愿景 —— 数字人。相比现在的 LLM，它们可以更吸引人，更有同理心。

GPT-4o 虽是实现了无法比拟的类人交互，但缺少的是一个「躯体」。而这次，老黄都帮 OpenAI 想好了。

未来，品牌大使也不一定是「真人」，AI 完全可以胜任。

从客户服务，到广告、游戏等各行各业，数字人带来的可能将是无限的。

连接 Gen AI 的 CG 技术，还可以实时渲染出逼真的人类面部。低延迟的数字人处理，遍及全球超过 100 个地区。

这是由英伟达 ACE 提供的魔力，能够为创建栩栩如生的数字人，提供相应的 AI 工具。

现在，英伟达计划在 1 亿台 RTX AI 个人电脑和笔记本电脑上，部署 ACE PC NIM 微服务。

这其中包括英伟达首个小语言模型 —— Nemotron-3 4.5B，专为在设备上运行而设计，具备与云端 LLM 相似的精度和准确性。

此外，ACE 数字人类 AI 新套件还包括基于音轨生成身体手势 ——NVIDIA Audio2Gesture，即将推出。

老黄表示，「数字人类将彻底改变各个行业，ACE 提供的多模态 LLM 和神经图形学的突破，使我们更接近意图驱动计算的未来，与计算机的交互将如同与人类的交互一样自然」。

预告下一代芯片 Rubin

Hopper 和 Blackwell 系列的推出，标志着英伟达逐渐搭建起完整的 AI 超算技术栈，包括 CPU、GPU 芯片，NVLink 的 GPU 通信技术，以及 NIC 和交换机组成的服务器网络。

如果你愿意的话，可以让整个数据中心都使用英伟达的技术。

这足够大、足够全栈了吧。但是老黄表示，我们的迭代速度还要加快，才能跟上 GenAI 的更新速度。

英伟达在不久前就曾放出消息，即将把 GPU 的迭代速度从原来的两年一次调整为一年一次，要用最快的速度推进所有技术的边界。

今天的演讲中，老黄再次实锤官宣 GPU 年更。但是他又紧跟着叠了个甲，说自己可能会后悔。

无论如何，我们现在知道了，英伟达不久后就会推出 Blackwell Ultra，以及明年的下一代的 Rubin 系列。

从孪生地球，到具身 AI 机器人

除了芯片和超算服务器，老黄还发布了一个所有人都没有想到的项目 —— 数字孪生地球「Earth-2」。这也许是世界范围内最有雄心的项目（甚至没有之一）。

而且根据老黄的口吻推测，Earth-2 已经推进了数年，今年取得的重大突破才让他觉得，是时候亮出来了。

为什么要为建造整个地球的数字孪生？是要像小扎的元宇宙那样，把社交和互动都搬到线上平台吗？

不，老黄的愿景更宏伟一些。他希望在 Earth-2 的模拟，可以预测整个星球的未来，从而帮我们更好地应对气候变化和各种极端天气，比如可以预测台风的登陆点。

Earth-2 结合了生成式 AI 模型 CorrDiff，基于 WRF 数值模拟进行训练，能以 12 倍更高的解析度生成天气模型，从 25 公里范围提高到 2 公里。

不仅解析度更高，而且相比物理模拟的运行速度提高了 1000 倍，能源效率提高了 3000 倍，因此可以在服务器上持续运行、实时预测。

而且，Earth-2 的下一步还要将预测精度从 2 公里提升到数十米，同时考虑城市内的基础设施，甚至可以预测到街道上什么时候会刮来强风。

而且，英伟达想数字孪生的，不止是地球，还有整个物理世界。

对于这个狂飙突进的 AI 时代，老黄大胆预测了下一波浪潮 —— 物理 AI，或者说是具身 AI。

它们不仅需要有超高的认知能力，可以理解人类、理解物理世界，还要有极致的行动力，完成各种现实任务。

想象一下这个赛博朋克的未来：一群机器人在一起，像人类一样交流、协作，在工厂里创造出更多的机器人。

而且，不仅仅是机器人。一切能移动的物体都会是自主的！

在多模态 AI 的驱动下，它们可以学习、感知世界，理解人类指令，并进化出计划、导航以及动作技能，完成各种复杂任务。

那要怎样训练这些机器人呢？如果让他们在现实世界横冲直撞，代价要比训练 LLM 大得多。

这时，数字孪生世界就大有用武之地了。

正像 LLM 可以通过 RLHF 进行价值观对齐一样，机器人也可以在遵循物理规律的数字孪生世界中不断试错、学习，模仿人类行为，最终达到通用智能。

Nvidia 的 Omniverse 可以作为构建数字孪生的平台，集成 Gen AI 模型、物理模拟以及动态实时的渲染技术，成为「机器人健身房」。

志在做全栈的英伟达也不仅仅满足于操作系统。他们还会提供用于训练模型的超算，以及用于运行模型的 Jetson Thor 和 Orin。

为了适应不同应用场景下的机器人系统，英伟达的 Omniverse 将逐步扩展为 Warehouse 生态系统。

这个生态将无所不包，从搭配应用程序的 SDK 和 API，到运行边缘 AI 计算的接口，再到最底层的可定制芯片。

在全栈产品方面，英伟达就是想要做自己的「全家桶」，让别人无路可走。

为了让这个 AI 机器人时代看起来更真实，演示的最后，9 个和老黄有同样身高的机器人一同登场。

正如老黄所说的，「这不是未来，这一切都正在发生」。

参考资料：

https://www.nvidia.cn/events/computex/?ncid=so-wech-642406

本文来自微信公众号：新智元（ID：AI_era），原标题《老黄一口气解密三代 GPU！粉碎摩尔定律打造 AI 帝国，量产 Blackwell 解决 ChatGPT 全球耗电难题》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。