老黄手捧 ChatGPT 专用「核弹」炸场，英伟达 H100 至尊版速度提 10 倍

新智元
2023-03-22 12:09

GTC 大会上，老黄石破天惊地祭出了专为 ChatGPT 打造的 H100 NVLINK，并放出豪言，称英伟达就是行业内的台积电。

英伟达，赢麻了！

刚刚结束的 GTC 大会上，靠着满屏的「生成式 AI」，手握一块支撑 ChatGPT 算力、提速 10 倍的 H100 NVLINK 芯片，老黄就差把这几个字写在脸上 ——「我是赢家」。

ChatGPT，Microsoft 365，Azure，Stable Diffusion，DALL-E，Midjourney…… 所有这些时下最红最爆的 AI 产品，英伟达全都能从中分得一杯羹。

今年初 ChatGPT 在全球的爆火，让英伟达股价飙升，市值直接增加 700 多亿美元。目前，英伟达市值为 6400 亿美元。

而如今，AI 的 iPhone 时刻已经到来，第四次科技革命就要开启，而手握 A100 和 H100 的英伟达，或成最大赢家。

在 GTC 大会上，老黄宣布了英伟达在 GPU、加速库、计算光刻、云平台上的亮眼进步，更是放出豪言 —— 英伟达就是要做 AI 圈的台积电！

现在已经有人猜测，今天的演讲都是在 H100 上用 AIGC 模型生成的。

ChatGPT 专用 GPU 已来

这次大会上最重磅的发布，就是针对 ChatGPT 打造的 NVIDIA H100 NVLINK。

因为算力需求巨大，针对 ChatGPT 等 LLM 的推理，英伟达推出了新款 Hopper GPU，配备双 GPU NVLINK 的 PCIE H100，具有 94GB 内存。

事实上，深度学习的历史从 2012 年之后，就一直与英伟达息息相关。

老黄表示，2012 年深度学习元老 Hinton 和学生 Alex Kerchevsky、Ilya Suskever 在训练 AlexNet 时，用的正是 GeForce GTX 580。

随后，AlexNet 一举夺得 ImageNet 图像分类竞赛冠军，成为了深度学习大爆炸的奇点。

而时隔 10 年，在 OpenAI 的 Ilya Suskever 也是用着英伟达的 DGX，训练出了 ChatGPT 背后的 GPT3，及 GPT3.5。

老黄自豪地说，目前在云上唯一可以实际处理 ChatGPT 的 GPU，就是 HGX A100。

但与 A100 相比，一台搭载四对 H100 和双 GPU NVLINK 的服务器速度还要快上 10 倍！因为 H100 可以将 LLM 的处理成本降低一个数量级。

随着生成式 AI 掀起一波机遇浪潮，AI 正处于转折点，使得推理工作负载呈阶梯函数式增长。

在以前，设计一个云数据中心来处理生成式 AI，是巨大的挑战。

一方面，理想情况下最好使用一种加速器，使数据中心具有弹性；但另一方面，没有一个加速器能以最优的方式处理在算法、模型、数据类型和大小方面的多样性。英伟达的 One Architecture 平台就兼具加速功能和弹性。

而今天，英伟达宣布，推出全新的推理平台。每种配置都对某类工作负载进行了优化。

比如针对 AI 视频工作负载，英伟达就推出了 L4，在视频解码和转码、视频内容审核、视频通话功能上做了优化。

而一台 8-GPU L4 服务器，将取代一百多台用于处理 AI 视频的双插槽 CPU 服务器。

同时，英伟达还针对 Omniverse、图形渲染以及文本转图像 / 视频等生成式 AI 推出了 L40。其性能是英伟达最受欢迎的云推理 GPU T4 的 10 倍。

当前，Runway 推出的 Gen-1，以及 Gen-2 生成式 AI 模型拥有的强大能力便是借助了英伟达的 GPU。

另外，英伟达还推出了全新的超级芯片 Grace-Hopper，适用于推荐系统和向量数据库。

挑战芯片极限破，计算光刻提速 40 倍

在芯片领域，英伟达联合台积电、ASML 和 Synopsys，历时 4 年终于完成了计算光刻技术的一项重大突破 ——NVIDIA cuLitho 计算光刻库。

在到达 2nm 制程的极限后，光刻就是突破点。

计算光刻模拟了光通过光学元件后与光刻胶相互作用时的行为，通过应用逆物理算法，我们可以预测掩膜板上的图案，以便在晶圆上生成最终图案。

在芯片设计和制造领域中，计算光刻是最大的计算工作负载，每年都要消耗数百亿 CPU 小时。相比之下，英伟达创造的这个新算法，可以让日益复杂的计算光刻工作流程能够在 GPU 上并行执行。

总结来说，cuLitho 不仅能使计算速度提升 40 倍，而且功耗也可以降低 9 倍之多。

举个例子，英伟达的 H100 需要 89 块掩膜板。

如果用 CPU 进行处理的话，每个掩膜板都需要消耗两周的时间。而如果在 GPU 上运行 cuLitho，则只需 8 个小时即可处理完一个掩膜板。

而台积电也可以用 500 个 DGX H100 系统中的 4,000 个 Hopper GPU，完成之前需要多达 40,000 台基于 CPU 的服务器才能搞定的工作，并且功率也会从 35MW 降至 5MW。

值得注意的是，cuLitho 加速库与 Ampere 和 Volta 架构的 GPU 也是兼容的，不过 Hopper 是最快的解决方案。

老黄表示，由于光刻技术已经处于物理学的极限，晶圆厂能够提高产量，为 2nm 及以后的发展做好准备。

AI 的 iPhone 时刻

这几个月，ChatGPT 以摧枯拉朽之势，眼看就要掀起第四次科技革命。「我们正处于 AI 的 iPhone 时刻」这个说法，也随之广泛流传开。

在 GTC 大会上，老黄也是激动地把这句话重复了三遍。

iPhone 时刻来临，初创公司如 OpenAI 在竞相构建颠覆性的产品和商业模式，而谷歌、微软这样的老牌公司，则在寻求着应对之法。

它们的种种举动，都是由生成式 AI 在全球引发的制定 AI 战略的紧迫感。

英伟达加速计算始于 DGX AI 超级计算机，这也是当前大型语言模型实现突破的背后引擎。

GTC 上，老黄自豪地表示，是我亲手将全球首款 DGX 交给了 OpenAI。

从那之后，「财富」100 强企业中，其中有一半都安装了 DGXAI 超级计算机。

DGX 配有 8 个 H100 GPU 模组，同时 H100 配有 Transformer 引擎，能够处理 ChatGPT 这样令人惊叹的模型。

8 个 H100 模组通过 NVLINK Switch 彼此相连，实现了全面无阻塞通信。8 个 H100 协同工作，就像是一个巨型的 GPU。

让老黄倍感激动的是，微软宣布 Azure 将向其 H100 AI 超级计算机开放私人预览版。

并称，「DGX 超级计算机是现代 AI 工厂。我们正处于 AI 的 iPhone 时刻。」

一手带出 ChatGPT

过去十年，加速和纵向扩展结合使各种应用实现百万倍性能提升。

令人印象最深刻的例子，便是 2012 年，AlexNet 深度学习框架的提出。

当时，Alex Krizhevsky、Ilya Suskever，以及 Hinton 在 GeForce GTX 580 上使用了 1400 万张图完成了训练，可处理 262 千万亿次浮点运算。

十年后，Transformer 面世。

Ilya Suskever 训练了 GPT-3 来预测下一个单词，需要进行的浮点运算比训练 AlexNet 模型要多一百万倍。

由此，创造出了令全世界震惊的 AI——ChatGPT。

用老黄的一句话总结：

这意味着崭新的计算平台已经诞生，AI 的「iPhone 时刻」已经到来。加速计算和 AI 技术已经走进现实。

加速库是加速计算的核心。这些加速库连接了各种应用，进而再连接到各行各业，形成了网络中的网络。

经过 30 年的开发，目前已经有数千款应用被英伟达的库加速，几乎涉及科学和工业的每个领域。

目前，所有的英伟达 GPU 都兼容 CUDA。

现有的 300 个加速库和 400 个 AI 模型覆盖了量子计算、数据处理、机器学习等广泛的领域。

这次 GTC 大会，英伟达宣布更新了其中的 100 个。

英伟达 Quantum 平台由库和系统组成，可供研究人员推进量子编程模型、系统架构和算法。

cuQuantum 是用于量子电路仿真的加速库，其中 IBM、Baidu 等公司已经将这一加速库集成到他们的仿真框架中。

Open Quantum CUDA 是英伟达的混合 GPU-Quantum 编程模型。

英伟达还宣布推出一个量子控制链路，这是与 Quantum Machines 合作开发的。它可以将英伟达 GPU 连接到量子计算机，以极快的速度进行纠错。

还有 RAFT 新库推出，用于加速索引、数据加载和近邻搜索。

此外，英伟达还宣布了 DGX Quantum，用 DGX 构建，并利用最新开源的 CUDA Quantum，这个新平台为从事量子计算的研究人员提供了一个革命性的高性能和低延迟的架构。

英伟达还推出了 NVIDIA Triton Management Service 软件，可在整个数据中心自动扩展和编排 Triton 推理实例。适用于像 GPT-3 大语言模型的多 GPU、多节点推理。

用于计算机视觉的 CV-CUDA 和用于视频处理的 VPF 是英伟达新的云规模加速库。

老黄宣布 CV-CUDA Beta 优化了预处理和后处理，实现了更高的云吞吐量，将成本和能耗减少了四分之一。

目前，微软处理视觉搜索、Runway 为其生成式 AI 视频处理过程，全都采用了 CV-CUDA 和 VRF 库。

此外，英伟达加速计算还帮助基因组学实现了里程碑式发展。使用英伟达助力的仪器设备，将整个基因组测序的成本降低至 100 美元，成为另一个里程碑。

英伟达 NVIDIA Parabrics 加速库可用于云端或仪器设备内的端到端基因组分析，并且适用于各种公有云和基因组学平台。

ChatGPT 在跑，英伟达在赚

现在，ChatGPT、Stable Diffusion、DALL-E 和 Midjourney，已经唤醒了全世界对于生成式 AI 的认知。

当红炸子鸡 ChatGPT 仅在推出 2 个月后，就月活破亿，已经成为史上用户增长最快的应用。

可以说，它就是一台计算机。不仅能生成文本、写诗、改写研究论文、解决数学问题、甚至还能编程。

众多突破性成果造就了今天的生成式 AI。

Transformer 能够以大规模并行的方式，从数据的关系和依赖性中学习上下文和含义。这使得 LLMs 能够利用海量数据进行学习，在没有明确训练的情况下执行下游任务。

另外，受物理学启发的扩散模型，能够通过无监督学习来生成图像。

老黄总结道，短短十几年，我们就从识别猫，跨越到了生成在月球行走的太空服猫的过程。

现在完全可以说，生成式 AI 就是一种新的计算机，一种可以用人类语言进行编程的计算机。

此前，命令计算机解决问题，是独属于程序员的特权，但是如今，人人都可以是程序员了。

和比尔盖茨一样，老黄也下了类似的定义：生成式 AI 是一种新型计算平台，与 PC、互联网、移动设备和云类似。

通过 Debuild，我们只要说清楚自己想要什么，就可以直接设计和部署 Web 应用。

很明显，生成式 AI 将几乎重塑所有行业。

要做 AI 界的「台积电」

在这样的背景下，专业公司都需要使用自己的专有数据，来构建定制模型。

接着，老黄自豪宣布，行业需要一个类似台积电的代工厂，来构建自定义的大语言模型，而英伟达，就是这个「台积电」！

大会上，英伟达宣布推出 NVIDIA AI Foundations 云服务，让客户可以定制 LLM 和生成式 AI。

这个云服务包括语言、视觉和生物学模型制作服务。

其中，Nemo 用于构建定制的语言文本转文本生成式模型。

而 Picasso 是视觉语言模型制作，可以用于训练自定义模型，包括图像、视频和 3D 应用。

只要向 Picasso 发送文本提示和元数据的 API 调用，Picasso 就会用 DGX Cloud 上的模型把生成的素材发送回应用。

更厉害的地方是，把这些素材导入 NVIDIA Omniverse，就可以构建逼真的元宇宙应用，和数字孪生仿真。

另外，英伟达还在和 Shutterstock 合作，开发 Edify-3D 生成式模型。

同时，英伟达和 Adobe 的合作也继续扩展，把生成式 AI 融入营销人员和创意人士的日常工作流，并且，尤其注意对于艺术家版权的保护。

第三个领域，就是生物学。

如今，药物研发行业的价值已经达到近 2 万亿元，研发投入高达 2500 亿美元。

NVIDIA Clara 就是一款医疗健康应用框架，用于影像、仪器、基因组学分析和药物研发。

而最近，生物圈的热门方向是利用生成式 AI 发现疾病靶因、设计新分子或蛋白类药物等。

与之相应的，BIONEMO 可以让用户使用专有数据创建、微调、提供自定义模型，包括 AlphaFold、ESMFold、OpenFold 等蛋白质预测模型。

最后，老黄总结道，NVIDIA AI Foundations 是一个云服务和代工厂，用于构建自定义语言模型和生成式 AI。

老黄云服务，月租 36999 美元

英伟达这次，还推出了一款云服务。

它敏锐地看到客户需要更简单快捷访问 NVIDIA AI 的需求，因而推出了 NVIDIA DGX Cloud。

DGX Cloud 与 Microsoft Azure、Google GCP 和 Oracle OCI 都有合作。只要一个浏览器，NVIDIA DGX AI 超级计算机，就能即时接入每家公司！

在这款云上，可以运行 NVIDIA AI Enterprise 加速库套件，直接解决 AI 端到端的开发和部署。

并且，云上不止提供 NVIDIA AI，还有全球最主要的几大云服务商。

而英伟达的第一个 NVIDIA DGX Cloud，就是 Oracle Cloud Infrastructure（OCI）。

在 OCI 中，NVIDIA CX-7 和 BlueField-3 两个王炸合体，立马组合出一台强力超算。

据介绍，企业现在可以租用 DGX Cloud，月租 36999 美元起。

最后，当然还是每年 GTC 大会的保留节目 ——Omniverse。老黄宣布了关于元宇宙平台 Omniverse 更新。

现在，Microsoft 和 NVIDIA，正准备将 Omniverse 带给数以亿计的 Microsoft 365 和 Azure 用户。

此外，还有消息称：老黄为了能让 H100 合规地出口中国，便照着之前 A800 的经验特调了一款「H800」，将芯片之间的数据传输率降到了 H100 的 50% 左右。

总结来说，老黄在这次的大会已经相当明确，英伟达要做 AI 领域的台积电，像晶圆厂一样提供代工，在此基础上让行业内其他公司训练算法。

这种商业模式，能成功吗？

参考资料：

https://www.NVIDIA.com/gtc/keynote/

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。