详解最强 AI 芯片架构:英伟达 Blackwell GPU 究竟牛在哪?现场对话技术高管
- 芯东西
2024-03-25 19:02
Blackwell 架构大揭秘!对话英伟达技术高管 + 22 页技术报告解读。
作者 | ZeR0
编辑 | 漠影
当今全世界身价最高的两位华人,一位卖铲,一位卖水。
第一名是英伟达创始人兼 CEO 黄仁勋,靠给 AI 淘金者们卖 GPU,把英伟达推上全球市值第三的宝座;另一位是农夫山泉创始人、董事长兼总经理钟睒睒,凭“大自然的搬运工”笑傲饮用水江湖。
当前,英伟达市值已经稳坐 2 万亿美元大关,与苹果的市值差距缩小到 0.3 万亿美元。
在本周英伟达 GTC 大会上,黄仁勋一本正经地说:“我们可以附带着卖热水。”
这可不是句玩笑话,黄仁勋是有数据依据的:英伟达 DGX 新机的液冷散热,液体入口温度是 25℃,接近室温;出口温度升高到 45℃,接近按摩浴缸的水温,流速是 2L / s。
当然了,比起卖水,GPU 算力才是英伟达手里的印钞机。
人称“皮衣刀客”的黄仁勋,一贯具有极强的危机感和风险意识,永远在提前为未来铺路。再加上芯片行业是一个高风险高成本低容错的行业,一步走错,可能就会跌落神坛,满盘皆输。所以在 AI 算力需求空前爆发、一众强敌虎视眈眈的关键时刻,英伟达不敢在新品上有丝毫懈怠,必然会在短期内打出最大爆发,让对手们望尘莫及。
当竞争对手们还在以追赶英伟达旗舰 GPU 为目标时,黄仁勋已经站在 next Level,捕捉到数据中心客户需求的痛点 —— 单芯不顶事,真正顶事的是解决系统级性能和能效提升的挑战。
拿单个旗舰 GPU 比,英伟达的芯片确实配得上“核弹”称号,性能猛,功耗也高。但黄仁勋厉害在早就跳出芯片本身,不断向数据中心客户灌输“买得越多 省得越多”的理念,简而言之买英伟达的 AI 系统方案比其他方案更快更省钱。
从 Blackwell 架构设计到 AI 基础设施的技术布局,都能反映黄仁勋对未来市场需求和行业趋势的前瞻性判断:
1、摩尔定律带动性能提升越来越捉襟见肘,单 die 面积和晶体管快到极限,后续芯片迭代必须包括高带宽内存、Chiplet 先进封装、片内互联等技术的创新组合。再加上片外互连等高性能通信的优化,共同构成了英伟达打造出专为万亿参数级生成式 AI 设计的系统的基础。
2、未来,数据中心将被视为 AI 工厂,在整个生命周期里,AI 工厂的目标是产生收益。不同于消费级市场单卖显卡,数据中心市场是个系统级生意,单芯片峰值性能参考价值不大,把很多 GPU 组合成一个“巨型 GPU”,使其在完成同等计算任务时耗费更少的卡、时间和电力,对客户才能带来更大的吸引力。
3、AI 模型的规模和数据量将持续增长:未来会用多模态数据来训练更大的模型;世界模型将大行其道,学习掌握现实世界的物理规律和常识;借助合成数据生成技术,AI 甚至能模仿人类的学习方式,联想、思考、彼此相互训练。英伟达的目标是不断降低与计算相关的成本和能耗。
4、高性能推理或生成将至关重要。云端运行的英伟达 GPU 可能有一半时间都被用于 token 生成,运行大量的生成式 AI 任务。这既需要提高吞吐量,以降低服务成本,又要提高交互速度以提高用户体验,一个 GPU 难以胜任,因此必须找到一种能在许多 GPU 上并行处理模型工作的方法。
01.最强 AI 芯片规格详解:最大功耗 2700W,CUDA 配置成谜
本周二,英伟达发布新一代 Blackwell GPU 架构,不仅刻意弱化了单芯片的存在感,而且没有明确 GPU 的代号,而是隐晦地称作“Blackwell GPU”。这使得被公认遥遥领先的 Blackwell 架构多少笼上了一抹神秘色彩。
在 GTC 大会现场,英伟达副总裁 Ian Buck 和高级副总裁 Jonah Alben 向智东西 & 芯东西等全球媒体进一步分享了关于 Blackwell 架构设计的背后思考。结合 22 页英伟达 Blackwell 架构技术简报,关于 GB200 超级芯片、HGX B200 / B100、DGX 超级计算机等的配置细节被进一步披露。
根据现有信息,全新 Blackwell GPU 没有采用最先进的 3nm 制程工艺,而是继续沿用 4nm 的定制增强版工艺台积电 4NP,已知的芯片款式有 3 类 ——B100、B200、GB200 超级芯片。
B100 不是新发布的主角,仅在 HGX B100 板卡中被提及。B200 是重头戏,GB200 又进一步把 B200 和 1 颗 72 核 Grace CPU 拼在一起。
B200 有 2080 亿颗晶体管,超过 H100(800 亿颗晶体管)数量的两倍。英伟达没透露单个 Blackwell GPU die 的具体大小,只说是在 reticle 大小尺寸限制内。上一代单 die 面积为 814mm²。由于不知道具体数字,不好计算 B200 在单位面积性能上的改进幅度。
英伟达通过 NV-HBI 高带宽接口,以 10TB/s 双向带宽将两个 GPU die 互联封装,让 B200 能像单芯片一样运行,不会因为通信损耗而损失性能,没有内存局部性问题,也没有缓存问题,能支持更高的 L2 缓存带宽。但英伟达并没有透露它具体采用了怎样的芯片封装策略。
前代 GH200 超级芯片是把 1 个 H100 和 1 个 Grace CPU 组合。而 GB200 超级芯片将 2 个 Blackwell GPU 和 CPU 组合,每个 GPU 的满配 TDP 达到 1200W,使得整个超级芯片的 TDP 达到 2700W(1200W x 2+300W)。
值得关注的是,Blackwell 架构技术简报仅披露了 Tensor 核心数据,对 CUDA 核心数、Tensor 核心数、向量算力等信息只字未提。除了 FP64 是稠密,其他数据格式都显示了稀疏算力。
相比之下,标准 FP64 Tensor 核心计算性能提升幅度不大,H100 和 H200 是 67TFLOPS,GB200 超级芯片是 90TFLOPS,比上一代提高 34%。
一种可能的推测是 Blackwell 架构的设计全面偏向 AI 计算,对高性能计算的提升不明显。如果晶体管都用于堆 Tensor 核心,它的通用能力会变弱,更像个偏科的 AI NPU。
由于采用相同的基础设施设计,从 Hopper 换用 Blackwell 主板就像推拉抽屉一样方便。
技术简报披露了 Blackwell x86 平台 HGX B100、HGX B200 的系统配置。HGX B200 搭载 8 个 B200,每个 GPU 的 TDP 为 1000W;HGX B100 搭载 8 个 B100,每个 GPU 的 TDP 为 700W。
在数据中心 Blackwell GPU 发布后,业界关注焦点移向同样基于 Blackwell 架构的游戏显卡 RTX 50 系列。目前距离 RTX 50 系列 GPU 的发布日期还很遥远,最快也得到今年年底,慢点可能要到明年甚至是后年。
不过现在已经有很多关于配置的传言,比如采用台积电 3nm 和 28Gbps GDDR 7 显存、最大总线宽度有 384bit 和 512bit 两种说法,芯片包括从入门级 GB207 到高端级 GB202,会继续优化路径追踪、光线追踪。
02.8 年 AI 训练算力提升 1000 倍,英伟达是怎么做到的?
从 2016 年 Pascal GPU 的 19TFLOPS,到今年 Blackwell GPU 的 20PFLOPS,黄仁勋宣布英伟达用 8 年将单卡 AI 训练性能提升了 1000 倍。
这个听起来令人心潮澎湃的倍数,除了得益于制程工艺迭代、更大的 HBM 容量和带宽、双 die 设计外,数据精度的降低起到关键作用。
多数训练是在 FP16 精度下进行,但实际上不需要用这么高的精度去处理所有参数。英伟达一直在探索怎么通过混合精度操作来在降低内存占用的同时确保吞吐量不受影响。
Blackwell GPU 内置的第二代 Transformer 引擎,利用先进的动态范围管理算法和细粒度缩放技术(微型 tensor 缩放)来优化性能和精度,并首度支持 FP4 新格式,使得 FP4 Tensor 核性能、HBM 模型规模和带宽都实现翻倍。
同时 TensorRT-LLM 的创新包括量化到 4bit 精度、具有专家并行映射的定制化内核,能让 MoE 模型实时推理使用耗费硬件、能量、成本。NeMo 框架、Megatron-Core 新型专家并行技术等都也为模型训练性能的提升提供了支持。
降精度的难点是兼顾用户对准确率的需求。FP4 并不在什么时候都有效,英伟达专门强调的是对混合专家模型和大语言模型带来的好处。把精度降到 FP4 可能会有困惑度增加的问题,英伟达还贴心地加了个过渡的 FP6,这个新格式虽然没什么性能优势,但处理数据量比 FP8 减少 25%,能缓解内存压力。
03.90 天 2000 块 GPU 训练 1.8 万亿参数模型,打破通信瓶颈是关键
和消费级显卡策略不同,面向数据中心,黄仁勋并不打算通过卖一颗两颗显卡来赚取蝇头小利,而是走“堆料”路线来帮客户省钱。
无论是大幅提高性能,还是节省机架空间、降低电力成本,都对在 AI 大模型竞赛中争分夺秒的企业们相当有吸引力。
黄仁勋举的例子是训练 1.8 万亿参数的 GPT-MoE 混合专家模型:
用 25000 个 Ampere GPU,需要 3~5 个月左右;要是用 Hopper,需要约 8000 个 GPU、90 天来训练,耗电 15MW;而用 Blackwell,同样花 90 天,只需 2000 个 GPU,耗电仅 4MW。
省钱与省电成正比,提高能效的关键是减少通信损耗。据 Ian Buck 和 Jonah Alben 分享,在 GPU 集群上运行庞大的 GPT-MoE 模型,有 60% 的时间都花在通信上。
Ian Buck 解释说,这不光是计算问题,还是 I / O 问题,混合专家模型带来更多并行层和通信层。它将模型分解成一群擅长不同任务的专家,谁擅长什么,就将相应训练和推理任务分配给谁。
所以实现更快的 NVLink Switch 互连技术非常重要。所有 GPU 必须共享计算过程中的结果,在 DGX GB200 NVL72 机架中,多节点 All-to-All 通信、all-Reduce 的通信速度都较过去暴涨。
全新 NVLink Switch 芯片总带宽达到 7.2TB / s,支持 GPU 纵向扩展,能驱动 4 个 1.8TB / s 的 NVLink 端口。而 PCIe 9.0 x16 插槽预计要到 2032 年才能提供 2TB / s 的带宽。
从单卡来看,相比 H100,Blackwell GPU 的训练性能仅提高到 2.5 倍,即便按新添的 FP4 精度算,推理性能也只提高到 5 倍。
但如果从系统性能来看,相比上一代 Hopper 集群,Blackwell 可将 1.8 万亿参数的 GPT-MoE 推理性能提高到 30 倍。
蓝色曲线代表 H200,紫红色曲线代表 B200,从蓝到紫只涉及从 Hopper 单芯设计到 Blackwell 双芯设计的芯片升级。加上全新 FP4、Tensor 核心、Transformer 引擎、NVLink Switch 等技术,性能涨到如绿色曲线代表的 GB200 所示。
下图中 Y 轴是每 GPU 每秒 token 数,代表数据中心吞吐量;X 轴是每用户每秒 token 数,代表用户的交互体验,越靠近右上方的数据代表两种能力都很强。绿色曲线是峰值性能线。
为了找出 GPT-MoE 训练的正确并行配置,英伟达做了大量实验(得到图中的蓝点),以探索创建硬件和切割模型的正确方法,使其尽可能实现高效运行。其探索包括一些软件重分块、优化策略判断,并将大模型分布在不同的 GPU 中来满足性能需求。
左侧 TP2 代表 2 个 GPU 的 Tensor 并行,EP8 代表跨 8 个 GPU 的专家并行,DP4 代表跨 4 个 GPU 的数据并行。右侧有 TP4,跨 4 个 GPU 的 Tensor 并行、跨 16 个 GPU 的专家并行。软件层面不同的配置和分布式策略会导致运行时产生不同结果。
黄仁勋还从通信耗材的角度来说明 Blackwell DGX 系统能够更省电省钱。
他解释说在 DGX 背面 NVLink 主干数据以 130TB / s 双向带宽通过机箱背面,比互联网总带宽还高,基本上 1 秒钟内能将所有内容发送给每个人,里面有 5000 根 NVLink 铜缆、总长度 2 英里。
如果用光传输,就必须使用光模块和 retimer,这俩器件要耗电 20kW,仅是光模块就要耗电 2kW。只是为了驱动 NVLink 主干,英伟达通过 NVLink Switch 不耗电就能做到,还能节省 20kW 用于计算(整个机架功耗为 120kW)。
04.集结高速通信能力,在单机架上打造 E 级算力 AI 超级计算机
更快的网络,带来了更强大的计算效率。
DGX GB200 NVL72 采用液冷机架式设计,顾名思义,通过第五代 NVLink 以 1.8TB / s 通信速度将 72 个 GPU 互连。一个机架最多有高达 130TB / s 的 GPU 带宽、30TB 内存,训练算力接近 E 级、推理算力超过 E 级。
相较相同数量 H100 GPU 的系统,GB200 NVL72 为 GPT-MoE-1.8T 等大语言模型提供 4 倍的训练性能。在 GB200 NVL72 中用 32 个 Blackwell GPU 运行 GPT-MoE-1.8T,速度是 64 个 Hopper GPU 的 30 倍。
黄仁勋说,这是世界上第一台单机架 EFLOPS 级机器,整个地球也不过两三台 E 级机器。
对比之下,8 年前,他交给 OpenAI 的第一台 DGX-1,训练算力只有 0.17PFLOPS。
H100 搭配的第四代 NVLink 总带宽是 900GB/s,第五代则翻倍提升到 1.8TB / s,是 PCle 5 带宽的 14 倍以上。每个 GPU 的 NVLink 数量没变,都是 18 个链路。CPU 与 B200 间的通信速度是 300GB/s,比 PCIe 6.0 x16 插槽的 256GB/s更快。
GB200 NVL72 需要强大的网络来实现最佳性能,用到了英伟达 Quantum-X800 InfiniBand、Spectrum-X800 以太网、BlueField-3 DPU 和 Magnum IO 软件。
两年前,黄仁勋看到的 GPU 是 HGX,重 70 磅,有 35000 个零件;现在 GPU 有 60 万个零件,重 3000 磅,“应该没有一头大象沉”,“重量跟一辆碳纤维法拉利差不多”。
第五代 NVLink 把 GPU 的可扩展数量提高到 576 个。英伟达还推出一些 AI 安全功能来确保数据中心 GPU 的最大正常运行时间。8 个 GB200 NVL72 机架可组成 1 个 SuperPOD,与 800Gb / s InfiniBand 或以太网互连,或者可以创建一个将 576 个 GPU 互连的大型共享内存系统。
据 Ian Buck 透露,目前最大配置的 576 个 GPU 互连主要是用于研究,而不是生产。
05.结语:八年伏脉,一朝登顶
从打造垂直生态的角度来看,英伟达越来越像芯片和 AI 计算领域的苹果,在研发、工程和生态方面都展现出强大而全面的统治力。
就像苹果用 App Store 牢牢粘住开发者和消费者一样,英伟达已经打造了完备的芯片、系统、网络、安全以及各种开发者所需的软件,用最好的软硬件组合不断降低在 GPU 上加速 AI 计算的门槛,让自己始终处于企业及开发者的首选之列。
在数据中心,看单个芯片峰值性能没什么意义,很多芯片连在一起实现的实质性算力改进,才有直接参考性。所以黄仁勋要卖“系统”,是一步跨到数据中心客户算力需求的终点。
相比上一代 Hopper,Blackwell GPU 的主要优化没有依赖制程工艺技术的提升,而是更先进的内存、更快的片内互联速度,并通过升级片间互连、多机互连的速度以及可扩展性、管理软件,消除大量数据处理导致的通信瓶颈,从而将大量 GPU 连成一个更具成本效益的强大系统。
草蛇灰线,伏脉千里。将芯片、存储、网络、软件等各环节协同的系统设计之路,英伟达早在 8 年前就在探索。2016 年 4 月,黄仁勋亲手将第一台内置 8 个 P100 GPU 的超级计算机 DGX-1 赠予 OpenAI 团队。之后随着 GPU 和互连技术的更新换代,DGX 也会随之升级,系统性能与日俱增。
数据中心 AI 芯片是当前硅谷最热门的硬件产品。而英伟达是这个行业的规则制定者,也是离生成式 AI 客户需求最近的企业,其对下一代芯片架构的设计与销售策略具有行业风向标的作用。通过实现让数百万个 GPU 共同执行计算任务并最大限度提高能效的基础创新,黄仁勋反复强调的“买得越多 省得越多”已经越来越具有说服力。
本文来自微信公众号:芯东西 (ID:aichip001),作者:ZeR0
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。