英伟达宣布创造满血 DeepSeek-R1 模型 AI 推理性能的世界纪录

2025-03-19 08:20IT之家(问舟)103评

IT之家 3 月 19 日消息，英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

据介绍，在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度，系统最高吞吐量突破每秒 3 万 token。

英伟达表示，随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限，其性能将会继续不断提高。

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

单节点配置：DGX B200（8 块 GPU）与 DGX H200（8 块 GPU）
测试参数：最新测试采用 TensorRT-LLM 内部版本，输入 1024 token / 输出 2048 token；此前测试为输入 / 输出各 1024 token；并发
计算精度：B200 采用 FP4，H200 采用 FP8 精度

英伟达表示，通过硬件和软件的结合，他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

节点配置：DGX B200（8 块 GPU）、DGX H200（8 块 GPU）、两个 DGX H100（8 块 GPU）系统
测试参数：依然采用 TensorRT-LLM 内部版本，输入 1024 token / 输出 2048 token；此前测试为输入 / 输出各 1024 token；并发性 MAX
计算精度：B200 采用 FP4，H100 / H200 采用 FP8 精度

与 Hopper 架构相比，Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

英伟达表示，包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B，运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

英伟达表示，在对模型进行量化以利用低精度计算优势时，确保精度损失最小化是生产部署的关键。IT之家注意到，在 DeepSeek-R1 模型上，相较于 FP8 基准精度，TensorRT Model Optimizer 的 FP4 训练后量化（PTQ）技术在不同数据集上仅产生微乎其微的精度损失。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

英伟达推出 RTX PRO 6000 系列 Blackwell 专业卡：最高 24064 核心、96GB 显存、600W

英伟达黄仁勋：以太网产品 Spectrum-X Photonics 将于 2026 年下半年推出

英伟达将与电信企业合作开发基于人工智能的 6G 无线通信技术

大家都在买广告

热门评论