微软 Azure ND H100 v5 VM 虚拟机预览发布:采用 8 至上千个 NVIDIA H100 Tensor Core GPU

2023-04-14 20:56IT之家 - 潇公子

IT之家 4 月 14 日消息,据微软 Azure 官方发布,微软将过去十年的超级计算经验和支持超大型 AI 训练工作负载的经验应用于搭建具备大规模化高性能的 AI 基础架构。微软 Azure 智能云,特别是以图形处理单元(GPU)加速的虚拟机(VM),为微软及其客户的生成式 AI 发展奠定了基础。

微软现推出 ND H100 v5 VM,是 Azure 迄今更强大和高度可伸缩的 AI 虚拟机系列。该虚拟机支持的按需配置可达 8 至上千个通过 Quantum-2 InfiniBand 网络互连的 NVIDIA H100 GPU,使得 AI 模型的性能明显提高。相较上一代 ND A100 v4 VM,本次推出的虚拟机包含以下创新技术:

  • 8 块 NVIDIA H100 Tensor Core GPU,通过下一代 NV Switch 和 NV Link 4.0 互连。

  • 在无阻塞胖树网络中,每个 GPU 搭载 400 Gb / s NVIDIA Quantum-2 CX7 InfiniBand 和每 VM 3.2Tb / s 的性能。

  • 每个 VM 中的 8 块本地 GPUs 之间通过 3.8Tb / s 对分割带宽的 NV Switch 和 NV Link 4.0 互联。

  • 第四代英特尔至强可扩展处理器。

  • PCIE 第 5 代主机到 GPU 互连,每个 GPU 带宽为 64Gb / s。

  • 16 信道的 4800 MHz DDR5 内存。

IT之家注:NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 架构,可为 AI 开发者和科学研究人员提供超强网络性能和丰富功能,帮助他们解决充满挑战性的问题。NVIDIA Quantum-2 通过软件定义网络、网络计算、性能隔离、高级加速引擎、远程直接内存访问 (RDMA) 以及高达 400 Gb / s 的超快的速度,为先进的超级计算数据中心提供助力。

微软表示,大规模 AI 已内置于 Azure 的 DNA 中。对大型语言模型研究(如图灵)的初始投资,以及诸如在云中构建第一台 AI 超级计算机等里程碑,都为生成式 AI 的问世做好了充分准备。Azure 机器学习等 Azure 服务使客户能够访问 AI 超级计算机,以进行模型训练。Azure OpenAI 服务使客户能够利用大规模生成式 AI 模型的强大功能。「规模」一直是 Azure 优化 AI 基础设施的目标之一。现在,微软正为各种规模的初创公司和企业带来无需大量物理硬件或软件投入的超级计算功能。

现在,ND H100 v5 预览发布,将成为 Azure 产品组合中的标准服务。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享