Stable Diffusion 3 模型测试:英特尔 Gaudi2 加速器比英伟达 H100 最多快 55%

2024-03-12 14:09IT之家 - 故渊

IT之家 3 月 12 日消息,Stability AI 近日发布新闻稿,表示在文生图模型 Stable Diffusion 3 测试中,英特尔 Gaudi2 加速器比英伟达 H100 最多快 55%。

根据新闻稿,Stable Diffusion 3 模型参数范围在 8 亿到 80 亿之间,本次测试使用的是 20 亿参数版本。测试选手包括英伟达的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特尔 Gaudi2 96 GB 加速器。

在保持加速器和节点数量不变的情况下,英特尔 Gaudi2 阵列使用 2 个节点、16 个加速器和每个加速器 16 个恒定批处理大小(共 256 个),每秒可生成 927 幅图像,而 H100 阵列每秒生成 595 幅图像,A100 阵列每秒生成 381 幅图像。

在节点数相同的情况下,Gaudi2 阵列每秒可生成 12654 幅图像,每台设备每秒可生成 49.4 幅图像;而老一代 A100 "Ampere" 阵列每秒可生成 3992 幅图像,每台设备每秒可生成 15.6 幅图像。

Stability AI 表示:

在使用 80 亿参数的 Stable Diffusion 3 模型进行推理测试时候,Gaudi2 芯片的推理速度与使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,经过 TensorRT 优化后,A100 芯片生成图像的速度比高迪 2 快 40%。

我们预计,经过进一步优化后,Gaudi2 在该模型上的性能将很快超过 A100。在我们使用基本 PyTorch 的 SDXL 模型上进行的早期测试中,Gaudi2 在 3.2 秒内生成了 30 steps 1024x1024 图像,而 A100s 上的 PyTorch 为 3.6 秒,A100 上使用 TensorRT 的生成速度为 2.7 秒。

IT之家附上报告原文地址,感兴趣的用户可以深入阅读。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享