三大芯片巨头正面碰撞，燃起独立 GPU 新战火

2021-08-25 11:17 爱集微 - 李延

在刚刚结束的 2021 年架构日上，Intel 公布了全新的独立显卡架构 Xe HPG，基于该架构的首批 GPU 将采用台积电 N6 工艺，于 2022 年第一季度上市。这是 Intel 从 1998 年发布 i740 以来，二十多年之后再次踏入独立 GPU 市场。

由于 Intel 的加入，独立 GPU 的市场将再次变成“三国杀”的局面，从图形图像到 AI 和高性能计算，技术竞争和市场争夺将全面升级。

从专用到通用

GPU 市场行情大好。根据市场研究公司 Jon Peddie Research 的报告，2021 年第一季全球 GPU 出货量达 1.19 亿颗，同比增长 38.78%，环比下降 3%。

虽然 Intel 在整体 GPU 出货上占据了 68% 的市场份额，但是在独立 GPU 方面，英伟达则以 81% 的份额占据绝对领先，而 AMD 以 19% 的占有率排名第二。据 JPR 的分析师预测，独立 GPU 的出货量还将继续提升，到 2025 年将占整体 GPU 市场的 26%。

无论是云端、边缘侧还是终端，各种电子系统都需要高性能的图像处理能力，GPU 的发展因此进入加速阶段。独立 GPU 因为用途广泛，更是成为了大芯片中的佼佼者，架构和工艺都已达芯片业的顶峰。

英伟达在 2020 年发布的面向消费市场的旗舰级 GeForce RTX 30 系列 GPU，采用了三星 8nm 工艺，其中的 RTX3080 和 RTX3090，所包含的晶体管数目已经达到了 280 亿个。与之对应，AMD 的 RX 6000 系列，采用了台积电的 7nm 工艺，晶体管数目也达到了 268 亿个。

顶尖的工艺和庞大的晶体管数目对应了越来越复杂的芯片架构。以目前最新的英伟达安培（Ampere）架构为例，其运算部份就包括了流处理器 (Stream Processor，SP)、纹理单元（Texture mapping unit, TMU)、张量单元（Tensor Core）、光线追踪单元（RT Cores）、光栅化处理单元（ROPs）。

其中，在游戏中应用越来越多的光线追踪技术由光追单元来负责，而将 GPU 带入 AI 领域的则是张量单元，可用于实时深度学习、大型矩阵运算和深度学习超级采样（DLSS）。这两个单元的引入也将 GPU 的性能和作用完全提升，从图形处理器升级成计算处理器。

为了追求性能的极致，独立 GPU 之间的竞争因此就演化了成了架构之间的比拼。英伟达在 2020 年推出了安培架构，AMD 则回应了 RDNA 2 架构，使得其 RX 6000 在性能上可以与 RTX 30 一较高下。

有人将 GPU 架构的升级趋势概括为“更多”、“更专”、“更智能”。晶体管数量和运算单元的增加是为多，其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元，GPU 还会增加新的运算单元。“更智能”是指 GPU 的 AI 运算能力上升。

这次 Intel 加入战局也是有备而来，Xe 架构经过多年打磨而出，不但具备了时下最流行的各种元素，还使用了台积电的 6 纳米工艺，完全有实力与英伟达和 AMD 一较高下。

不过，有业内人士指出，Intel 还是一个基因属于 CPU 的公司，而在 GPU 上的投入需要配合 CPU 的成长，因此处理好 CPU 和 GPU 之间的发展冲突将是一个很大的挑战。

争夺数据中心和更广阔天地

2012 年，多伦多大学 Alex Krizhevsky 创建了能够从 100 万样本中自动学习识别图像的深度神经网络。仅在两块 NVIDIA GTX580 GPU 上训练数天，“Alex Net”就赢得了当年的 Image Net 竞赛，击败了磨练几十年的所有人类专家算法。认识深度学习的强大后，斯坦福的 Andrew Ng 与 NVIDIA 研究室合作开发了一种使用大规模 GPU 计算系统训练网络的方法。深度神经网络技术从此迅速发展，也一举奠定了 GPU 在 AI 领域的地位。

GPU 提供了多个并行计算的基础结构，并且核心数较多，可以进行海量数据的并行计算，还拥有更高的访存速度和很高的浮点运算能力。这一切都使得 GPU 完美契合了 AI 计算的需求。

当前，GPU 是 AI“训练”阶段较为适合的芯片。GPU 在 AI 时代的云端训练芯片中占据较大的份额，达到 64%。虽然后期由于 FPGA 以及 ASIC 技术的突破，GPU 的市场份额有所下降，但是仍然是云端训练市场份额最大的芯片，2019 年-2021 年年复合增长率达到 40%。

这一切的起点就是 GPGPU 的应用。用于通用计算的 GPU 被称为 GPGPU，可以与 CPU 协同工作，将一些大计算量的负载承接过来，以加速应用程序。

GPGPU 的概念始于学界，真正让其发扬光大的还是英伟达。2006 年，英伟达推出了 Tesla 架构，把 GPU 中的矢量计算单元拆成了多个标量计算渲染单元，使其更适合通用计算。2007 年，英伟达又推出了 CUDA，专为 GPU 设计的并行计算平台和编程模型。通过 CUDA 可以大大降低用 GPU 做通用计算的难度，因此大大降低了 GPGPU 应用的门槛。

当 CUDA 与深度学习相结合，更是释放了 GPU 的巨大潜力，也让 AI 从实验室走入了业界。同时，GPU 也稳固了自己在数据中心的地位。

凭借 GPU 在数据中心的表现，英伟达的业绩也一路走高。在 2021 年 Q1 财季，其数据中心业务营收为 20.5 亿美元，创下公司历史上的新纪录，与上年同期相比增长 79%，与上一季度相比增长 8%，占总营收的比重已达 36%。

在此领域发力较晚的 AMD 现在也开始奋起直追。根据 AMD 首席执行官 Lisa Su 的说法，该公司第二季度数据中心 GPU 的销售收入“同比增长了一倍多”。Lisa Su 将该细分市场的出色表现归功于该公司 Instinct 加速器部署的增加，其中还包括其基于 CDNA 2 架构的最新数据中心显卡的首次出货。

现在，终于轮到 Intel 出手了。最新的面向数据中心的 GPU Ponte Vecchio 重磅出炉，拥有 1000 亿颗晶体管的 SoC 也创下了 Intel 之最。

Ponte Vecchio 基于 Xe-HPC 微架构，由多个复杂的设计组成，这些设计以单元形式呈现，然后通过嵌入式多芯片互连桥接（EMIB）单元进行组装，实现单元之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中，为提高功率和互连密度形成有源芯片的 3D 堆叠。

“在 ASIC 和 FPGA 都在与 GPU 进行竞争的时刻，Intel 选择了 GPU，说明 GPU 可能还是通用 AI 的最好选择。”行业专家刘明（化名）这样评论道。

这颗巨大的芯片也可以被看做是对英伟达推出数据中心 CPU 的反击，双方至此都形成了 CPU+GPU 的布局。

同时，英特尔还在发展其 oneAPI 计划，使其成为 Nvidia CUDA 的强大竞争对手，因为它的范围不仅限于 GPU，而且涵盖 CPU 和所有处理器。

尽管独立 GPU 不能完全取代 CPU，但是其已经成为数据中心中非常关键的一环。当三大芯片厂商都汇聚于此时，GPU 还会有更多精彩的故事。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。