一文看懂华为昇腾芯片
- 鲜枣课堂
2025-11-30 11:45
最近这几年,网上关于华为昇腾的讨论很多,关注热度也很高。
我们经常说的昇腾,其实有两层定义。
一层是狭义的定义,特指华为昇腾芯片。
另一层是广义的定义,是指围绕昇腾芯片的整个全栈计算生态。既包括硬件,也包括软件、算法以及应用服务。
今天这篇文章,小枣君主要说说昇腾芯片和硬件体系。
█昇腾芯片的演进
昇腾(Ascend)芯片是华为(海思)自研的、专门面向高性能 AI 计算的 NPU(神经网络处理器)芯片。
现在 AI 浪潮风起云涌,到处都在搞 AI 大模型,还有 AI 应用落地。这些工作涉及到巨量的 AI 训练和推理计算需求,就会用到昇腾这样的 AI 芯片。
昇腾的对标对象,毫无疑问就是英伟达的 GPU 系列。
因为众所周知的原因,英伟达的 GPU 对我们禁售(现在连阉割版的 H20 都不卖给我们了),所以,昇腾作为国产 AI 芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。
昇腾芯片是一个大系列,主要包括昇腾 310 和昇腾 910 两个子系列。
在 2018 年的华为全联接大会上,华为轮值 CEO 徐直军首次阐述了他们的 AI 战略,并正式公布了昇腾 910 和昇腾 310 两款 AI 芯片。当时,实体展示的,是昇腾 310。
一年后,2019 年 8 月,华为又正式推出了昇腾 910。
昇腾 310 是 SoC 小芯片,和我们手机芯片差不多,只有指甲盖那么大,功耗仅有 8W。
它集成了多个运算单元,包括 CPU(8 个 ARM A55 Core)、AI Core、数字视觉预处理子系统等,主要面向边缘计算与低功耗终端,以完成 AI 推理任务为主。
AI Core 是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU 负责非矩阵类复杂计算。
根据海思官网的披露,昇腾 310 的 FP16 算力为 8TOPS,INT8 算力为 16TOPS,采用 12nm 工艺制造。
昇腾 910 是大芯片,和我们的掌心差不多大,功耗在 300W 以上,主要面向云端高性能计算。它的算力更强,既能用于 AI 推理任务,也能用于 AI 训练任务。
华为早期发布的昇腾 910,其实应该算是 910A。
当时,因为华为还没有被完全禁售,所以 910A 仍然采用了台积电的 7nm 增强版 EUV 工艺。
芯片内建了 32 颗达芬奇 Max 核心(达芬奇核心分为 Max / Lite / Tiny 三种,Max 最完整),支持混合精度计算(FP16/FP32/INT8),FP16 算力为 256TFOPs,最大功耗 350W(一开始说是 350W,后来变成了 310W)。
2020 年华为被列入实体清单后,台积电那边的先进工艺就用不了。于是,华为与中芯国际(SMIC)合作,采用他们的 N+1 工艺(等效 7nm),推出了 910B。
910B 优化了架构设计,提升了能效比,芯片尺寸为 21.32mm×31.22mm,FP16 算力约 320TFLOPS,INT8 算力约 640TOPS。显存为 64GB HBM2e,显存带宽 400GB/s。
910B 也分为 B1/B2/B3。910B3 引入了 HBM3e 内存,带宽提升至 1.2TB/s,支持万亿参数模型训练。
最近这两年,华为又推出了昇腾 910C。
昇腾 910C 采用中芯国际的 7nm(N+2)工艺,晶体管数量达到 530 亿。
910C 采用了类似 B200 的双 die 封装设计(将两颗独立的芯片 die 分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾 910B 整合到一起,实现了性能的提升。
这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。
业界估测,910C 在 FP16 精度下的单卡算力能达到 800TFLOPS 左右,大概是英伟达 H100 芯片(2022 年推出)的 80%。
值得一提的是,910C 的芯片逻辑面积大约比 H100 多 60%。这意味着 910C 在架构效率和设计优化方面,与 H100 依然存在差距。
910C 的 HBM 高带宽内存仍然来自海外厂商(国内 DRAM 制造商长鑫存储 HBM2e 相关技术还需要再等等)。芯片的整体国产化比例据说已经达到 90% 以上。
910C 的各方面参数以及进展信息都比较神秘。
根据网络上的不可靠信息,910C 于 2024 年四季度推出样片,2025 年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在 70-80 万颗。
也有不可靠消息指出,2024 年 910B 的出货量约四十万张,今年 910B 出货量可能与去年持平或略低(约 30 万张),而 910C 的出货量预计可能超过 40 万张。因此,华为今年 910B+910C 的整体出货量可能是 70-100 万张。
出货量和产能也有很大关系。中芯国际 N+2 工艺良率去年只有 20%,今年据说已经达到 40-50%,分配给 910C 的产能貌似是 2.6 万片晶圆 / 月(数据不靠谱,仅供参考,与我无关)。
价格方面,910B 的均价据说大约是 11 万 / 片,910C 可能是 18-20 万 / 片。网上很多文章说 910C 价格是 1800 美元,我觉得不靠谱。相比之下,英伟达 H100 的市场价格,大约是 2.5-3 万美元 / 张。
值得一提的是,华为前段时间推出的 CloudMatrix 384 超节点,由 384 颗昇腾 910C 芯片构建,系统性能比英伟达的 GB200 NVL72 更强。
这属于典型的“群殴”模式。虽然单芯片的性能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。
在连接方面,需要提一下华为自研的 HCCS 高速互连接口。
昇腾 910 集成了 HCCS、PCIe 4.0 和 RoCE v2 接口,可以灵活高效地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。
HCCS 对标的是英伟达的 NVLINK,能够给内核、设备、集群提供系统内存的一致访问。在单一链路的单向 / 双向互联带宽上,HCCS 有显著优势,可以有效提升多个 Al 芯片协同训练的能力。
910C 之后,据说还有 910D,采用 5nm 制程,4Die 封装,支持 FP8。今年 5-6 月份回片,预期 2026Q2-Q3 大规模量产。这个消息的来源不可靠,同样仅供参考。
再往后,华为可能就会推出昇腾 920 系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。
哦,对了,差点忘了说,华为除了昇腾 310 和 910 之外,其实还有昇腾 610。
昇腾 610 也称为 MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC)。根据资料显示,昇腾 610 采用了 7nm 制程,AI 算力达到 200TOPS@INT8 或 100TFLOPS@FP16,目前已经实现量产。
█昇腾硬件体系
基于昇腾芯片,华为开发了 AI 算力板卡、服务器、集群等一系列硬件产品,如下图所示:
这些硬件覆盖了边缘推理、云端推理、云端训练三大场景,可以满足不同行业用户的 AI 计算需求。
Atlas 200I DK A2,是面向开发者的高性能 AI 开发套件,集成了昇腾 310 芯片,内置 2 个 Al core,可支持 128 位宽的 LPDDR4X,最大算力为 22TOPS。
Atlas 300T 训练卡,基于昇腾 910 芯片,集成 32 个达芬奇 AI 核 +16 个 TaiShan 核,能够提供 280TFLOPS FP16 算力,并集成了一枚 100GE RoCE v2 网卡,支持 PCIe 4.0 和 1*100G RoCE 高速接口。内存规格方面,包括 32GB 的 HBM 和 16GB 的 DDR4。
Atlas 300T A2 训练卡,强化了高速接口和对 PCIe 5.0 的支持,集成 20 个 AI 核、8 个 CPU 核、1*200GE RoCE,提供 280TFLOPS FP16 算力。
Atlas 300I 推理卡,采用了 4 个昇腾 310,可以实现快速高效的推理计算、图像识别及视频处理等工作,支持多种规格的 H.264、H.265 视频编解码。
Atlas 300I Pro 推理卡,采用 24GB LPDDR4X,单卡最大提供 140TOPS INT8 算力。
Atlas 300I Duo 推理卡,采用 48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾 310 的组合产品,单卡最大提供 280TOPS INT8 算力。
Atlas 500 A2 智能小站,是面向边缘应用的产品。
Atlas 800 训练服务器,采用了 8 颗昇腾 910(NPU)+4 颗鲲鹏 920(CPU),广泛应用于深度学习模型开发和训练,
Atlas 800 推理服务器,最大可支持 8 个 Atlas 300l 推理卡,广泛应用于数据中心侧的 AI 推理场景。
Atlas 900 是 Al 智算集群,包括了数千颗昇腾芯片,总算力达到 256~1024P FLOPS@FP16,相当于 50 万台 PC 的计算能力。
Atlas 900 智算集群
Atlas 900 集群由 Atlas 900 PoD 集群基础单元组成。每个单元就是一个机柜,搭载超了 32 颗鲲鹏 920,47U 高度可最大提供 20.4PFLOPS@FP16 的算力。机柜采用液冷散热,最大功耗为 46KW。
好啦,以上就是关于华为昇腾硬件体系的全部介绍。
欢迎纠错,也欢迎补充更多信息!谢谢!
参考资料:
1、《昇腾计算产业发展白皮书》,华为 & 信通院;
2、《昇腾发力铸造国产算力基石》,国投证券;
3、《昇腾万里,力算未来》,华安证券;
4、《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;
5、《华为昇腾服务器研究框架》,浙商证券;
6、《“鲲鹏”展翅,“昇腾”万里》,东莞证券;
7、科技分析师 Lennart Heim (@ohlennart) 在 X 平台发布的分析文章
8、《华为发布全球算力最强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;
9、《解读神秘的华为昇腾 910》,周博洋,知乎;
10、华为官网、华为云社区。
本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。






















