华为云宣布 Tokens 服务全面接入 384 超节点：性能从 1920TPS 提升到 2400TPS

2025-08-27 18:55 IT之家 - 问舟

IT之家 8 月 27 日消息，在今日举行的第四届 828 B2B 企业节开幕式上，华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点，将发挥“大杂烩”优势，以系统创新弥补单点不足，实现性能持续提升。

华为董事、质量流程 IT 总裁陶景文在开幕式上表示，“像以华为为龙头的硬件公司，在算力上应该已经能基本解决美国对中国的卡脖子问题，中国还有一批像 DeepSeek 这样的优秀大模型公司，我们的大模型竞争力已经不输于美国。”

华为云介绍称，通过 xDeepServe 架构创新，单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能，超过业界水平。

华为云表示，过去 18 个月，中国 AI 算力需求呈现指数级增长。数据显示，2024 年初中国日均 Token 的消耗量为 1000 亿，截至今年 6 月底，日均 Token 消耗量已突破 30 万亿，1 年半的时间增长了 300 多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。

IT之家查询获悉，华为云于今年 3 月在以往按卡时计费的基础上正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种规格。

华为云表示，Tokens 服务现正式接入 CloudMatrix384，并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破，从年初的 1920TPS 提升至 2400TPS，TPOT 仅为 50ms。

目前，华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。