腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

2026-06-05 20:38 IT之家 - 沁沧(实习)
感谢IT之家网友 江山已旧Domado 的线索投递!

IT之家 6 月 5 日消息,腾讯混元今日宣布提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。

官方表示,Stem 稀疏注意力算法从“因果信息流”重新审视块级稀疏,用 Token 位置衰减(TPD)和输出感知度量(OAM)两大创新,仅用 25% 算力就逼近稠密注意力的精度。配套的 HPC 算子库则将这份理论加速比真正转化为端到端的实测性能。

▲ Stem 在 Hy3 preview(W8A8-FP8)上更贴近生产环境的真实落地数据

根据 Stem 算法 × HPC 算子的全栈加速方案,算法层面,Stem 通过 Token 位置衰减(TPD)和输出感知度量(OAM)实现 25% 预算下的近无损精度;算子层面,HPC 开源的 Stem+BSA 算子将稀疏收益转化为真实硬件加速,128K 上下文下首字延迟降低 3.6 倍

▲ 模型精度

IT之家附相关链接如下:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值 还可以 无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消 发送
        分享成功

        长按关注IT之家公众号
        阅读更多精彩文章

        查看更多原创好文
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享