.hd-box .hd-fr

蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换

2025-11-20 09:36IT之家(浩渺)15评

IT之家 11 月 20 日消息,蚂蚁集团今日宣布开源万亿参数强化学习高性能权重交换框架 Awex。

据介绍,Awex 是为极致性能打造的训练推理引擎权重同步框架,解决 RL 流程中训练权重参数同步到推理模型的核心难题,可在秒级完成 TB 级大规模参数交换,显著降低 RL 模型训练延迟,主要特点如下:

Awex 权重交换框架整体主要由三个组件组成:

权重交换的核心功能模块主要由 5 个部分组成:

同时 Awex 也支持对权重进行 Tensor 级别的校验,将通过文件系统模式加载的权重跟通过传输模式加载的权重进行 Tensor 级别的细粒度比对,逐个判断差异,保证传输模式的正确性。

在千卡规模的集群上,Awex 使用 NCCL 传输数据可以在一秒内完成 10B 规模的模型权限交换,二十秒内完成 1T 规模的模型权重交换,使用 RDMA 进行传输,1T 模型权重交换耗时可以进一步缩短到六秒钟。

未来展望,Awex 是蚂蚁 ASystem 强化学习系统的核心组件之一,而 ASystem 是百灵万亿模型训练的坚实基础。我们将在未来陆续开源 ASystem 的其他核心 RL 组件,进一步完善开源强化学习训练生态。目前 Awex 开源版已支持 Megatron 和 SGLang 引擎

IT之家附开源地址:https://github.com/inclusionAI / asystem-awex

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论