.hd-box .hd-fr

扩散语言模型写代码,速度比自回归快 10 倍

2025-07-10 15:14量子位(闻乐)6评

谁说扩散模型只能生成图像和视频?

现在它们能高质量地写代码了,速度还比传统大模型更快!

Inception Labs 推出基于扩散技术的全新商业级大语言模型——Mercury

Mercury 突破了自回归模型“从左到右”逐词生成的限制,采用“从噪声到结构化输出”的方式,能一次性预测所有方向的 token,提高了生成速度。

这样一来,Mercury 还解决了自回归“一旦生成难以回头调整”的问题。

扩散模型并不是仅考虑前面已经生成的内容,它能在生成过程中进行动态纠错修改,具有更大的灵活性。

尽管采用了扩散技术,Mercury 模型系列仍保留了Transformer架构。

这确保了该模型能直接复用近年来为大语言模型开发的高效训练、推理优化技术(如低阶算子优化、超参数调优工具等)。

实测数据显示,面对相同的编程任务,Mercury 的代码生成速度比传统工具最多快 10 倍,大幅缩短了开发周期。

在 H100 GPU 上实现 1109 tokens / 秒吞吐量

Mercury 用成熟的 Transformer 作为神经网络基础,结合扩散技术的并行生成能力,既保留了大模型的兼容性,又突破了自回归模型逐词生成的速度限制。

扩散生成流程

Mercury 的核心创新在于“扩散式生成”,流程如下:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论