.hd-box .hd-fr

对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里

2025-01-27 12:13新浪科技(周文猛)0评

1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。

DeepSeek 究竟厉害在哪里?

今日,中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技沟通中,指出了 DeepSeek 其成功出圈的关键所在。

目前,业界对于 DeepSeek 的喜爱与赞美,主要集中在三个方面。

那么,DeepSeek 是如何实现模型成本的降低的呢?

郑纬民指出,“DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构,为其自身的模型训练成本下降,起到了关键作用。”他指出,“MLA 主要通过改造注意力算子压缩了 KV Cache 大小,实现了在同样容量下可以存储更多的 KV Cache,该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合,实现了一个非常大的稀疏 MoE 层,这成为 DeepSeek 训练成本低最关键的原因。”

就技术层面而言,KV Cache 是一种优化技术,常被用于存储人工智能模型运行时产生的 token 的键值对(即 key- value 数值),以提高计算效率。具体而言,在模型运算过程中,KV cache 会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的 token 键值,通过模型运算计算出注意力分数,有效控制被存储 token 的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露,DeepSeek 还解决了“非常大同时非常稀疏的 MoE 模型”使用的性能难题,而这也成了“DeepSeek 训练成本低最关键的原因”。

目前,通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段,而且一个大模型的专家模型数量越多,模型就越稀疏,效率也越高,但专家模型变多可能导致最终生成的结果不太准确。

据郑纬民介绍,“DeepSeek 比较厉害的是训练 MoE 的能力,成为公开 MoE 模型训练中第一个能训练成功这么大 MoE 的企业。”新浪科技了解到,为保证大规模 MoE 专家模型的均衡运行,DeepSeek 使用了先进的、不需要辅助损失函数的、专家加载均衡技术,保证每个 token 下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活扎堆。

此外,DeepSeek 还充分利用专家网络被稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点(node)的数量,这使得 GPU 之间通信开销稳定在较低的水位。

原标题:《对话中国工程院院士:DeepSeek,究竟厉害在哪里?》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论