对话中国工程院院士郑纬民：DeepSeek，究竟厉害在哪里

2025-01-27 12:13新浪科技 - 周文猛

1 月 27 日，DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek 成为中国区第一。

DeepSeek 究竟厉害在哪里？

今日，中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技沟通中，指出了 DeepSeek 其成功出圈的关键所在。

目前，业界对于 DeepSeek 的喜爱与赞美，主要集中在三个方面。

第一，在技术层面，DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型，分别实现了比肩 OpenAI 4o 和 o1 模型的能力。
第二，DeepSeek 研发的这两款模型成本更低，仅为 OpenAI 4o 和 o1 模型的十分之一左右。
第三，DeepSeek 把这一两大模型的技术都开源了，这让更多的 AI 团队，能够基于最先进同时成本最低的模型，开发更多的 AI 原生应用。

那么，DeepSeek 是如何实现模型成本的降低的呢？

郑纬民指出，“DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构，为其自身的模型训练成本下降，起到了关键作用。”他指出，“MLA 主要通过改造注意力算子压缩了 KV Cache 大小，实现了在同样容量下可以存储更多的 KV Cache，该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合，实现了一个非常大的稀疏 MoE 层，这成为 DeepSeek 训练成本低最关键的原因。”

就技术层面而言，KV Cache 是一种优化技术，常被用于存储人工智能模型运行时产生的 token 的键值对（即 key- value 数值），以提高计算效率。具体而言，在模型运算过程中，KV cache 会在模型运算过程中充当一个内存库的角色，以存储模型之前处理过的 token 键值，通过模型运算计算出注意力分数，有效控制被存储 token 的输入输出，通过“以存换算”避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算，提升了算力使用效率。

此外，据郑纬民透露，DeepSeek 还解决了“非常大同时非常稀疏的 MoE 模型”使用的性能难题，而这也成了“DeepSeek 训练成本低最关键的原因”。

目前，通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段，而且一个大模型的专家模型数量越多，模型就越稀疏，效率也越高，但专家模型变多可能导致最终生成的结果不太准确。

据郑纬民介绍，“DeepSeek 比较厉害的是训练 MoE 的能力，成为公开 MoE 模型训练中第一个能训练成功这么大 MoE 的企业。”新浪科技了解到，为保证大规模 MoE 专家模型的均衡运行，DeepSeek 使用了先进的、不需要辅助损失函数的、专家加载均衡技术，保证每个 token 下，少量专家网络参数被真正激活的情况下，不同的专家网络能够以更均衡的频率被激活，防止专家网络激活扎堆。

此外，DeepSeek 还充分利用专家网络被稀疏激活的设计，限制了每个 token 被发送往 GPU 集群节点（node）的数量，这使得 GPU 之间通信开销稳定在较低的水位。

原标题：《对话中国工程院院士：DeepSeek，究竟厉害在哪里？》

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。