对话中国工程院院士郑纬民:DeepSeek,究竟厉害在哪里
1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。
DeepSeek 究竟厉害在哪里?
今日,中国工程院院士、清华大学计算机系教授郑纬民及多位 AI 圈人士在与新浪科技沟通中,指出了 DeepSeek 其成功出圈的关键所在。
目前,业界对于 DeepSeek 的喜爱与赞美,主要集中在三个方面。
第一,在技术层面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 两款模型,分别实现了比肩 OpenAI 4o 和 o1 模型的能力。
第二,DeepSeek 研发的这两款模型成本更低,仅为 OpenAI 4o 和 o1 模型的十分之一左右。
第三,DeepSeek 把这一两大模型的技术都开源了,这让更多的 AI 团队,能够基于最先进同时成本最低的模型,开发更多的 AI 原生应用。
那么,DeepSeek 是如何实现模型成本的降低的呢?
郑纬民指出,“DeepSeek 自研的 MLA 架构和 DeepSeek MOE 架构,为其自身的模型训练成本下降,起到了关键作用。”他指出,“MLA 主要通过改造注意力算子压缩了 KV Cache 大小,实现了在同样容量下可以存储更多的 KV Cache,该架构和 DeepSeek-V3 模型中 FFN 层的改造相配合,实现了一个非常大的稀疏 MoE 层,这成为 DeepSeek 训练成本低最关键的原因。”
就技术层面而言,KV Cache 是一种优化技术,常被用于存储人工智能模型运行时产生的 token 的键值对(即 key- value 数值),以提高计算效率。具体而言,在模型运算过程中,KV cache 会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的 token 键值,通过模型运算计算出注意力分数,有效控制被存储 token 的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个 token 开始运算的重复计算,提升了算力使用效率。
此外,据郑纬民透露,DeepSeek 还解决了“非常大同时非常稀疏的 MoE 模型”使用的性能难题,而这也成了“DeepSeek 训练成本低最关键的原因”。
目前,通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段,而且一个大模型的专家模型数量越多,模型就越稀疏,效率也越高,但专家模型变多可能导致最终生成的结果不太准确。
据郑纬民介绍,“DeepSeek 比较厉害的是训练 MoE 的能力,成为公开 MoE 模型训练中第一个能训练成功这么大 MoE 的企业。”新浪科技了解到,为保证大规模 MoE 专家模型的均衡运行,DeepSeek 使用了先进的、不需要辅助损失函数的、专家加载均衡技术,保证每个 token 下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活扎堆。
此外,DeepSeek 还充分利用专家网络被稀疏激活的设计,限制了每个 token 被发送往 GPU 集群节点(node)的数量,这使得 GPU 之间通信开销稳定在较低的水位。
原标题:《对话中国工程院院士:DeepSeek,究竟厉害在哪里?》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。