.hd-box .hd-fr

面壁智能开源“小钢炮”MiniCPM-S AI 模型,主打高效低能耗

2024-07-05 22:08IT之家(清源)5评

IT之家 7 月 5 日消息,今天的 2024 世界人工智能大会(WAIC 2024)期间,面壁智能联合创始人、首席科学家刘知远宣布,开源主打高效低能耗的新一代“面壁小钢炮”MiniCPM-S 模型,同时发布助力开发者一键打造大模型 SuperApp 的全栈工具集MobileCPM

据介绍,面壁 2024 年发布了具备 GPT-3 同等性能但参数仅为 24 亿的MiniCPM-2.4B,知识密度提高了约 86 倍。面壁方面更称,这“并不是极限”—— 其持续优化 Scaling Law 使模型知识密度不断提升,可不断训练出计算更加高效、表现更强(参数规模降低,数值位宽降低,结构更加高效)的基础大模型。

而此次开源的 MiniCPM-S 采用“稀疏激活”在同等参数下减少大模型的推理能耗,稀疏度越高,每个词元(token)激活的神经元越少,大模型的推理成本和能耗就越少

MiniCPM-S 1.2B 采用了高度稀疏架构,通过将激活函数替换为 ReLU 及通过带渐进约束的稀疏感知训练,巧妙地解决了此前主流大模型在稀疏激活上面临的困境。

官方还表示,和同规模的稠密模型MiniCPM 1.2B相比,MiniCPM-S 1.2具备如下特征:

MiniCPM-S 1.2B 号称实现知识密度的“空前提升”—— 达到同规模稠密模型 MiniCPM 1.2B 的 2.57 倍,Mistral-7B 的 12.1 倍。

IT之家附开源链接:

此外,面壁还开源了号称业内首个端侧大模型工具集 MobileCPM,开发者可以一键集成大模型到 App,且实现“开箱即用”。其包含开源端侧大模型、SDK 开发套件及翻译、摘要等丰富的 intent,可一站式灵活定制满足不同应用场景需求的大模型 App。其为开发者提供了基础模式、精装模式、全包配件模式,默认集成面壁新一代高效稀疏架构模型 MiniCPM-S 1.2B。

MobileCPM 已经支持 iOS 系统,安卓版本也即将上线。附:开源地址TestFlight 外测地址

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论