.hd-box .hd-fr

行业首个:商汤发布并开源 NEO 原生多模态模型架构,实现视觉、语言深层统一

2025-12-02 22:33IT之家(汪淼)2评

IT之家 12 月 2 日消息,商汤科技今日发布并开源了与南洋理工大学 S-Lab 合作研发的全新多模态模型架构 ——NEO,为日日新 SenseNova 多模态模型奠定了新一代架构的基石。

NEO 宣称是“行业首个可用的、实现深层次融合的原生多模态架构(Native VLM)”,从底层原理出发,打破了传统“模块化”范式的桎梏,以“专为多模态而生”的设计,通过核心架构层面的多模态深层融合,实现了性能、效率和通用性的整体突破。

商汤科技介绍称,当前业内主流的多模态模型大多遵循“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种基于大语言模型(LLM)的扩展方式,虽然实现了图像输入的兼容,但本质上仍以语言为中心,图像与语言的融合仅停留在数据层面。这种“拼凑”式的设计不仅学习效率低下,更限制了模型在复杂多模态场景下(比如涉及图像细节捕捉或复杂空间结构理解)的处理能力。

商汤推出了从零设计的 NEO 原生架构,通过在注意力机制、位置编码和语义映射三个维度的底层创新,让模型天生具备了统一处理视觉与语言的能力:

此外,配合 Pre-Buffer & Post-LLM 双阶段融合训练策略,NEO 能够在吸收原始 LLM 完整语言推理能力的同时,从零构建视觉感知能力,解决了传统跨模态训练中语言能力受损的难题

测试显示,NEO 实现了多方面的突破:

商汤已正式开源基于 NEO 架构的2B 与 9B 两种规格模型,IT之家附开源地址如下:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论