.hd-box .hd-fr

行业首个：商汤发布并开源 NEO 原生多模态模型架构，实现视觉、语言深层统一

2025-12-02 22:33IT之家(汪淼)2评

IT之家 12 月 2 日消息，商汤科技今日发布并开源了与南洋理工大学 S-Lab 合作研发的全新多模态模型架构 ——NEO，为日日新 SenseNova 多模态模型奠定了新一代架构的基石。

NEO 宣称是“行业首个可用的、实现深层次融合的原生多模态架构（Native VLM）”，从底层原理出发，打破了传统“模块化”范式的桎梏，以“专为多模态而生”的设计，通过核心架构层面的多模态深层融合，实现了性能、效率和通用性的整体突破。

商汤科技介绍称，当前业内主流的多模态模型大多遵循“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种基于大语言模型（LLM）的扩展方式，虽然实现了图像输入的兼容，但本质上仍以语言为中心，图像与语言的融合仅停留在数据层面。这种“拼凑”式的设计不仅学习效率低下，更限制了模型在复杂多模态场景下（比如涉及图像细节捕捉或复杂空间结构理解）的处理能力。

商汤推出了从零设计的 NEO 原生架构，通过在注意力机制、位置编码和语义映射三个维度的底层创新，让模型天生具备了统一处理视觉与语言的能力：

原生图块嵌入（Native Patch Embedding）：摒弃了离散的图像 tokenizer，通过独创的 Patch Embedding Layer (PEL) 自底向上构建从像素到词元的连续映射。这种设计能更精细地捕捉图像细节，突破了主流模型的图像建模瓶颈。
原生三维旋转位置编码（Native-RoPE）：解耦了三维时空频率分配，视觉维度采用高频、文本维度采用低频，适配两种模态的自然结构。这使得 NEO 不仅能捕获图像的空间结构，更具备向视频处理、跨帧建模等复杂场景无缝扩展的潜力。
原生多头注意力（Native Multi-Head Attention）：针对不同模态特点，NEO 在统一框架下实现了文本 token 的自回归注意力和视觉 token 的双向注意力并存。这种设计提升了模型对空间结构关联的利用率，从而更好地支撑复杂的图文混合理解与推理。

此外，配合 Pre-Buffer & Post-LLM 双阶段融合训练策略，NEO 能够在吸收原始 LLM 完整语言推理能力的同时，从零构建视觉感知能力，解决了传统跨模态训练中语言能力受损的难题。

测试显示，NEO 实现了多方面的突破：

数据效率：仅需业界同等性能模型 1/10 的数据量（3.9 亿图像文本示例），NEO 便能开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器，其架构便能在多项视觉理解任务中追平 Qwen2-VL、InternVL3 等顶级模块化旗舰模型。
性能：在 MMMU、MMB、MMStar、SEED-I、POPE 等多项公开评测中，NEO 架构均斩获高分。
推理性价比：特别是在 0.6B-8B 的参数区间内，NEO 在边缘部署方面优势显著。

商汤已正式开源基于 NEO 架构的2B 与 9B 两种规格模型，IT之家附开源地址如下：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

商汤多模态

商汤科技林达华：AI 下一阶段突破必然要超越语言，回归世界交互

商汤日日新 SenseNova V6 多模态融合大模型发布

商汤去年收入 37.7 亿元同比增长 10.8%，生成式 AI 业务收入 24 亿元大增 103.1%

大家都在买广告

热门评论

查看更多评论