.hd-box .hd-fr

小红书首个多模态 AI 大模型 dots.vlm1 发布并开源,基于 DeepSeek V3 LLM

2025-08-06 18:36IT之家(汪淼)34评
感谢IT之家网友软媒用户1392612的线索投递!

IT之家 8 月 6 日消息,小红书 hi lab 研发并开源的首个多模态大模型dots.vlm1今日正式发布,借助一个从零训练的 12 亿参数视觉编码器以及基于 DeepSeek V3 LLM 构建。

小红书 hi lab 表示,dots.vlm1在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

在主要的视觉评测集上,dots.vlm1的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多个基准测试中取得了相当竞争力的结果,显示出较强的图文理解与推理能力。

在典型的文本推理任务(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于 DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在 GPQA 等更多样的推理任务上仍存在差距。

总体来看,dots.vlm1在视觉多模态能力方面已接近 SOTA 水平,在文本推理方面达到了主流模型的性能。然而,在部分细分任务上仍与最优结果存在一定距离,需要在架构设计与训练数据上进一步优化。

复杂图表推理样例:

STEM 解题样例:

长尾识别解题样例:

视觉推理样例:

IT之家附dots.vlm1开源地址:

https://github.com/rednote-hilab/dots.vlm1

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论