.hd-box .hd-fr

达摩院开源 VideoLLaMA3:仅 7B 大小,视频理解拿下 SOTA

2025-02-14 13:13量子位(关注前沿科技)29评

7B 大小的视频理解模型中的新 SOTA,来了!它就是由达摩院出品的Video LLaMA 3,以图像为中心构建的新一代多模态视频-语言模型。

在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA 3 均取得优异成绩,超越多数基线模型。

不仅如此,适用于端侧的2B大小的 Video LLaMA 3,在图像理解上的表现也是较为出色。

在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试,如在 InfoVQA 中超越之前最好成绩,在 MathVista 数学推理任务上优势明显。

VideoLLaMA 3 以图片为中心的设计理念贯穿于整个模型架构和训练过程。

通过高质量的图片文本数据为视频理解打下坚实基础,仅使用3M视频文本数据,实现全面超越同参数量开源模型的视频理解能力。

在线可玩

目前,VideoLLaMA 3 已经在 HuggingFace 上提供了图像、视频理解的 demo。

例如我们给一张《蒙娜丽莎的微笑》,并向 VideoLLaMA 3 提问:

Discuss the historical impact and the significance of this painting in the art world.

讨论这幅画在艺术界的历史影响和意义。

VideoLLaMA 3 的回答是这样的:

《蒙娜丽莎》不仅是世界上最著名的画作之一,也是艺术史上的重要作品。它创作于文艺复兴时期,体现了该时期对人文主义的关注和古典学习的复兴。列奥纳多・达・芬奇的创新技术,如在色彩和色调之间进行柔和过渡的模糊手法,为这幅画的神秘品质做出了贡献。几个世纪以来,《蒙娜丽莎》一直是一个迷人的主题,激发了无数的解释和分析。它已成为西方文化的标志,象征着艺术成就的顶峰,象征着视觉艺术对跨越时间和文化的观众的持久魅力。

再来看下视频理解的 demo,我们的问题是:

What is unusual in the video?

视频中有什么不寻常之处?

对此,VideoLLaMA 3 表示:

这段视频的不同寻常之处在于,它展示了熊这种典型的野生动物,正在进行一种类似人类的活动,比如在桌子上吃寿司。

VideoLLaMA 3 回答可谓是非常简约且精准了。

并且这个 demo 在 HuggingFace 上的操作也是极其简单,只需上传图片或视频,再提出你的问题即可。

怎么做到的?

VideoLLaMA 3 的关键,在于它是一种以图像为中心的训练范式。

这种范式主要包含四个关键内容:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论