.hd-box .hd-fr

DeepSeek-VL2 AI 视觉模型开源:支持动态分辨率、处理科研图表、解析各种梗图等

2024-12-14 10:20IT之家(故渊)5评
感谢IT之家网友Skyraver的线索投递!

IT之家 12 月 14 日消息,DeepSeek 官方公众号昨日(12 月 13 日)发布博文,宣布开源 DeepSeek-VL2 模型,在各项评测指标上均取得了极具优势的成绩,官方称其视觉模型正式迈入混合专家模型(Mixture of Experts,简称 MoE)时代。

IT之家援引官方新闻稿,附上 DeepSeek-VL2 亮点如下:

DeepSeek-VL2 模型支持动态分辨率,仅使用一个 SigLIP-SO400M 作为图像编码器,通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略让 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比,适配更多应用场景。

DeepSeek-VL2 模型还得益于更多科研文档数据的学习,可以轻松理解各种科研图表,并通过 Plot2Code,根据图像生成 Python 代码。

模型和论文均已发布:

模型下载:https://huggingface.co/deepseek-ai

GitHub 主页:https://github.com/deepseek-ai/DeepSeek-VL2

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论