豆包大模型家族全面升级，重磅发布视觉理解模型

2024-12-18 17:51之家网站 - -

火山引擎总裁谭待

12 月 18 日，2024 火山引擎 FORCE 原动力大会・冬在上海举办，火山引擎带来豆包大模型家族全新升级。豆包大模型 12 月日均 tokens 使用量超过 4 万亿，较 5 月发布时期增长超过 33 倍。

okens 调用规模化增长的同时，豆包大模型在不同场景中都在快速增长、全面开花。比如信息处理场景，最近 3 个月豆包大模型调用量增长了 39 倍，帮助企业更好的分析和处理内外部数据；在客服与销售场景，调用量增长 16 倍，帮助企业更好的服务客户，扩大销售；在硬件终端场景，增长 13 倍，AI 工具增长 9 倍。

不断增加的调用量和多场景覆盖，让豆包大模型越来越全面，迎来重磅升级。

豆包・视觉理解模型发布，拓宽大模型场景边界

视觉，是人类理解这个世界最重要的手段。对于大模型来说也是如此，只有做好视觉理解，才能让模型有能力处理好真实世界的信息，辅助人类完成一系列复杂工作。本次大会正式发布了豆包・视觉理解模型，用户可以同时输入文本和图像相关的问题。模型能够综合理解并给出准确的回答。这将极大地简化应用的开发流程，解锁更多的大模型价值场景。

更强的内容识别能力：不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。
更强的理解和推理能力：不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算。

更细腻的视觉描述能力：可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作。

基于以上能力，豆包・视觉理解模型在教育、旅游、电商等场景有着非常广泛的应用。在教育场景中，为学生优化作文、科普知识；在旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识；在电商营销场景中，帮助商家充分描述商品细节，高效发布种草广告等等。视觉理解能力将极大拓展大模型的场景边界，为大模型的场景使用打开天花板，在金融、医疗、建筑、地理、体育、物流等诸多行业还有非常广阔的应用前景。

豆包・视觉理解的输入价格为每千 tokens 0.003 元，比行业平均价格降低 85%，相当于一块钱可以处理 284 张 720P 的图片，视觉理解模型正式走进厘时代。同时火山引擎还将提供更高的初始流量，RPM 达到了 15,000 次，TPM 达到 120 万，让企业和开发者用好视觉理解模型，找到更多创新场景。

豆包大模型家族再进化，豆包通用模型 pro 迭代新版本

在本次大会中，火山引擎除了推出视觉理解模型之外，还发布、升级了多个其他模型。大模型家族成员更丰富，大模型能力再提升。

豆包通用模型 pro 完成新版本迭代：综合任务处理能力较 5 月份提升 32%，在推理上提升 13%，在指令遵循上提升 9%，在代码上提升 58%，在数学上提升 43%，在专业知识领域能力提升 54%。

豆包・音乐模型 4.0 发布：从“高光片段”走向“完整歌曲”，支持包括前奏、主歌、副歌、间奏、过渡段的 3 分钟全曲创作；歌词局部修改，仍能适配原有旋律；全曲风格、情感和音乐逻辑保持一致，曲风连贯。

豆包・文生图模型 2.1 发布：支持“一键 P 图”，可以高精度指令理解，对中英文、专有名词“来者不拒”；高质量编辑效果，聚焦目标，不“误伤”原图；高效率创新模型，可实现多元风格，美观自然。支持“一键海报”，中文精准生成，高质量精准生成中文；图文精妙融合，字体与图片内容巧妙融合；极速海报生成，模型最快做到 6 秒出图。

veOmniverse + 豆包・3D 生成模型发布：veOmniverse 支持高保真视觉渲染、大规模渲染算力池、物理 & 传感精确模拟、即开即用的 3D 编辑器。豆包・3D 生成模型，支持文生 3D、图生 3D 及多模态生成，1min 生成高保真、高质量 3D 资产，复杂物品、物品组合大规模场景生成，支持多模态 3D 资产编辑。

此外，豆包・视频生成模型将在 2025 年 1 月正式对外开放服务，用户可在火山引擎官网预约正式服务。

全域搜索、高效记忆为模型落地加速

为了帮助企业轻松应对信息获取和搜索推荐的挑战，火山引擎推出全域 AI 搜索，通过场景化搜索推荐一体化服务、企业私域信息整合服务、联网问答服务，将企业的信息、业务和用户需求紧密结合，帮助企业实现“发现更多，推荐更准，搜索无限可能”。

火山引擎 AI 搜推引擎基于基于豆包大模型家族的融合增强技术驱动；搜索推荐一体，有强大的推荐能力、结果精准、深度个性化；支持多模态，文本、图像、音频、视频全能理解；电商、信息检索、娱乐场景通通适用；性能强，支持百亿内容规模、超大规模吞吐、亳秒级检索。联网问答 Agent 基于抖音集团海量优质实时内容更丰富；秒级呈现，依据问题提供时效性热点答案更高效；图片、语音、文字等多模态可视化创新交互更创新，帮助企业实现全域信息一触即达。

记忆对大模型是非常重要的，记忆未来会是大模型必备的能力。火山引擎融合了更好的上下文缓存技术和 RAG 技术，发布大模型记忆方案，将通过更快的响应速度、更低的使用成本、更精准的效果、以及亿级别的记忆片段，帮助客户构建更有效的记忆方案。

扣子升级 1.5 版本，让 AI 离应用更近一步：

开发者生态逐渐完善：超过 100 万活跃开发者，发布超过 200 万个智能体。

全新的 AI 应用开发环境：支持 GUI 搭建界面，并且可以一键发布为小程序、H5、API 等多种应用形态。

更强的多模态能力：提供音视频对话能力，端到端延迟响应低至 1 秒，低成本 SDK 快速接入各类硬件。

海量的精品模板：涵盖多业务场景，一键复制使用

HiAgent 升级 1.5 版本，帮助企业敏捷构建企业级 AI 原生应用的能力中心：

更懂 AI 转型：提供观测 & 评测体系，保障效果生产可用；提供 100 + 行业应用模板，企业可开箱即用；提供配套 AI 咨询，帮助企业找到 AI 落地路径。

更深业务适配：提供丰富的企业级插件、灵活的应用集成机制；GraphRAG 构建知识图谱，提供细粒度的知识资产管理；生成式画布融合 CUI 和 GUI，打造智能交互引擎。

更强安全保障：支持 RAG 知识库和大模型全栈私有化部署。

模型落地加速将为企业带来更多机遇，助力多行业加速智能化转型。在汽车领域，过去 7 个月，豆包大模型汽车行业日均 tokens 消耗增长了 50 倍，目前已服务国内市场近八成汽车品牌，稳坐汽车行业大模型服务商第一梯队。在智能终端领域，豆包大模型服务了终端行业客户 50+AI 应用场景，覆盖超过了 3 亿个终端设备，为消费者带来更加智能的生活与工作体验，来自智能终端的豆包大模型日均 tokens 调用量从 5 月到 12 月增长了 100 倍。

技术架构面向 AI 全面转型 AI 云与基础设施持续创新

火山引擎在基础架构、数据分析等层面带来新服务，为企业打造更便捷、更高效、更安全的 AI 体验。

火山引擎认为下一个十年，计算范式应该从云原生，进入到 AI 云原生的新时代。AI 云原生，将以 GPU 为核心重新来优化计算、存储与网络架构，GPU 可以直接访问存储和数据库，来显著的降低 IO 延迟。同时，全系统提供更高规模的高速互联，和端到端的安全保护。基于 AI 云原生的理念，火山引擎推出新一代计算、网络、存储和和安全产品。在计算层面，新一代的火山引擎 GPU 实例，通过 vRDMA 网络，支持大规模并行计算和 P / D 分离推理架构，显著提升训练和推理效率，降低成本。存储上，新推出的 EIC 弹性极速缓存，能够实现 GPU 直连，使大模型推理时延降低 1/50；成本降低 20%。在安全层面，火山将推出 PCC 私密云服务，构建大模型的可信应用体系。

此外，火山引擎还升级了数据飞轮 2.0，全链路 AI 开启数智生产力新时代。所有的数据分析产品，包括 cdp、BI、用户行为分析、AB 测试等，都推出了基于大模型的智能化新功能。同时，推出全模态数据湖解决方案，让企业可以统一的管理好结构化数据和非结构化数据，并结合传统 ETL 和大模型进行综合分析。

未来，火山引擎将持续提升模型能力，优化模型服务，推动 AI 在各行业的深度融合与创新应用。更强能力、更低价格、更易落地的豆包大模型将助力开启更智能、高效、便捷的 AI 未来。未来，火山引擎将持续提升模型能力，优化模型服务，推动 AI 在各行业的深度融合与创新应用。“更强模型、更低价格、更易落地”的豆包大模型将助力开启更智能、高效、便捷的 AI 未来。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。