字节跳动发布豆包视频生成模型，这效果让我分不清 AI 与现实

2024-09-29 13:24IT之家 - 汐元

9 月 24 日，火山引擎 AI 创新巡展在深圳举办，带来了豆包大模型的最新进展。豆包大模型家族迎来了新成员。

具体来说，火山引擎全新推出了豆包・视频生成模型，以及豆包音乐模型、同声传译模型，同时还升级了通用语言模型、文生图模型、语音模型，不断增强各类模态以及规模化的调用量，让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显。此外，多家行业客户也在会上分享了大模型应用的实践经验。

本次豆包带来的一系列大模型进展中，最引人关注的，莫过于全新豆包视频生成模型，它能够带来影视级视觉感受的视频生成效果，全面推动豆包大模型 AIGC 应用创新的步伐。

在豆包视频生成模型正式推出之前，可能不少同学已经使用过市面上一些 AI 生成视频的产品。小编此前也做过体验，总体来说这些大模型生成的视频往往有比较明显的“AI 痕迹”，无论是视频的内容逻辑、画面自然度等方面，都有待提升，而且对语义指令的理解也存在问题，经常会生成一些不符合指令要求的视频。

而这些问题在豆包视频生成模型中，都得到了针对性的解决，同时也成为其不可忽视的产品亮点。

首先，豆包视频生成模型拥有精准的语义理解能力，支持多动作多主体交互的内容生成。相比大部分视频生成模型只能完成简单指令单一动作，豆包视频生成模型可以遵从更复杂的 prompt，解锁时序性多拍动作指令与多个主体间的交互能力，指哪儿打哪儿，为你打开想象力的大门。

比如下面这则视频，两位主角的动作、表情都非常自然，包括马儿看起来也很真实。

还有下面这段视频，首先女主的表情十分细腻自然，当男主入画时，女主缓缓戴上墨镜，和男主的动作交互也非常真实，看起来似乎是有些抗拒，将复杂细腻的微动作都呈现了出来，从而让视频呈现出强烈的“故事感”。

其次，豆包视频生成模型支持强大动态与炫酷运镜，让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、多样化表达的文本指令，豆包视频生成模型基于高效的 DiT 融合计算单元，更充分地压缩编码视频与文本，使生成视频的动作更灵动，镜头更多样，表情更丰富，细节更丰满。

并且生成的视频可同时存在主体的大动态与镜头的炫酷切换。支持变焦、环绕、平摇、缩放，目标跟随等超多镜头语言，灵活控制视角。

例如下面这则视频，画面中两位主角前后景的变焦切换非常自然，感觉就像是真实的摄影师在水中拍摄的画面，而不像以往 AI 生成视频那样呆板生硬。

在内容逻辑方面，豆包视频生成模型还支持一致性多镜头生成，能够 10 秒讲一个完整的故事。它采用全新设计的扩散模型训练方法，成功攻克了多镜头切换时难以保持一致性的困扰，在一个 prompt 的多个镜头切换时，保持主体、风格、氛围和逻辑的一致性，实现导演自由。

例如下面这则动画视频，三个镜头组成了一个简短易懂的场景故事，看起来就像是一个正常的动画电影中截取的片段。

再比如下面这则视频，讲述一个乘坐火箭的人冲撞大楼引发爆炸的场景故事，三段镜头的剪辑呈现出流畅的故事逻辑，还给了主人公紧张的表情特写，调动观众的情绪，让人感叹 AI 这是觉醒了“创作意识”？

此外，豆包视频生成模型还能保证视频高保真和高美感，可生成影视级画面，细节层次丰富，逼真度极高，拥有专业级色彩调和和光影布局，大幅提升画面视觉审美。

比如下面这一则，整个画面的打光、色调、场景、角色的表情都非常精致、细腻，很有电影大片的质感，不说的话谁能想到这是 AI 生成的视频？

同时其深度优化的 Transformer 结构，大幅提升了视频生成的泛化能力，支持包括黑白、3D 动画、2D 动画、国画、厚涂等多种风格，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，带你领略更自由的世界。

可以看到，豆包视频生成模型的表现确实是相当惊艳的，无论是语义理解能力、多个主体运动的复杂交互画面，还是多镜头切换的内容一致性等方面，都可以做到接近专业人类视频工作者的水平，如果不说是 AI 生成的，可能大家都很难发现。

而能做到这一点，对于字节跳动以及火山引擎来说，其实完全在意料之中。

首先在“视频”能力方面，本就是字节跳动的优势赛道。火山引擎不仅是抖音计算服务的提供方，更是国内众多视频、直播等业务背后的可靠支撑，在长年应对视频业务流量、时延、稳定性等各种严苛的挑战中，沉淀下来独树一帜的技术能力。

而在 AI 方面，即大模型的能力，有火山引擎的支撑，字节跳动豆包大模型无论在算力、算法以及数据、场景等方面都有非常充沛的资源。具体到本次豆包视频生成模型上，我们也能看到字节跳动在视频大模型技术研发的不断投入和创新。比如他们采用了高效的 DiT 融合计算单元，还全新设计了扩散模型的训练方法，来实现一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构，大幅提升了视频生成的泛化能力。

豆包大模型自去年 5 月正式发布以来，就展现出很强的市场竞争力。这次在深圳的火山引擎 AI 创新巡展，火山引擎总裁谭待也透露了豆包大模型最新的使用情况：

“截至到 9 月，豆包大模型的日均 tokens 使用量已经超过 1.3 万亿，4 个月的时间里 tokens 整体增长超过了 10 倍。在多模态方面，豆包・文生图模型日均生成图片 5,000 万张，此外，豆包目前日均处理语音 85 万小时。”

火山引擎总裁谭待

如此巨大的使用量，显然代表着市场对于豆包大模型使用体验和效果的认可。同时也得益于字节大模型一贯的发展路径和逻辑：先 toC 打磨产品，模型能力具备竞争优势后再 toB 拓展市场。

比如豆包语言大模型其实早在去年就在字节跳动内部完成了上线，也是首批通过大模型服务安全备案的大模型之一。字节跳动内部 50 多个业务已经大量使用豆包大模型进行 AI 创新，包括抖音、头条等数亿 DAU 产品。经过近一年的打磨后才在今年 5 月正式发布。

而这次豆包视频生成模型也是如此，其早期版本在今年 2 月就在即梦（Dreamina）上应用，持续迭代优化后才在这次正式推向企业市场。

而未来，豆包视频生成模型也可以为众多企业场景带来创新，例如在电商营销场景，豆包视频生成模型不仅快速把商品变成 3D 动态多角度展示，还能配合中秋、七夕、春节等节点替换背景和风格，生成不同尺寸快速上架；在动画教育场景，豆包・视频生成模型可以大幅降低动画的制作成本，生动的呈现童话故事情节。

此外，还有城市文旅、音乐 MV、微电影、短剧等应用场景，都可以通过豆包・视频生成模型实现降本提效和创意合规。

总之，豆包视频生成模型的推出，将为创作者乃至各行各业的工作者带来探索未来世界的有力工具，为所有人提供有趣、快乐和自由的创作体验，用更广阔的创作空间和灵感启发，帮大家打开连接现实和想象世界的大门。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。