谷歌 10 秒视频生成模型 VideoPoet 破世界记录！LLM 终结扩散模型，效果碾压顶流 Gen-2

新智元
2023-12-20 23:32

谷歌全新视频生成模型 VideoPoet 再次引领世界！十秒超长视频生成效果碾压 Gen-2，还可进行音频生成，风格转化。AI 视频生成，或许就是 2024 年下一个最前沿（juan）的领域。

回看过去几个月，RunWay 的 Gen-2、Pika Lab 的 Pika 1.0，国内大厂等大波视频生成模型纷纷涌现，不断迭代升级。

这不，RunWay 一大早就宣布 Gen-2 支持文本转语音的功能了，可以为视频创建画外音。

当然，谷歌在视频生成上也不甘落后，先是与斯坦福李飞飞团队共同发布了 W.A.L.T，用 Transformer 生成的逼真视频引来大波关注。

今天，谷歌团队又发布了一个全新的视频生成模型 VideoPoet，而且无需特定数据便可生成视频。

论文地址：https://blog.research.google/ 2023/12 / videopoet-large-language-model-for-zero.html

最令人惊叹的是，VideoPoet 一次能够生成 10 秒超长，且连贯大动作视频，完全碾压 Gen-2 仅有小幅动作的视频生成。

另外，与领先模型不同的是，VideoPoet 并非基于扩散模型，而是多模态大模型，便可拥有 T2V、V2A 等能力，或将成为未来视频生成的主流。

网友看后纷纷「震惊」刷屏。

不如，接下来可以先看一波体验。

文字转视频

在文本到视频的转换中，生成的视频长度是可变的，并且能够根据文本内容展现出多种动作和风格。

比如，熊猫打牌：

Two pandas playing cards

南瓜爆炸：

A pumpkin exploding, slow motion

宇航员策马奔驰：

An astronaut riding a galloping horse

图像转视频

VideoPoet 还可以根据给定的提示，将输入的图像转换成动画。

左：一艘船在波涛汹涌的海面上航行，周围是雷电交加的景象，以动态油画风格呈现

中：飞过充满闪烁星星的星云

右：一位拄着手杖的旅行者站在悬崖边，凝视着风中翻腾的海雾

视频风格化

对于视频风格化，VideoPoet 先预测光流和深度信息，然后再将额外的文本输入到模型。

左：袋熊戴着墨镜，在阳光明媚的海滩上拿着沙滩球

中：泰迪熊在清澈的冰面上滑冰

右：一只金属狮子在熔炉的光芒下咆哮

从左到右：逼真，数字艺术，铅笔艺术，水墨，双重曝光，360 度全景

视频转音频

VideoPoet 还能生成音频。

如下，首先从模型中生成 2 秒钟的动画片段，然后在没有任何文本引导的情况下尝试预测音频。这样就能从一个模型中生成视频和音频。

通常情况下，VideoPoet 以纵向的方式生成视频，以便与短片视频的输出相一致。

谷歌还专门做了一部由 VideoPoet 生成的许多短片组成的简短电影。

具体文本比编排上，研究人员要求 Bard 先写一个关于一只旅行浣熊的短篇故事，并附带场景分解和提示列表。然后，为每个提示生成视频片段，并将所有生成的片段拼接在一起，制作出下面的最终视频。

视频讲故事

通过随时间变化的提示，可以创造视觉上的故事叙述。

输入：一个由水构成的行走的人

扩展：一个由水构成的行走的人。背景中有闪电，同时从这个人身上散发出紫色的烟雾

输入：两只浣熊骑着摩托车在松树环绕的山路上行驶，8k

扩展：两只浣熊骑着摩托车。流星雨从浣熊身后坠落，撞击地面并引发爆炸

LLM 秒变视频生成器

当前，Gen-2、Pika 1.0 视屏生成的表现足以惊人，但是遗憾的是，无法在连贯大幅动作的视频生成上表现惊艳。

通常，它们在产生较大动作时，视频会出现明显的伪影。

对此，谷歌研究人员提出了 VideoPoet，能够执行包括文本到视频、图像到视频、视频风格化、视频修复 / 扩展和视频到音频等多样的视频生成任务。

相比起其他模型，谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中，而不依赖针对各个任务分别训练的专用组件。

具体来说，VideoPoet 主要包含以下几个组件：

预训练的 MAGVIT V2 视频 tokenizer 和 SoundStream 音频 tokenizer，能将不同长度的图像、视频和音频剪辑转换成统一词汇表中的离散代码序列。这些代码与文本型语言模型兼容，便于与文本等其他模态进行结合。
自回归语言模型可在视频、图像、音频和文本之间进行跨模态学习，并以自回归方式预测序列中下一个视频或音频 token。
在大语言模型训练框架中引入了多种多模态生成学习目标，包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复 / 扩展、视频风格化和视频到音频等。此外，这些任务可以相互结合，实现额外的零样本功能（例如，文本到音频）。