一句话就能魔改视频主角，谷歌新「AI 导演」引网友热议

2023-02-06 18:07量子位(Alex)18评

原文标题：《一句话就能魔改视频主角，谷歌新「AI 导演」惊呆网友：这画质也太赞了》

谷歌整出了个新“AI 导演”，一句话甚至能把视频主角给换了。

你看，青青草地上，一只小熊正在跳舞。

难道现在的熊都这么有艺术细胞了嘛？？

No，No，No！草地上原有的其实是只猴子。

要从猴变熊，只用跟这个 AI 说一句：

一只小熊随着音乐节拍跳着舞，扭动他的整个身子。（A bear dancing and jumping to upbeat music, moving his whole body）

除了会“魔改”视频，这个名为Dreamix的 AI 还能把静态图片变成动画 ——也是一句话就搞定。

比如给此 AI 看一张“海龟游泳照”，再告诉它：

水下拍到一只海龟在游泳，后面有只鲨鱼正在靠近。（Underwater shot of a sea turle with a shark apporching from behind）

好家伙，一句话不仅让海龟游起来了，还凭空加了条鲨鱼。

这效果，让不少围观网友都纷纷点赞。

有人甚至断言，AIGC 将在接下的两年时间继续掀起热潮，甚至比千禧年间的发展更加疯狂。

导演视频，只用一句话

一经公开就能受到盛赞，这个 AI 究竟如何？不妨再看看其更多的“导演”作品来感受一下。

首先，在更换视频角色方面，这是原本的田野：

这是 AI 放火烧掉的田野：

这是人的手在写字：

这是 AI 生成的机器人手在写字：

同样以人写字的视频为原型，如果把提示句子换成“人的手在画圆”，还会有不同的生成效果：

而在静态图变动画方面，原图是雾蒙蒙的丛林：

而 AI 给这片林子加了一只奔跑的独角兽，而且镜头还按句子提示给拉远了。

还有这样一张河谷风景图：

AI 不仅让溪水流动起来，还给岸边加上了来洗澡水牛，给天空加上了飞翔的小鸟。

看到这里，有人可能会觉得欠点火候：动画倒是做出来了，但画质也牺牲了挺多啊。

那不妨多给 AI 看几张图。

比如一口气给 AI 看 7 张玩具火警的照片：

然后再让它根据一句话生成视频，这下画质就会清楚很多。

至于这个”AI 导演”是怎么做的，谷歌表示，关键在于“老朋友”扩散模型 （Diffusion Model）。

扩散模型，也是火出圈的 AIGC 作画神器DALL·E 2的核心。

谷歌研究人员指出，其实之前已有类似的“文字生成视频”AI 了，但若仅仅在输入视频上对视频扩散模型进行微调，会限制运动变化的程度。

而此 AI 与众不同之处在于：

团队使用了一个“混合目标”，除了对原始目标进行微调外，还会对无序帧集进行微调。

他们采用了一种深度学习中专门的注意力机制：Masked Temporal Attention，帮助模型专注于输入信息的特定部分，忽略其他无关的部分。

—— 这提高了模型处理序列数据的能力，生成视频中的动态更多样化，且效果也比较自然。

在扩散模型和 Masked Temporal Attention 的加持下，对于更换视频主角来说，输入其实已经被省略了 —— 只需进行微调，结果的保真度也相当不错。

参考链接：

[1] https://dreamix-video-editing.github.io/
[2] https://www.youtube.com/watch?v=QWUmk6GuqIQ
[3] https://www.reddit.com/r/MachineLearning/comments/10tovhn/n_r_google_announces_dreamix_a_model_that/

本文来自微信公众号：量子位（ID：QbitAI），作者：Alex

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

视频 AI 模型

这个 AI 聊天机器人一边帮助人类，一边偷偷写下毁灭人类的计划书……

科技巨头痴迷了，这次财报提及 AI 次数比上季度最多增加五倍

与 ChatGPT 竞争，消息称谷歌已向一 AI 初创公司投资近 4 亿美元

大家都在买广告

热门评论

查看更多评论