外媒抢先实测 Sora：不懂物理 / 动物变形 / 速度巨慢，但初创公司已经创死一片

新智元
2024-02-28 11:24

【新智元导读】Sora 颠覆影视业，现在来看还远。Bloomberg 记者亲自试用后发现，Sora 生成的视频还是翻车严重。而且，它的速度太太太太慢了！不过尽管如此，OpenAI 已经创死了一片初创公司。

虽然功能还未正式开放，但已经有外媒抢先上手体验了！

结果就是 ——Sora 翻车了！

最近，就在外界对 Sora 一片赞誉声之时，一些冷静的外媒，也开始发出了质疑的声音。

Bloomberg 认为：Sora 的确令人印象深刻，但它尚未准备好迎接未来的黄金时段。

原因就在于，Sora 现在对于身体部位的理解和物理学的复杂原理还无法完全掌握，并且，它处理请求的时间，实在是太长了！

用作者 Peebles 的话来说就是，Sora 的速度太慢了，你可以在等待视频生成时去吃点零食。

Sora 翻车：鹦鹉猴子傻傻分不清，还巨慢

因为 Sora 至今仍在红队测试中，还无法直接访问。只有被选中的艺术家、电影制作人和设计师才能获得访问系统的权限。

为了一睹传说中视频王炸模型的真正实力，Bloomberg 的记者给 OpenAI 的研究者发去了这样一段 prompt——

「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.」

大意是：一只绚丽多彩的鹦鹉在哥斯达黎加的繁茂丛林中翱翔，最终停落在一枝树干上，与一群猴子分享一块甘甜的水果。正值一天中最为美妙的黄金时段，阳光透过树冠，照在叶片和猴子洁白的毛发上，闪烁着金色的光芒。

Sora 生成的视频是这样的。

看上去还不错，对不对？

然而如果仔细看，就会发现不少问题。

比如，鹦鹉的翅膀在飞过猴子时会发生扭曲。

prompt 里只要求一只鹦鹉，Sora 却生成了好几只。

此外，水果本身，以及上面变换莫测的爪子，都透出一股诡异的气息……

最好笑的是，不仅其中一只鹦鹉像是「挂了」似的脖子突然一歪，而且旁边的猴子也秒变「不明生物」长出了一条鹦鹉尾巴。

对此，Sora 作者、OpenAI 科学家 Bill Peebles 是这样解释的：「的确，现在 Sora 在某个片段的不同阶段会出现一些奇怪的动作。但是，Sora 能够对这种复杂程度的场景进行建模，已经表明了它的视频生成能力有了质的飞跃。」

Sora 什么时候来？不急

具体哪一天能用上 Sora 呢，我们已知的是，至少目前还遥遥无期。

OpenAI 发言人 Natalie Summers 表示，OpenAI 没有设定发布 Sora 的时间表，因为希望能降低它和选举相关的安全风险。

毕竟，AI Deepfake 已经多次有黑名单记录，如果正值此时发布新的 AI 视频工具，会让 OpenAI 显得很可疑。

且不管安全问题，Sora 在准备好进入黄金时段之前，仍然有很长的路要走。

OpenAI 自己也在技术报告中承认，Sora 对身体部位的杂散问题和对物理学的混合理解，仍有很大的进步空间。

当然，这个问题也不是只有 Sora 才会遇到。它是 Runway、Pika 等 AI 视频所共同面临的问题。而且，对于每个视频，Sora 都需要消耗更多的算力，也需要等待更长的时间。

▲ Runway 生成的威尔史密斯吃面

这个时间，可不是像 DALL-E 3 生成单个图像那么简单。

Sora 处理每个请求的时间究竟是多长呢？

OpenAI 没有明确回复，但 Peebles 表示，它「绝对不是即时的」，因为「你可以在等待模型运行的时候，去吃点零食。」

这个过程可能非常漫长，因为 Bloomberg 记者给了 OpenAI 四个 prompt，但他们只给了两个视频，另外两个实在是没时间做了。

商标注册信息，暴露 Sora 真实能力：难怪会狙击 Gemini 1.5 Pro

就在最近，OpenAI 申请的 Sora 商标注册描述也曝光了！

其中对 Sora 能力的介绍如下 ——

生成视频和图像；
基于自然语言提示、视觉提示、文本、语音创建、生成和编辑视频和图像；
视频和图像识别、处理、分析、理解和生成；
编辑、组织、修改、传输、上传、下载和分享视频、图像和音视频材料；
创建和生成文本到视频以及文本到图像的内容。

文件曝光后，让 AI 研究者们更吃惊了！

所以，Sora 不仅可以生成视频，还对视频和图像有理解能力？

谷歌的 Gemini 1.5 Pro 可以分析 1 小时的视频，而 Sora 也具有类似能力，真的可以说是降维打击了。

大家后知后觉地明白过来：Gemini 1.5 Pro 发布后不久，OpenAI 就拿出 Sora 来狙击，看来还真是不无道理。

现在从 OpenAI 的模型推出计划来看，Sora 目前应该是处于「评估和迭代开发」阶段。

下一步将是分阶段推出阶段，包括私人测试版、测试用例和进一步的安全测试。

搓搓手，目测一年内应该能等到。

Sora 新演示来了！

与此同时，TikTok 上，OpenAI 的账户一夜爆火，几天内涨粉 18 万，收获接近 100 万赞。

而最近，Sora 的 TikTok 账号上还在不断放出新视频。

比如这个一厨房的厨师和厨具的视频，就是 Sora 根据 DALL-E 3 生成的图像生成的视频。

首先，DALL-E 3 生成了这样一幅静图。

然后，Sora 根据这幅静图，生成了下面这段视频。

在评论区，有人留言表示，想看看 Sora 创作出从来不存在的生物。

现在，Sora 也来交卷了。根据 Prompt「创造一个从未存在过的逼真动物，自然纪录片风格」，它生成的视频是这样的 ——

▲ 来源：小互

乍一看怎么像是帕鲁们来到 3 次元。（手动狗头）

OpenAI 创死所有初创公司，投资人大喜：还好我没投

最近，所有 VC 的会上都在谈 Sora。

OpenAI 的每一次技术突破，都拓展了资本圈对 AI 的想象空间。代价就是，大多创业公司的路，也被堵死了。

半个月前，Sam Altman 发布 AI 技术 Sora 制作的超逼真电影视频时，所有人都意识到，无论是科技行业还是好莱坞，都敲响了警钟。

外媒 The Information 发现，自己长期跟进的至少七家开发 AI 视频生成器的公司，已经感到了恐惧。

同时感到恐惧的，还有给他们投了超过 5.5 亿美元的投资人。

在 Sora 视频在全网引发狂潮后，一位投资人私下表示：太幸运了，最近一家热门 AI 视频初创公司的一轮融资，还好自己错过了。

而另一位资助了 AI 视频初创公司的投资人表示，让自己感到欣慰的是，如果真的发生了这种情况，或许这家初创公司强大的领导者，会使其成为一个很好的收购目标。

Sora 的视频亮点，就在于它在模拟现实世界的物理原理，尽管并不完美。

但是 AI 视频如此神速的进步速度令人震惊，也让人不得不相信：它很快就能制作出成熟的电影了。

风险资本家马特・图尔克在 X 上的一篇帖子中半开玩笑地说，或许到 2025 年，我们就可以让 Sora 拍一集今晚就要播出的《毒枭》，要求布拉德・皮特、野兽先生和特拉维斯・凯尔斯主演。

全世界看向 Runway

Altman 扔出 Sora 这个王炸后，所有目光都集中在了 Runway 上。

此前，在 AI 视频领域，Runway 可以算得上是领头羊之一。

它的产品中添加了 AI 功能，甚至包括从头开始创建视频拆条的能力。

Runway 的 AI 视频生成器，使用了 Runway 自己开发的潜在扩散模型，因此市场认为这家小型初创公司有可能会迎头赶上，也不无道理。

当然，现阶段的 Runway 视频，还无法和 Sora 对打。

因为分辨率太低，它们会不由得让人产生恐怖谷效应。

另一处鲜明的对比是，Runway 用户一次最多只能生成 16 秒的视频，而 Sora 却能做出一分钟的长视频。

Runway CEO Cristóbal Valenzuela 表示：视频模型代表了创意产业未来的一些最重要的技术，所以思考这个问题的人越多越好…… 还有很长的路要走。

其他竞争对手的发展，也不容小觑，比如 Meta、Stable Diffusion、Pika 等，最近都推出了类似的 AI 视频产品。

以 AI 生成图像闻名的 AI 初创公司 Midjourney，现在也在准备自己的视频产品。

大家共同的问题：如何盈利？

AI 视频，会成为摇钱树吗？一个大问题是，AI 视频是否会像 AI 生图一样发展呢？

或许它会是一项令人印象深刻的壮举，但不一定是摇钱树。只有 Midjourney 是例外，它获得了超过 2 亿美元的收入。

但其他的 AI 图像生成器，甚至包括 OpenAI 的 DALL-E 3，其实并没有赚多少钱。

Meta 虽然拥有蓬勃发展的广告业务，但并没有试图这样做。

Sora 的其他竞争对手，Pika、Stable Diffusion 等等，也都没有这样做。

行业巨震，初创公司何去何从

对于 AI 视频初创公司来说，好消息是，OpenAI 不太可能让人免费使用 Sora。部分原因是，运营这项技术的成本很高。

这也就意味着，其他公司可以对自己的产品收费。现在，它们还有机会！因为 Sora 在几个月内，可能都不会开放使用。还有一个未解之谜，Sora 的训练数据究竟是来自哪里的呢？

有一些行业观察人士（如 Meta 的 AI 领导者之一 Soumith Chintala）推测，其中就有游戏引擎生成的合成数据。

游戏引擎可以渲染视觉效果，以前这个功能主要用于开发视频游戏。

现在，如果 OpenAI 能使用合成数据的话，这可能就意味着 YouTube、好莱坞电影库之类的专有数据集，对于开发 AI 视频模型的重要性不如大多数研究者此前认为的那么重要。

这也就意味着：如果 AI 开发者能生成良好的合成数据，也就可以赚钱了。往远了看，如今 AI 已经把人类的文本都学完了，下一步就是视频。如果视频素材也学完了，该怎么办？

有人说，那时就可以给大模型装上摄像头，因为人类世界每天需要学习的东西可太多了。

Sam Altman 张口要 7 万亿美元，或许是 OpenAI 真的研究出了了不得的东西，比如即将成形的 AGI。算力、数据，手握这些资源的，就会得到第一个 AGI。

参考资料：

https://the-decoder.com/openais-sora-is-slow-enough-to-grab-a-snack-while-it-generates-your-video/

https://www.bloomberg.com/news/newsletters/2024-02-22/openai-s-sora-video-generator-is-impressive-but-not-ready-for-prime-time

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。