【新智元导读】Sora 颠覆影视业,现在来看还远。Bloomberg 记者亲自试用后发现,Sora 生成的视频还是翻车严重。而且,它的速度太太太太慢了!不过尽管如此,OpenAI 已经创死了一片初创公司。
虽然功能还未正式开放,但已经有外媒抢先上手体验了!
结果就是 ——Sora 翻车了!
最近,就在外界对 Sora 一片赞誉声之时,一些冷静的外媒,也开始发出了质疑的声音。
Bloomberg 认为:Sora 的确令人印象深刻,但它尚未准备好迎接未来的黄金时段。
原因就在于,Sora 现在对于身体部位的理解和物理学的复杂原理还无法完全掌握,并且,它处理请求的时间,实在是太长了!
用作者 Peebles 的话来说就是,Sora 的速度太慢了,你可以在等待视频生成时去吃点零食。
因为 Sora 至今仍在红队测试中,还无法直接访问。只有被选中的艺术家、电影制作人和设计师才能获得访问系统的权限。
为了一睹传说中视频王炸模型的真正实力,Bloomberg 的记者给 OpenAI 的研究者发去了这样一段 prompt——
「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.」
大意是:一只绚丽多彩的鹦鹉在哥斯达黎加的繁茂丛林中翱翔,最终停落在一枝树干上,与一群猴子分享一块甘甜的水果。正值一天中最为美妙的黄金时段,阳光透过树冠,照在叶片和猴子洁白的毛发上,闪烁着金色的光芒。
Sora 生成的视频是这样的。
看上去还不错,对不对?
然而如果仔细看,就会发现不少问题。
比如,鹦鹉的翅膀在飞过猴子时会发生扭曲。
prompt 里只要求一只鹦鹉,Sora 却生成了好几只。
此外,水果本身,以及上面变换莫测的爪子,都透出一股诡异的气息……
最好笑的是,不仅其中一只鹦鹉像是「挂了」似的脖子突然一歪,而且旁边的猴子也秒变「不明生物」长出了一条鹦鹉尾巴。
对此,Sora 作者、OpenAI 科学家 Bill Peebles 是这样解释的:「的确,现在 Sora 在某个片段的不同阶段会出现一些奇怪的动作。但是,Sora 能够对这种复杂程度的场景进行建模,已经表明了它的视频生成能力有了质的飞跃。」
具体哪一天能用上 Sora 呢,我们已知的是,至少目前还遥遥无期。
OpenAI 发言人 Natalie Summers 表示,OpenAI 没有设定发布 Sora 的时间表,因为希望能降低它和选举相关的安全风险。
毕竟,AI Deepfake 已经多次有黑名单记录,如果正值此时发布新的 AI 视频工具,会让 OpenAI 显得很可疑。
且不管安全问题,Sora 在准备好进入黄金时段之前,仍然有很长的路要走。
OpenAI 自己也在技术报告中承认,Sora 对身体部位的杂散问题和对物理学的混合理解,仍有很大的进步空间。
当然,这个问题也不是只有 Sora 才会遇到。它是 Runway、Pika 等 AI 视频所共同面临的问题。而且,对于每个视频,Sora 都需要消耗更多的算力,也需要等待更长的时间。
这个时间,可不是像 DALL-E 3 生成单个图像那么简单。
Sora 处理每个请求的时间究竟是多长呢?
OpenAI 没有明确回复,但 Peebles 表示,它「绝对不是即时的」,因为「你可以在等待模型运行的时候,去吃点零食。」
这个过程可能非常漫长,因为 Bloomberg 记者给了 OpenAI 四个 prompt,但他们只给了两个视频,另外两个实在是没时间做了。
就在最近,OpenAI 申请的 Sora 商标注册描述也曝光了!
其中对 Sora 能力的介绍如下 ——
生成视频和图像;
基于自然语言提示、视觉提示、文本、语音创建、生成和编辑视频和图像;
视频和图像识别、处理、分析、理解和生成;
编辑、组织、修改、传输、上传、下载和分享视频、图像和音视频材料;
创建和生成文本到视频以及文本到图像的内容。
文件曝光后,让 AI 研究者们更吃惊了!
所以,Sora 不仅可以生成视频,还对视频和图像有理解能力?
谷歌的 Gemini 1.5 Pro 可以分析 1 小时的视频,而 Sora 也具有类似能力,真的可以说是降维打击了。
大家后知后觉地明白过来:Gemini 1.5 Pro 发布后不久,OpenAI 就拿出 Sora 来狙击,看来还真是不无道理。
现在从 OpenAI 的模型推出计划来看,Sora 目前应该是处于「评估和迭代开发」阶段。
下一步将是分阶段推出阶段,包括私人测试版、测试用例和进一步的安全测试。
搓搓手,目测一年内应该能等到。
与此同时,TikTok 上,OpenAI 的账户一夜爆火,几天内涨粉 18 万,收获接近 100 万赞。
而最近,Sora 的 TikTok 账号上还在不断放出新视频。
比如这个一厨房的厨师和厨具的视频,就是 Sora 根据 DALL-E 3 生成的图像生成的视频。
首先,DALL-E 3 生成了这样一幅静图。
然后,Sora 根据这幅静图,生成了下面这段视频。
在评论区,有人留言表示,想看看 Sora 创作出从来不存在的生物。
现在,Sora 也来交卷了。根据 Prompt「创造一个从未存在过的逼真动物,自然纪录片风格」,它生成的视频是这样的 ——
乍一看怎么像是帕鲁们来到 3 次元。(手动狗头)
最近,所有 VC 的会上都在谈 Sora。
OpenAI 的每一次技术突破,都拓展了资本圈对 AI 的想象空间。代价就是,大多创业公司的路,也被堵死了。
半个月前,Sam Altman 发布 AI 技术 Sora 制作的超逼真电影视频时,所有人都意识到,无论是科技行业还是好莱坞,都敲响了警钟。
外媒 The Information 发现,自己长期跟进的至少七家开发 AI 视频生成器的公司,已经感到了恐惧。
同时感到恐惧的,还有给他们投了超过 5.5 亿美元的投资人。
在 Sora 视频在全网引发狂潮后,一位投资人私下表示:太幸运了,最近一家热门 AI 视频初创公司的一轮融资,还好自己错过了。
而另一位资助了 AI 视频初创公司的投资人表示,让自己感到欣慰的是,如果真的发生了这种情况,或许这家初创公司强大的领导者,会使其成为一个很好的收购目标。
Sora 的视频亮点,就在于它在模拟现实世界的物理原理,尽管并不完美。
但是 AI 视频如此神速的进步速度令人震惊,也让人不得不相信:它很快就能制作出成熟的电影了。
风险资本家马特・图尔克在 X 上的一篇帖子中半开玩笑地说,或许到 2025 年,我们就可以让 Sora 拍一集今晚就要播出的《毒枭》,要求布拉德・皮特、野兽先生和特拉维斯・凯尔斯主演。
Altman 扔出 Sora 这个王炸后,所有目光都集中在了 Runway 上。
此前,在 AI 视频领域,Runway 可以算得上是领头羊之一。
它的产品中添加了 AI 功能,甚至包括从头开始创建视频拆条的能力。
Runway 的 AI 视频生成器,使用了 Runway 自己开发的潜在扩散模型,因此市场认为这家小型初创公司有可能会迎头赶上,也不无道理。
当然,现阶段的 Runway 视频,还无法和 Sora 对打。
因为分辨率太低,它们会不由得让人产生恐怖谷效应。
另一处鲜明的对比是,Runway 用户一次最多只能生成 16 秒的视频,而 Sora 却能做出一分钟的长视频。
Runway CEO Cristóbal Valenzuela 表示:视频模型代表了创意产业未来的一些最重要的技术,所以思考这个问题的人越多越好…… 还有很长的路要走。
其他竞争对手的发展,也不容小觑,比如 Meta、Stable Diffusion、Pika 等,最近都推出了类似的 AI 视频产品。
以 AI 生成图像闻名的 AI 初创公司 Midjourney,现在也在准备自己的视频产品。
AI 视频,会成为摇钱树吗?一个大问题是,AI 视频是否会像 AI 生图一样发展呢?
或许它会是一项令人印象深刻的壮举,但不一定是摇钱树。只有 Midjourney 是例外,它获得了超过 2 亿美元的收入。
但其他的 AI 图像生成器,甚至包括 OpenAI 的 DALL-E 3,其实并没有赚多少钱。
Meta 虽然拥有蓬勃发展的广告业务,但并没有试图这样做。
Sora 的其他竞争对手,Pika、Stable Diffusion 等等,也都没有这样做。
对于 AI 视频初创公司来说,好消息是,OpenAI 不太可能让人免费使用 Sora。部分原因是,运营这项技术的成本很高。
这也就意味着,其他公司可以对自己的产品收费。现在,它们还有机会!因为 Sora 在几个月内,可能都不会开放使用。还有一个未解之谜,Sora 的训练数据究竟是来自哪里的呢?
有一些行业观察人士(如 Meta 的 AI 领导者之一 Soumith Chintala)推测,其中就有游戏引擎生成的合成数据。
游戏引擎可以渲染视觉效果,以前这个功能主要用于开发视频游戏。
现在,如果 OpenAI 能使用合成数据的话,这可能就意味着 YouTube、好莱坞电影库之类的专有数据集,对于开发 AI 视频模型的重要性不如大多数研究者此前认为的那么重要。
这也就意味着:如果 AI 开发者能生成良好的合成数据,也就可以赚钱了。往远了看,如今 AI 已经把人类的文本都学完了,下一步就是视频。如果视频素材也学完了,该怎么办?
有人说,那时就可以给大模型装上摄像头,因为人类世界每天需要学习的东西可太多了。
Sam Altman 张口要 7 万亿美元,或许是 OpenAI 真的研究出了了不得的东西,比如即将成形的 AGI。算力、数据,手握这些资源的,就会得到第一个 AGI。
本文来自微信公众号:新智元 (ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。