OpenAI 的 Sora 会砸掉谁的饭碗？

2024-02-18 09:05新浪科技 - 郑峻

出品 / 新浪科技（ID:techsina）

作者 / 郑峻

不约而同，同日出招。两个 AI 巨头在同一天各自放出了自己的 AI 新核武器，OpenAI 的文生视频模型 Sora 又一次赢得了满堂彩。Sora 的惊艳亮相，不仅碾压了诸多 AGI 视频同行，更有可能改变电影电视广告游戏行业的未来游戏规则。

谷歌新模式性能完胜

周四，谷歌突然发布了新一代多模态大模型 Gemini 1.5 Pro，在与 OpenAI 的大模型之战中加速超越。这是业界迄今最强的大语言模型，最高可支持 10,000K Token 上下文，直接将性能提升到了百万级别，在性能上完全秒杀了 OpenAI 的 GPT-4 Turbo。

百万级别 Token 意味着什么？谷歌 AI 项目负责人杰夫・迪恩 (Jeff Dean) 解释说，在 Gemini 1.5 Pro 百万级别上下文窗口支持能力下，用户可以完成复杂的内容交互，轻松解析整本图书、电影、播客，理解非常长的文档，甚至是数百个文件数十万行的代码库。

Gemini 1.5 Pro 的发布，意味着谷歌在和 OpenAI 的军备竞赛中占据了强大的性能优势。相比之下，OpenAI 的 GPT-4 Turbo 只能处理 128k Token，而且近期更是出现了性能下滑的不利状况，直到上个月发布更新之后才有所改善。

然而，OpenAI 并没有让谷歌独美。就在同一天，他们发布了文本生成视频的 AI 模型 Sora，只需文本就能自动生成视频；继文本模型 ChatGPT 和图片模型 Dall-E 之后，OpenAI 又开始颠覆视频领域。

相比谷歌 Gemini 1.5 Pro 基于数据性能的硬实力优势，Sora 基于视觉美学的惊艳表现，显然更容易让人印象深刻，迅速成为了社交网站上的热点。

以假乱真细节惊艳

Sora 到底惊艳在哪里？OpenAI 展示了多段 Sora 制作的视频内容，光是这些片段，就已经足够让人大跌眼镜。OpenAI 在官方博客中写道，Sora 不仅可以理解用户的需求，还知道这些事物在现实世界如何存在。

只需要输入一段文本，Sora 就能自动生成最长一分钟的高清视频。令人难以置信的是，Sora 不仅可以准确把握用户文本中的复杂意思，并且还能分拆出不同的元素，将其转换为有具体创意构思的视频内容，看起来就像是专业导演、摄像和剪辑的作品。

一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上，抹了鲜艳唇彩的唇角微微翘起，即便戴着墨镜也能看到她的微笑，地面的积水映出了她的身影和灯红酒绿的霓虹灯；热闹非凡的唐人街正在进行舞龙表演，熙熙攘攘的人群目光都聚焦在跃动的彩龙身上，整个环境的喜庆氛围仿佛令人身临其境。

与此前的 AI 视频存在明显塑料感不同，此次 Sora 制作的视频在逼真度和艺术感方面有着显著差别：微微卷曲的人物头发，女人脸上的黑痣粉刺，地面积水倒映的霓虹光影，街头商贩摆卖的诸多食品，天空飘落的樱花细雪，细节的精细度几乎已经做到了以假乱真。

更令人惊讶的是，Sora 视频在构图、色彩、创意和运镜方面，都呈现出明显的电影风格，无论是一镜到底还是多机位都可以无缝切换，甚至还有“演员”的表情神态，这是此前的文生视频产品所不具备的。OpenAI 一出手就将整个 AI 视频行业提升了一个级别。

虽然 Sora 制作的视频还没有到完美的地步，仔细看还能看出“穿帮”之处，人物吃过的饼干甚至会完好无损，但在影像画质上已经较此前的 AI 视频有了质的飞跃，甚至有了电影的质感。而且，仅仅根据一段抽象的文字就能制作类电影的多镜头视频，这种语义理解和镜头运用能力更是接近了人类导演、摄像与剪辑的水平。显然，视频领域的 ChatGPT 时刻已经到来。

AI 进化速度令人震惊

Sora 发布之后，网络一片惊叹，几乎抢尽了 Gemini 的风头。AI 的进化速度实在令人震惊。要知道，此时距离 OpenAI 推出 ChatGPT，开启生成式 AI 时代，仅仅过去了 14 个月时间。直到去年，我们才刚刚熟悉文本生成图片的产品，而仅仅半年前，MidJourney 创作的 AI 图片里还会出现六指人物。而现在，Sora 的视频就已经让所有人开始感受到现实和虚拟的界限模糊。

虽然 OpenAI 的 GPT-4 Turbo 此前出现了性能下滑和速度变慢的状况，令人担心生成式 AI 的增长遭遇了瓶颈；但 Sora 的发布无疑打消了所有人的担忧。云计算公司 Box 创始人兼 CEO 列维 (Aaron Levie) 在 Sora 发布之后感慨说，“如果有人还担心 AI 进化速度会变慢的话，我们又一次看到了完全相反的典范。”

目前 Sora 只面向邀请的制作者和安全专家开放测试，发现和解决可能的安全问题，还没有宣布正式的公测时间表。毕竟在虚假信息充斥的互联网，DeepFake 的道德问题也已经成为了关注焦点，像 Sora 这样以假乱真的视频一旦被滥用，可能会引发灾难性后果。

在发布 Sora 的几乎同一时间，OpenAI 还完成了一项要约售股交易，并不是融资用于公司用途，而是允许员工向以 Thrive Capital 牵头的风投机构出售现有股份套现。值得一提的是，作为 OpenAI 董事会成员，奥特曼自己并不持有公司股票，估值飙升并不能给他带来巨额财富。

此次交易对 OpenAI 的整体估值达到了 800 亿美元，较之去年年初的 300 亿美元飙升了两倍多。按照投融资市场调研公司 CB Insights 统计，OpenAI 已经成为全球估值最高的创业公司之一，仅次于字节跳动和 SpaceX。

实际上，此次交易本应在去年 11 月完成，只是因为奥特曼与董事会的冲突风波才被迫搁置。随着奥特曼重新回到 OpenAI CEO 职位，投资者再次给这家 AI 巨头投出了信任票。显然，在 Sora 正式发布之后，OpenAI 的估值还会进一步飙升。

巨头出手碾压 AGI 同行

那么，令人惊艳的文本生视频 Sora 究竟会带来哪些冲击？

AGI 视频同行无疑是遭受最直接冲击的。Sora 发布之后，AI 视频创业公司 Runway CEO 瓦伦祖拉 (Cristóbal Valenzuela) 在 X 平台 (此前的推特) 上简单发布了两个字，“Game On.”(竞争开始了)。几个月前，Runway 刚刚发布了 Gen-2 视频模型。而另一家 AI 视频公司 Stability 的 CEO 莫斯塔克 (Emad Mostaque) 则直接感慨，“奥特曼真是个魔术师。”

Runway 创办已有五年时间，在 AI 视频领域占据着先发优势，已经得到了好莱坞主流片场的使用。去年拿到七项奥斯卡大奖的年度影片《瞬息全宇宙》就使用了 Runway 来制作 AI 视频。在《瞬息全宇宙》大获成功之后，Runway 新一轮融资估值也水涨船高，达到了 15 亿美元，是一年之前估值的三倍。

文生视频领域是目前最热的创业领域。过去几个月时间，随着生成式 AI 热潮涌动，也涌现出了不少文本生视频和图片生视频的创业公司。A16z 的 AI 投资合伙人摩尔 (Justin Moore) 列出了他所跟踪的 20 多家文生视频创业团队，其中不乏 Pika、Zeroscope 这样一度引发网络惊叹的创业新贵。

去年年底，斯坦福华人毕业生创办的 Pika 视频一度引发了中美互联网的惊叹。得益于 AI 视频的惊艳表现，这家仅有四人的创业公司，在不到半年时间就完成了超过 5500 万美元的三轮融资，估值飙升到了 2.5 亿美元。

但现在，AI 巨头 OpenAI 直接抛出了 Sora。无论是视频时长，还是画面精细度，还是细节完整性，或是多镜头拍摄，Sora 都远远超越了这些小创业公司的视频，用碾压来形容也并不为过。虽然 AI 视频领域还有着巨大的提升和增长空间，但这些小公司的未来是否有能力与 OpenAI 竞争依然是个巨大的疑问。

左右好莱坞劳资谈判

不过，Sora 影响的不仅是其他 AGI 视频创业公司的生存空间，更会改变整个好莱坞以及电影、电视、广告、游戏行业的未来游戏规则。

好莱坞使用 AI 制作图片和视频，并不是什么新鲜事，从 CG (电脑动画)、VR 到 AI，影视娱乐行业一直是高新技术的最先采用者。然而，与其他技术不同，AI 工具始终是扎在好莱坞从业人员心中的一根刺。

除了《瞬息全宇宙》使用了 Runway 的 AI 视频工具，去年 21 世纪福克斯已经与 IBM 沃森合作，用 AI 工具为关于 AI 主题的恐怖片《摩根》制作预告片；迪士尼旗下的漫威更完全用 AI 制作了《秘密入侵》的开头动画。

当时正值好莱坞演员和编剧工会大罢工期间。而生成式 AI 在影视行业的应用也是双方的争议焦点之一。就在双方谈判的过程中，演员编剧们得知迪士尼漫威新一季的《秘密入侵》已经完全使用 AI 技术打造开场场景。这一消息让双方的谈判再次搁浅。

为什么影视行业使用 AI 工具引发这么多的争议？业内人士主要是担心制片方使用现有素材进行 AI 训练，未来频繁使用 AI 工具生成内容，这不仅侵犯到了创作者已有作品的版权，没有给他们足够的回报，更会影响到创作者未来的工作机会和空间。

虽然去年编剧和演员们不惜让行业停摆和自己失业，换来了制片方们的暂时让步，对 AI 工具的使用制定更多的规范。但三年后的下一次劳资谈判，面对性能必然大升级的 AI，演员编剧们的处境可能会更加艰难。

电影电视 TikTok 化

随着文生视频模型 Sora 的惊艳亮相，或许整个好莱坞从业人员都会面临着一个巨大的疑问：按照 AI 的指数级进化速度，或许不需要再等待多久，AI 就可以生成一部完整剧情的短片甚至电影，从剧本到拍摄到表演到后期都可以完全搞定，那么好莱坞的未来会变成什么样子？

拍摄《当她醒来》恐怖电影的好莱坞导演戴夫・克拉克 (Dave Clark) 已经在使用 AI 工具制作电影。在他看来，Sora 等 AI 技术带来的并不是威胁，创作者需要去拥抱 AI 技术，打造此前无法实现或是想象的内容。“这是改变游戏规则的技术。你不应该去担心自己的工作，而应该担心是谁在使用这些工具。”

行业调查公司 CVL Economics 上个月发布的一项对 300 位好莱坞行业领袖的调查显示，担忧情绪弥漫在整个好莱坞。36% 的受访者表示生成式 AI 已经减少了他们公司的日常工作技能需求，72% 的受访公司都是生成式 AI 工具的最早采用者。

更为残酷的现实是，75% 的受访者承认，生成式 AI (工具、软件、模型) 已经促使他们业务部门削减与合并工作岗位。这些掌控着好莱坞行业秩序的人们预计，未来三年好莱坞总计会有超过 20 万人的工作岗位会遭受 AI 冲击，尤其是视觉特效、音效师、画图师等后期工作岗位。

电影《Shovel Buddies》的编剧海勒曼 (Jason Hellerman) 认为，随着 AI 工具的逐渐完善，未来制片方当然可能会通过 Sora 这样的工具生成视频，而不再需要给一个制作团队支付薪酬。AI 生成的内容也可能会创造一个全新的类型，但如果任何人都可以用 AI 制作视频和电影，成为“内容创作者”，这也不可避免会带来专业水准的降低。

他预测，未来每个人都可以生成自己视频，就像是现在每个人都在手机上拍摄和观看 TikTok 短视频。习惯了短视频的 Z 世代年轻人未来会逐渐摒弃电影和电视这样的长内容。也许在 AI 生成视频的未来，电影和电视也会变成类似 TikTok 短视频这样的形式。

本文来自微信公众号：新浪科技（ID：techsina），作者：努力码稿的小浪

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。