现在世界上最受关注的技术团队是哪一支?
Sora 团队,已经来到聚光灯中心。
不仅项目负责人评论区被挤爆,成了𝕏最火“景点”。
天才成员们的履历,也正在持续引爆关注。
大家伙发现,这支团队挺年轻:两位负责人都是在去年(2023 年)刚刚博士毕业,团队里甚至还有 00 后选手……
但
Tim Brooks,DALL-E 3 作者之一,GitHub 5.7k
William (Bill) Peebles,和谢赛宁合作,搞出了 Sora 的技术基础之一 DiT(扩散 Transformer)。论文还曾入围 CVPR 2022 最佳论文候选。
……
这支团队到底什么来头,咱们今天一起仔细聊聊。
包括 Tim 和 Bill 在内,Sora 的主要负责人一共有三名(以下排名不分先后)。
Tim Brooks,也是 DALL-E 3 的作者,去年 1 月刚从加州大学伯克利分校博士毕业。
Tim 本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在 Facebook 软件工程部门实习了四个月。
2017 年,本科毕业的 Tim 先到 Google 工作了近两年,在 Pixel 手机部门中研究 AI 相机,之后到了伯克利 AI 实验室攻读博士。
在伯克利读博期间,Tim 的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。
回到校园后,Tim 与导师 Alexei Efros 教授和同组博士后 Aleksander Holynski(现在谷歌)一起研制了 AI 图片编辑工具 InstructPix2Pix,并入选 CVPR 2023 Highlight。
去年一月,Tim 顺利毕业并取得了博士学位,转而加入 OpenAI,并相继参与了 DALL-E 3 和 Sora 的工作。
值得一提的是,Tim 不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。
据 Tim 自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过 National Geographic 颁发的奖项,本人到过百老汇演出,还获得过 B-box 国际奖项……
而与 Tim 师出同门、晚毕业 4 个月的William Peebles,也是 Sora 的另一名负责人。
(Peebles 在𝕏上用昵称 Bill,在 Linkedin 上及论文署名时用大名 William,下文一律用 Bill 指代。)
Bill 本科就读于 MIT,主修计算机科学,参加了 GAN 和 text2video 的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。
毕业后正式开始读博之前,他还参加了 Adobe 的暑期实习,研究的依然是 GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是 Efros 教授学生,现在在 MIT)组有合作,并成为 CVPR 2022 最佳论文候选。
之后,学期开始,Bill 到了伯克利 Efros 教授课题组攻读博士,研究成果多次入选 SIGGRAPH、ICCV、CVPR 等学术会议。
2022 年 5 月,Bill 到 Meta 进行了为期半年的实习,和谢赛宁(Bill 开始实习时还未离开 Meta)合作发表了 DiT 模型,首次将 Transformer 与扩散模型结合到了一起。
该成果被 ICCV 2023 录用为 Oral 论文。值得一提的是,OpenAI 此次发布的 Sora,被认为正是基于 DiT 构建的。
去年 5 月,Bill 也从伯克利毕业,并入职 OpenAI。
除了这两位去年加入的研究者,Sora 团队的另一位负责人Aditya Ramesh则是 OpenAI 的“老人”。
Aditya 是 DALL-E 的创造者,主导了三代 DALL-E 的研究,三个版本的论文当中他都是共同一作。
而这样一位主导三代 DALL-E,如今又领导 Sora 团队的大神,却只有本科学历。
据 LeCun 介绍,Aditya 本科就读于纽约大学,并在他的实验室参与过一些项目。
其间,Aditya 就已经在研究生成式模型,并和 LeCun 共同发表论文。
毕业之后,Aditya 本想继续深造,但在 OpenAI 的暑期实习中被留了下来,成为了正式研究人员。
Sora 团队的本科生,还不止 Aditya Ramesh 一位。
前文提到,这支团队中有一位“00 后”Will DePue,就是 2022 年才刚从密西根大学计算机系本科毕业的。
这位小哥大四的时候创业搞了个市场咨询公司 DeepResearch,这家公司后来被 Commsor 收购。
2023 年 7 月,小哥加入 OpenAI。根据他的领英信息,他是在今年 1 月才刚刚加入 Sora 项目组的。
另外,David Schnurr 和 Joe Taylor 也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。
而正如 Aditya Ramesh 自己所说,Sora 团队的不少成员都是 DALL-E 3 的作者。
包括两位华人 Li Jing 和 Yufei Guo。
Li Jing 是 DALL-E 3 的共同一作,2014 年本科毕业于北京大学物理系,2019 年获得 MIT 物理学博士学位。在 Meta 做了 2 年多博士后之后,Li Jing 于 2022 年加入 OpenAI。
华人作者中还有 Ricky Wang,今年一月刚刚从 Meta / Instagram 跳槽到 OpenAI,另外两位 Yufei Guo、Clarence Ng 没有太多公开资料。
新跳槽来的还有 Conner Holmes,他在微软工作时以外援形式参与了 DALL・E 3 的推理优化工作,后来干脆加入 OpenAI 了。
最后,来看一眼完整作者名单:
从团队的组建情况和研究基础来看,Sora 应该是 OpenAI 近半年来的最新成果,而非网传“早已有之但憋着不发”。
不过,Sora 炸场,顶级人才又持续星聚,还是惊得众人开始重新考量 OpenAI 的技术领先性。
就在今天,作者释出的 Sora 新作,连“同一场景”下的多机位视频都整出来了。
网友们的心情 be like:
现在,是视频生成,下一个又会是什么?
参考链接:
[1]https://www.wpeebles.com/
[2]https://www.timothybrooks.com/about/
[3]http://adityaramesh.com/about.html
本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西 鱼羊
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。