1.2 万人朝圣 CVPR,华人学者夺最佳论文!Sora 舵手火爆演讲成大型追星现场

一年一度 CVPR 最佳论文放榜了!刚刚结束开幕演讲上,公布了 2 篇最佳论文、2 篇最佳学生论文、荣誉提名等奖项。值得一提的是,今年北大上交摘得最佳论文提名桂冠,上科大夺得最佳学生论文。

2024 年 CVPR 会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为 CVPR 历史上规模最大、参与人数最多的一届,截至 6 月 19 日,现场参会人数已超过 1.2 万人。

此外,近年来的论文接收数量也水涨船高,共有 11532 篇提交论文,录用率为 23.58%,比去年的 9155 篇论文多出了 2000 多篇。

由于开年 Sora 模型带起的视频生成的热潮,今年 CVPR 接收论文数量最多的领域就是「图像视频的合成与生成」,紧随其后的两个领域分别是「多视角和传感器的 3D」以及「人体:面部、躯体、姿势、手势和移动」。

从会议现场的照片中,也能肉眼感受到 CVPR 的热烈程度。

揭秘 Sora 训练技巧

Sora 研究团队的负责人 Tim Brooks 也在研讨会上发表了演讲,揭秘了 Sora 模型的一些训练技巧以及视频生成模型未来的新功能。

演讲中,Brooks 表示自己看好 Transformer 架构的可扩展性,如果算力足够,我们有望借此实现世界模拟器。

此外他也分享了一些训练模型的心得,比如不要为了某个特定任务去调整模型架构,而是先考虑让数据适应任务。

比如,Sora 在训练时的技巧就多与数据有关,包括使用不同比例的图像和视频,以及搭配字幕训练。

有推特网友表示,Brooks 的演讲堪比追星现场,都差点挤不进去。

当然,最重磅的还是 CVPR 在今天凌晨的大会开幕演讲上。正式官宣了 2024 年最佳论文、最佳学生论文等大奖的得主。

该奖项每年都会表彰在计算机视觉、人工智能(AI)、机器学习(ML)、增强现实、虚拟现实和混合现实(AR / VR / MR)、深度学习等领域的顶尖研究。

今年,CVPR 从超过 11,500 篇论文提交中,选出了以下 10 篇最佳论文 —— 是 2023 年的两倍之多。

最佳论文

题目:Generative Image Dynamics

作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

机构:谷歌研究院

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在这项工作中,作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画,并显著优于现有的基准方法。此外,他们还展示了在多个后续应用中的潜力,例如创建无缝循环或交互式图像动态效果。

题目:Rich Human Feedback for Text-to-Image Generation

作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan,  Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

机构:,加利福尼亚大学圣地亚哥分校,谷歌研究院,南加利福尼亚大学,剑桥大学,布兰迪斯大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在这项工作中,作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说,他们设计并训练了一个多模态 Transformer 来预测这些详尽的人类反馈,并展示了一些改进图像生成的实例。

这篇论文的共同一作分别是华南农业大学校友 Youwei Liang、清华校友 Junfeng He、武大及港中文校友 Gang Li。

荣誉提名

题目:EventPS: Real-Time Photometric Stereo Using an Event Camera

作者:Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

机构:北京大学,上海交通大学,东京大学,国立情报学研究所

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

题目:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者:David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

机构:麻省理工学院,西门菲莎大学,多伦多大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳学生论文

题目:Mip-Splatting: Alias-free 3D Gaussian Splatting

作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

机构:图宾根大学,图宾根 AI 中心,上海科技大学,捷克理工大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在这项工作中,作者提出了一种通过 3D 平滑滤波器和 2D Mip 滤波器改进 3D 高斯泼溅(3DGS)的全新方法 Mip-Splatting,用于在任何尺度上进行无锯齿渲染。该方法在分布外测试场景中显著优于当前最先进的方法,当测试采样率与训练采样率不同的时候,能够更好地适应分布外的相机姿态和缩放因子。

值得一提的是,论文的三位一作 Zehao Yu、Anpei Chen(陈安沛)、Binbin Huang,都是上海科技大学在读或毕业生。

题目:BioCLIP: A Vision Foundation Model for the Tree of Life

作者:Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf,  Wei-Lun Chao, and Yu Su

机构:俄亥俄州立大学,微软研究院,加利福尼亚大学尔湾分校,伦斯勒理工学院

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在这项工作中,作者提出了 TREEOFLIFE-10M 和 BIOCLIP,分别是一个大规模多样化的生物图像数据集和一个用于生命之树的基础模型。研究表明,BIOCLIP 是一个强大的细粒度生物分类器,在零样本和少样本设置中有着出色的表现。

荣誉提名

题目:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者:Paul Roetzer, Florian Bernard

机构:波恩大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

题目:Image Processing GNN: Breaking Rigidity in Super-Resolution

作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

机构:北京大学,华为诺亚方舟实验室

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

题目:Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者:Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

机构:卡内基梅隆大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

题目:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者:Mingqi Jiang, Saeed Khorram, Li Fuxin

机构:俄勒冈州立大学

论文地址:https://openaccess.thecvf.com/ content / CVPR2024 / papers / Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外,CVPR 的主办方电气和电子工程师学会计算机协会(IEEE Computer Society, CS),也正式宣布了模式分析和机器智能技术社区(TCPAMI)的奖项。

Longuet-Higgins 奖

该奖项授予那些经得起时间检验的论文,2024 年的 Longuet-Higgins 奖表彰了 2014 年在 CVPR 上发表的最具影响力的论文。

2024 年获奖者:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation(2014)

作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

机构:加利福尼亚大学伯克利分校,ICSI

论文地址:https://www.cv-foundation.org/ openaccess / content_cvpr_2014 / papers / Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在这项工作中,作者通过(1)标记图像中不合理或与文本不匹配的区域,以及(2)注释文本提示中被误表示或缺失的词语,来丰富反馈信号。

具体来说,他们在 1.8 万张生成图像(RichHF-18K)上收集了丰富的人类反馈,并训练了一个多模态 Transformer 来自动预测这些反馈。

实验结果展示了预测的丰富人类反馈可以用于改进图像生成,例如,通过选择高质量的训练数据来微调生成模型,或者通过创建带有预测热图的掩码来修补问题区域。

值得注意的是,这些改进不仅适用于生成反馈数据的模型(如 Stable Diffusion 变体),还可以推广到其他模型上(如 Muse)。

年轻研究员奖

该奖项表彰在获得博士学位七年内对计算机视觉领域作出杰出研究贡献的一到两名研究人员。

2024 年获奖者:Angjoo Kanazawa, Carl Vondrick

Angjoo Kanazawa 是加利福尼亚大学伯克利分校电气工程与计算机科学系的助理教授,领导 BAIR 下的 Kanazawa AI Research(KAIR)实验室,并在 Wonder Dynamics 的顾问委员会任职。

此前,她在马里兰大学帕克分校完成了计算机科学博士学位,导师是 David Jacobs。之后,来到 UC 伯克利的 BAIR 做博士后研究,导师是 Jitendra Malik、Alexei A. Efros 和 Trevor Darrell。此外,还曾在 Google Research 担任研究科学家。

众所周知,我们生活在一个动态的 3D 世界中,人和动物不断与环境互动。那么,我们该如何构建一个系统,从日常的照片和视频中捕捉、感知并理解这个 4D 世界?又该如何从图像和视频的观测中学习 4D 世界的先验知识呢?

Angjoo Kanazawa 的研究方向涵盖了计算机视觉、计算机图形学和机器学习,并致力于回答上面这些问题。

Carl Vondrick 是哥伦比亚大学计算机科学系的教授,研究方向主要集中在计算机视觉、机器学习及其应用。

此前,他于 2011 年在加利福尼亚大学尔湾分校获得学士学位,导师是 Deva Ramanan。之后,于 2017 年在 MIT 获得博士学位,导师是 Antonio Torralba。此外,还曾在谷歌的机器感知团队担任研究科学家,并在 Cruise 担任访问研究员。

具体来说,他的研究通过训练机器观察和与环境互动,旨在创建稳健且多功能的感知模型。实验室经常研究如何利用大量未标记数据进行任务和模态迁移。其他研究方向包括场景动态、声音和语言、可解释模型以及机器人感知等。

Thomas Huang 纪念奖

该奖项于 2020 年设立,以纪念 Thomas S. Huang,他是其时代计算机视觉、模式识别和人机交互领域的杰出人物。该奖项旨在表彰和致敬在计算机视觉社区中长期服务、研究和指导的杰出个人。

2024 年获奖者:Andrea Vedaldi

Andrea Vedaldi 是牛津大学工程科学系计算机视觉和机器学习专业的教授,同时担任 VGG 小组的联合负责人。

他主要研究计算机视觉和机器学习方法,目标是自动理解图像和视频的内容,并且几乎不需要人工监督,特别关注语义和 3D 几何。

此前,他在帕多瓦大学获得学士学位,并在加利福尼亚大学洛杉矶分校获得硕士和博士学位。

参考资料:

  • https://cvpr.thecvf.com/Conferences/2024/News/Awards

  • https://x.com/skalskip92/status/1803181265581121752

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享