自动驾驶要啥实路测试？L4 当红独角兽新模型：2D 视频输入 4D 场景输出，难怪老黄看好

智能车参考
2024-06-20 15:24

用视频生成的仿真场景，能有多逼真？

两旁的行人，前车的刹车灯…… 连这些细节，都能动态显示得清清楚楚。

两辆自行车行驶在道路中间，避让通过：

这就是如今自动驾驶“当红炸子鸡”Wayve，在 CVPR 2024 上分享的最新成果：

自动驾驶仿真模型 PRISM-1，没有激光雷达，没有 3D 标注信息，只基于摄像头输入的信息。

PRISM-1：利用视频数据重建 4D 真实场景

模拟仿真测试是自动驾驶的重要环节。

实车测试周期长，成本高，覆盖的工况和长尾问题有限，尤其是极端场景下的 Corner Case，实车测试比较危险，且调试程序后，可能不好复现验证。路还是那条路，但路况和道路参与者一直都在变。

因此，通过合成数据，仿真测试自动驾驶系统的路线，正在受到关注。

成本低，配置灵活，场景覆盖率高，对特殊的 Corner Case 能够复现后再验证，可以与实车测试形成互补。

不过自动驾驶模拟仿真也面临着诸多挑战，比如在场景重建环节，复杂的城区道路，有很多动态元素难以准确呈现，像行人和自行车，不仅形态各样，而且行为灵活难预测。

传统还原通过场景图的方式，将元素组织成层次结构，用节点表示场景中的实体，用彼此的边缘表示它们之间的关系。

这种方式不够灵活，因为当车辆模拟测试时，周边场景其实一直在动态改变，一些元素无法完美分离，会导致错误传播。

为了突破传统方式的局限，Wayve 转向更灵活、能自适应的模拟方案，在端到端的基础上，提出了 PRISM-1 模型。

主要是三个特点：

框架更灵活：能有效处理常见元素，模拟移动元素，甚至包括瞬态场景元素，比如风吹动的树叶，隧道中的波动光线。
自监督场景分离：无需标注或预定义模型，分离场景中的动态元素和静态元素。
可扩展表示：即使场景复杂度增加，PRISM-1 仍能保持高效。这最大限度地减少了工程量和错误传播。

详细过程，Wayve 没有披露，只是主要介绍了视图合成方面的创新点。

具体地说，PRISM-1 重点关注摄像头观测到的路径的偏差。

无需依赖其他传感器，只靠摄像头，获取车辆行驶时的一组稀疏图像，重建 4D 场景。

当然，用摄像头获取数据场景数据，有一个天然限制，那就是在动态场景下，只能从一个视角拍摄其中的元素。

如何在任意时刻，从不同视角重建 4D 场景？

PRISM-1 在承认车子动态特性的前提下，通过两种方式改变摄像头路径：

第一种方式，冻结时间。

测试车辆周遭一切都暂停了，场景的时间维度不变，但空间可变，摄像头左右平移，以不同角度查看周边场景。

第二种方式，冻结空间。

测试车辆自身保持静止，空间数据不变，但时间还在变化，周遭事物还能运动，观察其变化。

两种方式结合，Wayve 可以利用 PRISM-1 从各种视角重建场景，甚至复现一些细节，比如前车刹车灯亮了。

Wayve 还将在此基础上，继续迭代工作。

下一步，Wayve 打算加强模型的可扩展性和灵活性。

比如，用模型去重建一个“行人通过斑马线”的场景。

如果需要，也可以把行人移除掉。

推出 PRISM-1，提高自动驾驶模拟的真实性，加快算法迭代的同时，Wayve 还开源了一个场景数据集 WayveScenes101 Dataset，顾名思义，包含了 101 个复杂动态场景。

涵盖了英美两地，不同的驾驶环境和路况，包括多种天气和光照条件下的城区、郊区和高速公路。

当然，能被微软和英伟达同时相中押注，Wayve 的工作成果远不止这些。

自动驾驶独角兽，微软英伟达都投了

遍观全球，最近一段时间，特别是在自动驾驶领域，很少有独角兽，能盖住 Wayve 的风头了。5 月 7 日，Wayve 官宣了 10.5 亿美元 (折合人民币约为 75.8 亿元) 的新一轮融资。

软银领投，微软和英伟达跟投。数额之巨，投资者阵容之豪华，实属罕见，轰动一时。

在此前，只有 Waymo、Argo 和 Cruise 等，获得过这个级别的融资。

Wayve 一举刷新英国 AI 公司单笔融资的记录，连英国首相也在声明中表示，这「巩固了英国作为 AI 超级大国的地位」。彼时的 Wayve 都有什么技术成果，吸引巨头押注？

主要是一个架构，两个模型：

一个架构是指端到端的 AV 2.0，不依赖高精地图，Wayve 称可兼容纯视觉和激光雷达多种方案。

两个模型是指 LINGO 系列以及 GAIA-1，分别是 Wayve 在 AI 的可解释性与 AIGC 上的成果。

首先来看 LINGO 系列，去年 9 月，Wayve 推出了 LINGO-1 模型。

Wayve 将其称之为 VLAM (视觉-语言-动作模型)，与传统技术范式不同的是，视频数据之外，Wayve 还引入了老司机语音包进行训练：

Wayve 请来很多专业司机，要求他们在开测试车辆做出相应操作时，大声说话，解释自己为什么这么做。

这样，自然语言就被引入了自动驾驶，LINGO-1 实现了在开车时，解释自己的决策逻辑，这提高了模型的可解释性。

这项工作最近升级至 LINGO-2，进一步增强了人车交互，司机可以通过限定的命令，比如「靠边停车」，调整智驾的开车策略。

另外一个模型则是 GAIA-1，是一个为自动驾驶打造的多模态生成式世界模型，参数规模 90 亿。

输入视频、文本和操作，就能生成逼真的自动驾驶视频，不同路况和天气，效果都能以假乱真。

诶等等，GAIA-1 能生成自动驾驶测试的视频，PRISM-1 能用视频模拟真实场景，两个一结合，这不就闭环了吗？doge

当然没有这么简单，在去年 6 月，Wayve 推出 GAIA-1 早期版本后，就有相关研究人员指出，模型生成的视频中，会有一些元素在后续“突然消失”，还不完善。

虽然去年 10 月，Wayve 更新了 GAIA-1，扩大了参数规模，增加了训练时长，模型生成视频的细节和分辨率都有明显提升，但是否完全克服了“元素突然消失”的问题，还有待充分验证。

引领 Wayve 打造这些成果的，是两位联合创始人：

Alex Kendall (亚历克斯・肯德尔) 与 Amar Shah (已退出)。

两人都是剑桥大学机器学习专业的博士，于 2017 年创立了 Wayve。

其中肯达尔去年曾陪同比尔・盖茨试乘旗下产品，比尔・盖茨后来点赞其工作:

That was fantastic!

或许是这次试乘打动了比尔盖茨，微软连续两次出手，投资 Wayve。

Wayve 也是不负所托，最近一年频频拿出成果，给行业带来惊喜。

时值 CVPR 2024，Wayve 也举办了一系列活动，PRISM-1 研究人员就在现场。

本文来自微信公众号：智能车参考（ID：AI4Auto），作者：有据无车

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。