特斯拉公开为什么干掉雷达

车东西
2021-06-25 20:53

特斯拉纯视觉自动驾驶的秘密，被自家高管全曝光了！

不久之前，特斯拉取消了 Model 3 和 Model Y 车型的毫米波雷达，在全球第一个实现了纯视觉的 L2 级自动驾驶系统，引起了自动驾驶行业以及相关机构的密切关注。

马斯克虽然简单解释过走纯视觉路线的原因 —— 避免多传感器感知结果不一致的问题，但外界对这答案并不满意，依然有不少观点在质疑特斯拉的做法。

而特斯拉的 AI 高级总监 Andrej Karpathy 刚好在日前发表了一篇干货十足的演讲，从技术的角度详细介绍了特斯拉走纯视觉路线的原因，以及背后的核心做法。

Andrej 的演讲时长为 40 分钟，但是他本人语速惊人，甚至可以说内容量至少是是 40 分钟演讲的 1.5 倍，并且给出了大量技术细节与实际案例，非常具有说服力。

他在演讲中讲到，从特斯拉开发自动驾驶之初，就没有考虑为车辆加入激光雷达和高精地图，因为这会导致建图、维护成本大幅上升。而随着 AI 能力不断提升，特斯拉直接取消了毫米波雷达。

纯视觉感知最大的问题就是无法测量距离、速度和加速度。不过纯视觉感知和人眼类似，人脑能“脑补”出距离并拥有优秀的驾驶技术，神经网络同样有这样的能力。

在过去 4 个月时间里，特斯拉人工智能团队的核心 20 名成员搞定了这件事。

特斯拉收集了 221 种共 100 万段 10 秒钟的短视频，利用对物体自动标签化，经过 7 轮影子模式循环，最终在纯视觉感知中取得了不错的效果，超越了毫米波雷达 + 摄像头的传感器融合方案。

特斯拉甚至为此建立了一台全球排名第五的超级计算机，采用 5760 个英伟达 A100 Tensor Core GPU，10PB 容量的 NVME 存储。

以下为 Andrej Karpathy 演讲核心内容的编译。

01. 毫米波雷达表现不稳特斯拉更相信视觉传感器

演讲开始时，Andrej 首先谈到了自动驾驶的必要性，并且总结了自动驾驶的三大优势。

人类驾驶一辆车，反应时间通常需要 250 毫秒；观察周围交通环境通过旋转头部看后视镜判断；同时人的精力有限，难免出现注意力不集中的现象。

▲人类驾驶 VS 机器驾驶

当机器在驾驶时，反应时间通常小于 100 毫秒，拥有 360 度的感知能力，同时机器永远不会累。

Andrej 说道：“全球每天有近 3700 人在车祸中丧生，自动驾驶技术能够显著减少车祸发生的概率。同时，由人类驾驶的出行成本太高，如果机器驾驶出行成本也将明显降低。”

因此，自动驾驶技术十分必要。

从十多年前开始，谷歌等科技公司开启了自动驾驶技术的研发。从当年的视频中可以看到，谷歌的表现并不出色，在一个左转路口处方向飘忽不定。

▲谷歌无人车多年前的自动驾驶表现

经过长时间的研发，自动驾驶技术应对各种场景的表现都能做到非常出色。同时，行业内也发展出了两条截然不同的感知技术路线。

其中一条是纯视觉感知，另一条是激光雷达、高精地图、视觉传感器的融合感知。

Andrej 说道：“很多自动驾驶车辆在车顶装上昂贵的激光雷达，就能够感知 360 度的环境，并测量距离。不过，如果要使用激光雷达，还需要高精地图的匹配。根据高精地图存储的车道线、红绿灯等信息，就能够实现自动驾驶。”

不过，特斯拉所走的路线完全不同。特斯拉希望基于环绕车身的 8 个摄像头实现自动驾驶。当车辆行驶在道路上时，需要自动驾驶电脑判断哪里是车道线、哪里是红绿灯。

也就是说，激光雷达 + 高精地图的技术路线本质上是匹配的过程，而纯视觉技术路线则是寻找的过程。

同时，Andrej 指出，纯视觉方案显然是一个更具拓展性的技术路线。当前，特斯拉在全球范围内已经交付了百万辆汽车，因此打造一套全球范围的高精地图并不现实，因此特斯拉选择了纯视觉的技术路线。

他说道：“想要实现纯视觉感知实际非常困难，需要基于视频打造非常优秀的神经网络。不过，一旦纯视觉系统真正投入使用，将是一套通用的系统，并且理论上全球任何区域都能使用。”

几年前特斯拉开始研发 Autopilot 时，就已经确定不使用高精地图和激光雷达，全车的传感器有 8 枚摄像头和 1 个毫米波雷达。从几年的成果来看，无论是实际效果还是功能丰富程度，特斯拉在量产自动驾驶行列中一直处于头部。

▲特斯拉希望仅使用视觉传感器完成自动驾驶

Andrej 说道：“特斯拉已经把其他传感器（激光雷达）‘扫进了尘埃’中。”

与此同时，特斯拉没有停止前进的脚步。今年 5 月开始，特斯拉开始生产移除毫米波雷达的 Model 3 和 Model Y 车型，让车辆的自动驾驶感知彻底转向纯视觉。

Andrej 给出的理由是：你已经不再需要毫米波雷达了。

他还引用了马斯克此前的一条推文，推文中说，如果毫米波雷达和视觉感知的结果不一致，你更倾向于相信谁？

▲马斯克推特

Andrej 表示，从人们的主观感受上，多传感器会更加精准。不过，毫米波雷达感知数据中的噪音实际上拖累了整个自动驾驶系统的判断。

特斯拉早已认识到了这一点，因此取消毫米波雷达只是时间问题。

02. 20 人搞定纯视觉感知特斯拉甚至打造了世界第五超算

谈到纯视觉感知，人们最大的疑问就是摄像头感知的 2D 画面，神经网络预测的深度、速度、加速度是否准确呢？

Andrej 认为，当人类驾驶时，人眼所看到的画面也是 2D 的，但是人脑的神经网络能够计算出距离。因此，如果机器的神经网络模拟人脑，也就能够计算出深度、速度、加速度。

并且，经过几个月的研发，特斯拉已经能够证明这条路线是可行的。

例如，在拥堵路段，前方车辆走走停停，距离、速度、加速度都会实时变化，如果能够始终追踪正前方的车辆，判断将会非常精准。但是毫米波雷达并非如此，毫米波雷达的感知具有比较大的随机性，可能感知到其他物体，并产生一个错误数据。

最终，毫米波雷达不确定的感知数据会让传感器融合变得非常困难。

决定采用纯视觉感知的特斯拉有三个需求，第一是大量的视频数据，百万段规模的视频；第二是干净的数据，包括对物体标签化，并且拥有深度、速度、加速度信息；第三是多样化的数据，大量的边缘案例。

此后，特斯拉需要在此基础上训练一个足够大的神经网络。

在数据标签化阶段，特斯拉采用数据自动标记数据的方法，当车辆感知周围环境后，用自动驾驶电脑本地处理数据。上传至服务器之后，如有不精准之处，也能用人工的方式清理、验证数据。

▲特斯拉自动数据标签化

同时，在实际使用中，特斯拉的自动标签化的方法还能够应对沙尘、雨、雾、雪等极端天气。

Andrej 介绍，在过去四个月时间里，特斯拉的研发人员总结出了 221 个收集数据的触发条件，Andrej 在演讲中展示了其中一部分，其中包括视觉、雷达传感器不匹配，视频出现抖动，监测到画面闪烁等等。

▲特斯拉总结的 221 项数据收集触发条件（部分）

同样在过去四个月时间里，特斯拉完成了广泛的数据收集，最终在特斯拉数据引擎中完成了七种影子模式和七个循环的验证。

Andrej 说道：“最开始，我们用视频数据集训练神经网络，训练之后分发到特斯拉汽车的影子模式中。在车辆端，需要不断验证神经网络的准确性。如果在行驶中出现了 221 个触发条件中的一个，系统就会自动收集视频片段，自动标签化物体之后合并至一个训练集中。我们一遍又一遍重复这个循环，让神经网络变得越来越好。”

▲特斯拉数据引擎

在完成七轮影子模式的循环验证之后，特斯拉一共处理了 100 万条 10 秒短视频，这些视频全部来自特斯拉车身拍摄的画面。同时，特斯拉为 60 亿个物体做了标签化处理，同时包含精准的深度和速度信息。这些数据一共有 1.5PB，可以说非常庞大了。

Andrej 说道：“处理这些数据的核心团队只有 20 人。”

通过一个框图能够解释为什么 20 人的团队能够处理如此多的数据。

Andrej 说道：“在框图上部，摄像头感知的画面输入，图像解压后就会进行数据融合处理。首先会在摄像头上融合信息，然后在所有时间上融合信息。利用 Transformer 架构、循环神经网络，或者直接用 3D 卷积，都能够取得很好的效果。在融合完成之后，又会形成分支，分离成为主干，再次分离形成终端。”

▲神经网络架构

为什么要不断分离形成终端呢？Andrej 解释道，研发人员可能对大量的输出结果感兴趣，但是不可能用一个神经网络单独输出每一项结果。同时，分支结构的另一个好处是它在终端解耦所有信号，所以当研发人员正在处理特定对象的速度、加速度等信息时，就能够拥有小神经网络，不用触及其他信号就能完成工作。

最终结果是，这种架构能让工作效率更高。因为研发人员一直都在微调终端结果，从骨干到终端的修改则是偶尔进行。

要处理如此多的数据，特斯拉搭建了一个世界排名第五的超级计算机。

▲特斯拉超级计算机

这个集群使用了 720 个节点，每个节点 8 个英伟达 A100 Tensor Core GPU（共 5760 个 GPU），实现了 1.8 exaflops 的性能。

▲英伟达 A100 Tensor Core GPU

这个超级计算机采用 10PB NVME 存储，读写速度能够达到 1.6TB/s。Andrej 介绍，这可能是全世界最快的数据存储设备。

未来，特斯拉会让这台超级电脑运行 Dojo 项目，特斯拉希望通过 Dojo 不断训练其神经网络，帮助特斯拉 Autopilot 不断进化。

03. 纯视觉优势凸显 270 万公里自动驾驶 0 事故

在转向纯视觉感知后的特斯拉，效果如何呢？Andrej 举出三个典型案例。

第一个案例是前方车辆快速刹车时，视觉传感器和毫米波雷达出现了截然不同的表现。

图中黄色线条代表毫米波雷达感知的距离、速度、加速度图像（从上至下），蓝色线条代表纯视觉传感器的感知结果。可以发现，毫米波雷达在其中有多次出现距离突然降低为 0、速度突然提升、加速度突然为 0 的情况。

▲前车紧急制动时，两种传感器感知效果对比

这是因为突然减速之后，毫米波雷达并不能很好追踪前方车辆，因此多次重启，就像是车辆在短时间内重复消失，又出现了 6 次，这很可能误导自动驾驶系统。

由纯视觉传感器感知的信息和毫米波雷达的信息大致重合，但是没有出现距离、速度、加速度突变的情况，表现非常稳定。

第二个案例是路上常见的立交桥。由于毫米波雷达没有垂直分辨率，所以会认为立交桥是一个静止在前方的物体。

▲车辆感知到桥梁认为是静止物体，采取制动措施

传感器感知数据融合之后，车辆认为行驶前方存在静止物体，并判断紧急刹车。这种情况在高速公路上十分危险。

第三个案例是行驶前方出现一辆停靠路边的大货车。此时，毫米波雷达无法判断前方究竟是一辆车还是一个普通的静止物体。因此，毫米波雷达将这项任务交给视觉传感器，最终在距离车辆 110 米的距离时，才感知到前方的卡车。

▲毫米波雷达感知距离不如摄像头

如果用纯视觉传感器，在 180 米的距离时感知到了前方的货车，并从 145 米处有明确的感知信息，开始减速。

显然，纯视觉传感器的表现再次胜过毫米波雷达 + 视觉传感器的融合模式。

Andrej 介绍，类似的场景特斯拉一共总结了 6000 个，可以分 70 个类别。这些场景每天都会运行，不断提升神经网络的能力。除此之外，特斯拉还用仿真测试的方式，建立了 1 万个场景，不断测试。这些测试数据相当于人类 10 年的驾驶时间。

同时，特斯拉也将纯视觉感知加入到影子模式的测试中，经过七轮影子模式的测试，已经相当于人类 1000 年的驾驶时间。

在发布之前，特斯拉已经进行了 1500 万英里（约合 2400 万公里）的驾驶里程，其中 170 万英里（约合 274 万公里）都处于自动驾驶状态，目前没有出现过任何一起事故。

Andrej 也承认，一些遗留的堆栈还存在一些问题，每隔大约 500 万英里就会出现一次崩溃问题。但他相信，这些问题会被逐渐解决。

在演讲的最后，Andrej 说道：“纯视觉能够精准感知深度、速度、加速度信息。实现纯视觉是一件困难的事情，并且需要大量的数据，不过纯视觉的方向至少是正确的。”

04. 结语：纯视觉感知并非毫无道理

2021 年将是激光雷达量产上车之年，今年不少重磅车型都将搭载激光雷达，期待实现更好的 L2 级自动驾驶。与此同时，特斯拉今年甚至取消了毫米波雷达，用纯视觉做 L2 级自动驾驶，这在业内引发不小争议，也成为行业内的热议话题。

听过特斯拉 AI 高级总监 Andrej Karpathy 的演讲之后，相信在会让人们一定程度上相信纯视觉可被执行，自动驾驶行业内的这一争议将变为结果导向。如果自动驾驶能够做得好，方向就是正确的。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

特斯拉公开为什么干掉雷达

01. 毫米波雷达表现不稳 特斯拉更相信视觉传感器

02. 20 人搞定纯视觉感知 特斯拉甚至打造了世界第五超算

03. 纯视觉优势凸显 270 万公里自动驾驶 0 事故

04. 结语：纯视觉感知并非毫无道理

01. 毫米波雷达表现不稳特斯拉更相信视觉传感器

02. 20 人搞定纯视觉感知特斯拉甚至打造了世界第五超算