建筑工地成无人车“噩梦”，谷歌 Waymo 栽跟头多到被约谈

智能车参考
2024-05-19 14:56

Robotaxi，防火防盗防“建筑工地”。Waymo 就栽了。

北美监管部门刚刚又开启了针对 Waymo 无人车的调查，起因是收到一系列相关事故报告。

有撞上路边停放车辆的，有撞静止障碍物的，阻塞交通的… 以及一个不寻常高频场景：建筑工地。

发生了什么

大概 3 个月内，Waymo 积累上报了 22 起事故，引起了美国国家公路交通安全管理局的注意。

根据 NHTSA 的文件显示，这些事故包括 Waymo 无人车和静止和半静止物体（比如门）相撞、与停放车辆相撞以及违反交通安全控制装置的情况。

其中“违反交通安全控制装置”官方特别说明是一个重点调查方向，一个典型场景就是自动驾驶系统对交通锥 / 雪糕筒的检测识别能力。

这个点比较罕见。因为这次上报的 22 起事故中，很多都涉及同一种场景 —— 建筑工地。

比如上个月，6 辆编队行驶的 Waymo Robotaxi，下班收工回停车场，结果遇到了施工现场临时交通管制，直接卡死在雪糕筒围成的临时通行区，造成了大约半个小时交通拥堵。

有本地生活经验的网友立刻就认出来，这是旧金山 Potrero 大道 101 号匝道，Waymo 无人车卡死的地方，刚好是高速入口。

最后，是路上的司机老哥直接下车手动挪开雪糕筒，后面的车队依次绕过几辆“瘫痪”的无人车。

Waymo 方面出了一个简单声明，大意是 30 分钟内就派人去现场挪车了，没有造成任何伤亡和财产损失，后续会配合调查。

不过在凤凰城的建筑工地，就没这么幸运了。

同样一辆 Waymo 无人车，无视了雪糕筒围出的施工区域，直接冲进了建筑工地。

幸好速度不快没撞到人，不过车辆本身、工地现场都有不同程度损失。

类似这样的事故很多，每次无人车“冲进工地”的小视频，都会在网络上疯传。

网友总结的很生动：交通锥就是 Robotaxi 的氪石（kryptonite），现在再神通广大的自动驾驶，遇到封闭道路的交通锥，都得完蛋。

咦？好像跟 Waymo 官方秀出的视频不太一样呀。

为什么建筑工地难？

Waymo 第五代自动驾驶系统绕行施工区，曾被当做技术亮点专门解析过。

官方的 Demo 中，无人车面对的场景更加复杂，除了交通锥、不规则区域，还有来回走动的工人。

Waymo 无人车当然是毫不费力完成了一系列避让、绕行动作，顺利通过了施工区域：

这里面让人啧啧称奇的是，Waymo 无人车似乎能够看懂人类指挥交通的肢体语言，让停就停，让走就走，而不仅仅以路面条件作为依据。

怎么做到的？Waymo 负责预测算法的工程师 Maya Kabkab 简要解释了一下，大意是第五代技术中，Waymo 加强了对不同物体目标的理解能力，以及对可通行区域的识别能力，这两项使得系统能更好规划通行路线。

核心是用全新模型 VectorNet 替代 CNN，提取传感器和高精地图信息。

简单的说，是将高精地图和传感器输入信息表示为点、多边形或曲线，VectorNet 则将所有道路特征和其他对象的轨迹表示为相应的向量。基于这个简化的视图，VectorNet 可以提取每个向量的信息以及学习不同向量之间的关系。

好处是 VectorNet 比 CNN 占用计算资源更少，出结果的速度更快，理论上也能更加清晰的提取出关键场景信息。

但 VectorNet 仍然没有解决“建筑工地”难题的核心 ——

“建筑工地”本身是高精地图的例外，不可能同步更新，只能靠传感器实时感知。
但传感器的数据在不同子模型之间依次传递，信息损失难以完全避免。

Robotaxi 频繁出现被建筑工地卡死，直接原因是对交通锥、异形物的错检漏检。

而深层原因，是传统自动驾驶技术范式存在能力的上限、天花板，难以覆盖路上所有的 corner case。

所以能不能顺利避让建筑工地，成了一种概率事件：官方 Demo 精雕细琢反复测试，那没问题；单上路实测，就只能看天吃饭了。

端到端能解吗？

“遇事不决量子力学”，是一句调侃。

但在自动驾驶领域，遇事不决，的确都可以“端到端”一下。

所谓“端到端”是针对传统技术范式而言的，其中自动驾驶的感知、决策、规控等等互相独立。传感器采集到的数据，需要通过这一系列不同的算法模块，最终才能“变成”操作指令。

每个独立模块之间的信息是逐级传递的，在这个过程中必然会存在信息的丢失和误差，而且前一个模块的误差会影响到下一个，多个模块之间的信息误差会不断累积，进而影响到自动驾驶方案的整体效果。

无论是纯视觉感知，还是融合感知，“错检漏检”的根源就在这里。

当然也有对应的解决办法，那就是通过人手写的规则，尽量打补丁提高感知识别的可靠性。比如能识别车、人，但识别不了“人站在车前”，那好办，直接将这类目标单独建一个数据集拿来训练模型不就行了？

这就是所谓感知“白名单”机制。

但问题是，很难穷举所有种类的交通目标和场景，这次解决了“人在车前”的问题，但如果车从乘用车变成大卡车呢？或者一个人变成大人牵小孩呢？

对于 Robotaxi 的建筑工地难题来说也是一样，工地可能临时出现，随机刷新，不会限定区域限定时间，而每家工地的搭建、施工路障都不一样…

所以从感知开始就实现信息的无损传递，让系统真正理解环境，需要有一个全新的算法范式 —— 端到端算法模型。

两个端分别指数据输入端和指令输出端，中间不再分成几个相互独立的模块。

端到端模型能够通过完全数据驱动的模式，将其学到的能力和技巧迁移泛化到其他场景当中，自主且高效解决行泊场景中新出现的各类长尾问题，具备更快的迭代效率，有效降低开城成本。

通俗的说，就是让 AI 司学习人类成熟驾驶行为，看到一种场景，做出相应对策。实际上“端到端”已经摸到了 AGI 的门槛。

2016 年端到端模型由英伟达首次提出。但真正得到量产实践这两年才开始。目前只有特斯拉的 FSD 和中国 AI 玩家的 CVPR 2023 最佳论文 ——UniAD。

智能车参考也分别就 Waymo 遇到的工地难题询问了这两家国内自动驾驶头部玩家的看法。

地平线从工程实践角度出发，认为：

自动驾驶的工地难题和端到端技术范式并不是绑定的。理论上讲，感知能力足够强、感知白名单足够丰富也是能解决问题的。
但显然，端到端的自主学习能力、类人思考会更大规模更高效率的解决这个问题。

而商汤的看法更加从“第一性原理”出发，绝影智驾相关技术专家相关认为：

不对具体的 case 进行评价。但基于规则的传统智驾方案的感知还是人为定义要素，并对感知信息进行抽象提取，这就会导致信息传递过程的损失和遗漏，让感知决策模块难以作出正确的决策。而端到端是在一个神经网络中，将外部环境的信息无损输入和传递，更准确和完整地理解外部交通环境，并作出规划和决策。
规则方案可以通过增加规则、添加补丁解决一个场景。但是这样的场景不会只有一个，是无限的。而足够多的数据进行学习训练之后，端到端方案可以像人一样思考、开车，自己解决更多类似的 corner case。

总结一下，地平线和商汤表述不同，但核心一样，都认可端到端是解决 Robotaxi 工地难题最有效的方法。同时还是解决自动驾驶各类长尾问题的最高效途径。

对了多说一句，提出 UniAD 的 CVPR 2023 最佳论文，地平线和商汤的学者都参与了撰写。

端到端对传统技术范式革新，给了所有玩家新的机遇：更好的智驾体验、更低的维护、泛化成本，以及更有竞争力的自动驾驶方案成本。

但代价是以往模块化的、规则驱动主导的技术体系，必须推倒重构。

昔日自动驾驶绝对领军者 Waymo，如今陷入“建筑工地”困境中，更加证明自动驾驶这条赛道“水无常形，兵无常势”：

老牌明星可能会优势归零重置，“后来者”也会获得领先优势。

本文来自微信公众号：智能车参考（ID：AI4Auto），作者：有车有据

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。