自动驾驶的“数模”分离

汽车观察者联盟
2022-11-28 18:46

寒气没有传到每个人，至少寒气已经传到每个行业。自动驾驶作为汽车智能化的核心技术，一边是烧钱的探索前进，一边是生存的产品量产。无论是向左还是向右，对于自动驾驶行业来说都是挑战与机遇并存。

自动驾驶的发展并不是偶然，而是社会发展的必经历程，虽然历史不会重现，但是历史发展的规律却总是惊人的相似。从 1956 年达特茅斯提出人工智能概念以后到 21 世纪初开展探索的自动驾驶技术，时至今日无论是人工智能技术还是汽车形态都发生了翻天覆地的变化。互联网行业也好汽车行业也罢，数据、算法、算力成为驱动智能时代产业前进的新动力，不断增加的数据、不断优化的算法加上不断进化的半导体算力，应用而生的超级数据中心、算法大模型和算力暴力，似乎在一个无限的空间中，存在一个基于硅基的智能会超越基于碳基智能的预测函数。遗憾的是，这个预测函数是发散而不收敛的。

当大家解决一个问题后，必定会引发出一个新的问题，在数据、算力和算法的推动下，智能化取得了一定的成果，方便快捷的外卖派送，汽车的主动安全性能的提升、熄灯工厂的建立解放劳动力等等，每一点的进步需要付出的代价实质上也是数据处理的代价。有个比较有意思的问题，数据能否能代表真实的事物？如果不能，那么如何让机器认知物理世界？如果机器不能认识人类物理世界，那么机器的世界如何建立？

纵观人工智能的发展历程，兴起于符号逻辑推理，兴盛于统计与机器学习到如今的深度学习，究其根本人工智能研究的不外乎是物理世界的特征数据提取和虚拟世界的模型训练，也就是说并不是所有的数据都能用，并不是所有的数据都存在。掩藏在数据、算法、算力背后的是人工智技术发展的内在变化。深度学习作为人工智能现阶段的新浪潮，其技术及背后蕴藏的思维方式已成为人工智能技术从业者、项目管理者、战略规划决策者必备的基础能力和认知方式。深度学习作为第三轮人工智能兴起和繁荣的引擎，无论从 AI 技术发展还是产业应用来看都处于核心位置，而自动驾驶，尤其是感知识别部分将成为深度学习的一个应用平台，起到承上（上层应用）启下（底层芯片）的腰部连接作用。

自动驾驶的研究和自然语言处理有相似的历程，从最开始的知识规则驱动到数据驱动，本质上是人类对客观世界的认知的变化。数据驱动的研发模式即为在方法论确定的情况下，系统的性能优化依靠可用数据的量来实现，也就是系统的优劣势和数据的规模强相关。这个数据规模不仅仅是数据的本身，更重要的是数据的处理能力，尤其是在地缘政治紧张，法律监管措施的异同以及文化背景差异的情况下，数据能力既是数据处理技术硬能力也是企业软实力的体现。当前，不管是工业界的自动驾驶算法还是互联网界的推荐、搜索、语音识别算法全都聚焦在提升数据的质量与模型参数规模，本质上来讲还是深挖现有技术路径发展潜力，通过大规模预训练模型、自主生成数据、依托知识图谱常识关系、利用多源数据等方式弥补深度学习在通用泛化性、小数据、可解释性、自主学习能力等方面局限性，不断提升解决问题的水平和深度。

算法模型的优化依赖数据，数据在算法模型中凸显价值，两者之间既是相互关系又是相互独立，这就很容易出现几个问题。

第一个是数据规模问题，规模的大小只是一个相对的概念，数据量的需求是不收敛的，软件算法的开发成本转移到数据处理的成本，随着量的增加，数据的传输、存储、冷热处理成本会不断增加，表面上看半导体的工艺技术在提升，处理数据的能力在增强，软件算法的效率和成本呈现反比的趋势，但是数据的成本反而在增加；

第二个是数据的合规问题。曾经有一位互联网的大佬说“中国人更容易接受自己的面孔、声音、及购物选择被记录和数字化，更愿意用个人的信息来换取便利”。不知道这位大佬是从哪一个角度得出此结论，但是可以看出数据合规与每个人息息相关并且数据与产品之间存在强关联性。关于自动驾驶的权责问题、道德伦理问题，算法不可解释性等一系列的挑战，其实都可以看成是数据合规问题。数据合规是在法律法规与产品便利之间的平衡关系，是确保产品公平性的一种措施，所以这个过程的必定是一个动态过程，数据不止，合规不息；

第三个问题，数据漩涡问题。现在的企业家家户户都在或多或少，千方百计地采集数据。自动驾驶公司一般是双管齐下，一边实际的物理场景数据，一边进行虚拟仿真数据积累，背后最开心的莫过于云服务商和半导体商。虽然行内都在倡议数据的互联互通，实际上老死不相往来，毕竟谁都不想把资源池的蛋糕分享给别人；

第四个问题，基准数据的缺失。产业界一般都是在不停地采集物理世界的数据，用于模型的训练。自动驾驶行业不停的进行测试和仿真积累数据里程，面临共同的问题是基准数据集的缺少，这也导致新模型的效果提升会是单方面的，出现既是裁判又是球员的现象，一旦部署到产品端就会不断出现问题。在高级自动驾驶尚未普及的阶段，零星发生的事故与其说软件算法的问题，不如说是训练数据出现了问题。

针对这种情况，行业内又利用了一个新技术叫远程升级，以此来优化软件算法实现数据的商业闭环。但是，这种方式真的对消费者公平友好吗？这无形中让消费者陷入一种不确定的盲盒状态。

达尔文的生物进化论告诉我们物竞天择，适者生存。世界教育我们去适应社会，并没有教我们去改造社会。从半导体行业的发展趋势看，在 20 世纪 40 年代诞生，起初芯片公司都具有设计、制造、封装和测试，随着芯片产业的发展速度提升，芯片公司开始逐渐分化，向专而精的纵深发展，从而也形成行业的上下游产业链。目前算法模型的体积呈现指数级增长，以达摩院的 M6 大模型为例，模型参数量达到 10 万亿。单台服务器，以英伟达 V100 为例，单卡显存 32GB，算力 125Tera FLOPS，难以满足千亿级参数模型的训练需求，模型的体积增长反过来对数据的读写、存储、训练等方面存在巨大压力。自动驾驶行业，虽然产业链呈环状，未来伴随着产品的成熟度提高，大概率也会成为链状形成稳定的产业链，毕竟人类的大脑更加擅长于串行处理信息。移动和互联网的结合赋予智能汽车不一样的属性，同时也是数据和模型的集散和应用中心。因此，面向高级自动驾驶的数据和模型会出现分离的状态，企业向纵深发展成为专而精的平台。数据处理公司专业针对数据的问题，Data As Service，模型训练公司专攻模型和工具套件的开发，Model As Service，当业务发展到一定的规模，规模就是最大的技术壁垒。有人会说，小孩子才做选择，大人一般数据和模型全都要。全都要的模式在产业发展前期尚可，在产业进入成熟期后分化的趋势会成为主流，如果不调整策略准确定位会陷入顾此失彼的境地，一直处于打补丁的状态，产品的竞争无从谈起。

从互联网行业来看，数据和模型的分离趋趋势已经显现。互联网行业对于个人隐私数据的敏感性，从算法层面和数据层面不断的进化，小数据训练，联邦学习、隐私计算等等方法正在走向行业的前台。相比于互联网以个人数据为主，自动驾驶现阶段的数据以 B 端为主，比如场景、道路、地域等等，两者之间的在监管和安全方面有较大的区别。未来随着智能化的等级提升，汽车智能化和用户体验的提升一定会依赖个人数据，多数据源的融合将奠定智能社会的发展。

本文来自微信公众号：汽车观察者联盟（ID：gh_6caf2b9784b6），作者：十字甫

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。