小鹏 P7 汽车即将上线全新一代智能 AI 语音：无限接近人类声音、带情感、会调侃

2021-07-19 20:50TechWeb - 胥崟涛

小鹏汽车似乎对产品有近乎偏执要求：要在车内创造出一种能「无限接近人类语气」的声音交互系统。

7 月，这套「全新 AI 声音」的小 P 系统将在 P7 部分车型上线。

“去年 1024 之后，小鹏车机智能化有了很大进步，于是我们花费很多精力在小 P 的语音表现上，给大家一个更好的信息传递。”小鹏汽车 AI 产品专家陈思云介绍起全新车载语音。

小鹏产品团队为新声音设立了三大「纲要」：

（1）足够像真人。

（2）角色足够拟人，例如定位成「秘书」、「宠物」或是「女神」。

（3）亲切传达信息，拉进用户距离。

小 P 全新 AI 声音是如何做到的呢？为实现这三条，团队就必须往车机联入一个在线的、更大规模的「神经网络模型」—— 从而实现 HIFI 级别合成语音。

目前，这套神经网络已经为小 P 带来了 2 项肉眼可见的提升：

一、MOS 评分 4.49

经 MOS1 语音质量评测，该声音得分为 4.49，是目前微软 MOS 语音质量评测得分最高的车载智能语音助手。

当然，MOS 评分不能完全完全「神化」。

MOS 最早源于电话的语音质量评价。这项评价标准由 ITU（InternationalTelecommunicationUnion，国际电信联盟简称国际电联）在 1996 年，作为囊括在《P.800: Methods for determination of transmission quality 》中的一个「子标准」沿用至今，字面意思不难看出，这是个围绕「主观」（subjective）—— 也就是人工听觉、人工打分的一项判定方法。

别看 MOS 古老（那时 TTS 还未普及），作为一个成熟、稳定、高度逼近人类听觉体验的评价标准，MOS 的制定最初建立在一套有参考信号的评价体系之上的：评价时，同时需要待测信号和参考信号。相较于无参考评价方案，有参考的客观评价方案更容易做得贴近主观评价体系。

“MOS 体系本身是一个主观评分，在全球最标准化的大会上参加评分的时候，也会要求需要把两个竞品或两个声音加上真人，加上一个非安慰剂的参照系放在一起横向比较。

我们只能比较这几个主观评价中，用户对它们评价的差值，但绝对分值的比较，因为它是一个主观比较，所以在换样本量，或换不同的场景，都会导致分值上的差异。

需要放在同一测试中这个分数才有比较的意义。”陈思云在回答能否用 MOS 评分高低作竞品横评时谈到。“即便无法客观的让小 P 横向对比。但我相信更新后，用户拿小 P 和 Siri 对比，还是有很大区别的。”

二、软硬兼施，打出「情感牌」

从刚才的视频来看，全新小 P 声音饱满程度也有很大提升，再配合 P7 本身的良好的 NVH 性能，我预感这波 HiFi 级高保真音质真的可以在 P7 上发挥出来，成为量产车中排名数一数二的沉浸交互感。

实际上，全新 AI 声音采用 24K 采样技术（现有声音为 16k），各种场景下的声音反馈都被精心调教，用户听到的每句话都细腻生动、充满活力。

“新旧声音对比来听，会明显感受到音质的差距。这个声音不是拼接的，完全采用 AI 训练、生成出来的。”郝超补充道，“业内无论车企还是智能音箱，大家还是在用提前录音的方式，尽可能让语音包更好听，但内容覆盖率不高，所以我们采取这种方式（AI 生成），也算一次大的创新。”

除了这些「硬实力」，全新 AI 语音还有足够「软实力」。

“小 P 会像 Siri 一样调侃么？”，笔者问道。

“全新 AI 声音会有一些情绪上的表达，或者对不同情景、不同语气会有一些彩蛋的埋入，包含像偶尔跟用户进行一些小的调侃，去调剂一下用户整个行程中的娱乐性，这也会有一些小的彩蛋的埋入。”陈思云回答。

而具体有哪些「彩蛋」，还需要 P7 车主一点点挖掘。

除了语音彩蛋，全新小 P 语气包括例如「助理、客服、聊天、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静」等 14 种强烈情绪的变换能力，后续版本还会逐步贴合更多场景。

说了这么多优点，但新技术哪有不翻车的。来谈谈笔者对小鹏全新 AI 语音的担忧吧。

首先就是难以应对离线情形。

车辆行驶在偏远地区，没网，或者信号中断，在「有-无」网络之间来回切换，驾驶者肯定对语音质量的高低变换一定是有反应的。

但小鹏的工程师已经想出了对策：在线追求高品质，离线兜底无时延。

“如果遇到「5 公里长的隧道」这类极端网络情况，我们会在本地留一个「小的离线模型」，它的体量不会很大，但保证小 P 在时效性不变差的情况下一定能把声音发出来，比如说导航或者自动驾驶这些播报，两个模型工作准则是一样的。”

按照郝超的说法，这套自研「端云融合多级缓存」，能让车辆预测当下的网络情况，自动改选「在线神经网络引擎」or「离线引擎进行声音合成」，总之就是在信号不佳的情况下，语音播报依然维持高音质。

“通过这个技术，小 P 已做到 97% 超高在线率。”郝超补充道。

最后：

笔者认为，拟人的全新小 P 能够更好传达信息。

回想下，你有没有经历过，当车内导航声被道路噪音掩盖、碰巧路线显示延迟而错过待转路口？

在认知心理学中有个经常被提及的原理：「鸡尾酒会效应」。指的是人类听觉系统有着极其神奇的「专注能力」，即便在嘈杂环境中，仍能将注意力专注于某种「特定声音」，而「无视」掉背景音。

其实，小鹏语音团队做的便是将这个原理「逆」过来：做出一套更好被人类听觉系统分辨的声音。

人的注意力是有限的，一个好的交互系统在设计时就必定要考虑到极端情况下，如何减少人脑的能量消耗，从而达到最好的信息传递效果。期待小 P 早日让车主们享受到这一乐趣。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。