在座舱里，我们到底在「chat」什么？

盘点一下今年上半年的「当红炸子鸡」，非 ChatGPT 模式莫属。OpenAI 和它的 GPT 不仅凭一己之力将 AI 再度推上风口，也带起了大模型之战。如今还没摩拳擦掌打造自家大模型的科技公司，在这轮 AI 大战里已经可以宣告出局了；还没有计划将大模型引入汽车的车企，动作似乎也有点慢了。如果说去年大火的「元宇宙」离汽车多少有点远，那 AI 大模型跟汽车的距离就近多了。毕竟「ChatGPT」的「chat」就与如今座舱里离不开的语音交互密切相关。语音交互也因此成了大模型上车的第一站，比如，之前 GeekCar 抢先体验的文心大模型上车 ，理想宣布自研的 MindGPT，商汤在上海车展期间展示的 SenseChat 中文语言模型，而奔驰更是直接在北美开启了 ChatGPT 上车测试。各家在探索的同时，更好奇大模型、生成式 AI 究竟能给语音交互和智能座舱带来什么改变？

前不久，GeekCar 有幸采访到全球车载语音巨头 赛轮思首席执行官 Stefan Ortmanns 博士 。赛轮思技术应用在全球汽车占比约 53% ，这意味着每两辆新生产的汽车中就有一辆是使用它的技术。值得一提的是，在北美开启 ChatGPT 测试的奔驰 MBUX 系统，早已采用了 Cerence JustTalk 车载助理功能。在 Stefan Ortmanns 博士看来，目前的车载语音正处在 「从典型的出行助理解决方案到沉浸式伴侣体验」 的过程中，其中离不开 AI 的驱动。

赛轮思首席执行官 Stefan Ortmanns 博士

目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的？在这个过程中大模型究竟能带来哪些想象力？我们一起来看看。

车载语音 1.0时代：任务型助手的升级

对于很多人来说，目前语音交互最常见的两个场景，一个是在车里，另一个可能就是智能音箱了。眼看着座舱智能语音的在新车中的渗透率高达 70%以上，在车里用语音交互被越来越多人接受，相比之下，智能音箱的处境就没那么乐观了，更多地沦为了家里哄孩子的工具，或者是控制智能家居的中台。其中关键一因素就是：边界。

如果把智能语音划分成任务型和闲聊型，目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境，容易把控的使用场景，让车载语音助手可以针对高频需求优化训练，主打一个「有求必应」：无论是打开车窗、空调，还是设置导航播、放视频，都建立在明确的指令下。给出指令——解决问题，一来一回，正好满足驾驶场景的需求。

因此，现阶段车载语音交互更多关注的是如何给任务型助手的升级：一方面是提高识别和响应速度；另一方面就是优化体验，比如类似的 oneshot、多轮对话能力，前面提到的 Cerence JustTalk 全时免唤醒对话功能，都建立在 AI 对全栈式技术的优化基础上，提高语音交互的准确率的同时，也提高了交互的效率。

作为用户来说，这种优化更直接的感受就是车载语音更加务实了：识别准确率提升，能摆脱冗余的唤醒词，不必再记住特定的指令，模糊指令也能识别……

从「出行助理解决方案」这个工具属性来看，体验提升了不少。不过对于智能语音来说，目标显然不止于此。

车载语音 2.0 时代：AI 驱动更主动、更像自然人的交互

尽管很多时候大家会说「谁开车时会需要闲聊啊？这不是耽误开车么？」但是更具有主动感知能力和自然交互能力的交互体验，一直是不可阻挡的趋势。

在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能，甚至不少车企打出的「情感交互」牌。

如果说情感交互、主动式交互听起来太抽象，那用 Stefan Ortmanns 博士的话来说就是：「从出行助理解决方案向沉浸式伴侣体验的过程，中间阶段就是虚拟副驾驶（Co-Pilot）阶段，这种趋势意味着能带来大量的信息。」

也就是从任务型助手向沉浸式交互发展，意味着更多信息的交互： 系统获取更多的信息，处理更多信息，以及向用户传递更多信息 。

现阶段是怎么做的呢？最常见的就是多模态融合。通过将语音和摄像头等实时信息融合，或者与以往的数据库融合，给出主动式的服务。

比如，赛轮思推出的 Cerence Co-Pilot 功能，就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候，系统能自动打开车窗；当监测到马上要到家时，提前询问是否打开家里的空调；当汽车电量不足时，主动提示附近充电桩导航；甚至引入生物识别引擎 Voice Biometrics，在座舱里实现声纹识别等多模态生物识别功能。

说起来容易，但实际应用中并不容易。以往，座舱内摄像头+语音交互融合的 DMS 系统，就曾在不少车型上因为误判、误提醒成为麻烦制造机；为了解决 DMS 误提醒问题，语音数据与视觉数据融合需要处理 10 亿级别的图片数量。

因此，要让主动式交互更主动、更自然，既需要多模态融合能力，也要庞大的数据处理能力，以及对于自然语言和场景举一反三的泛化能力，避免遇到新状况时「当机」。

「庞大的数据训练」、「高效的自然语言处理能力」、「低样本、零样本的泛化能力」、「多模态模型」，如果你最近关注 ChatGPT 的进展，对上边这几个词肯定不陌生。可以说正是因为这些特点，GPT 成为了颠覆行业的存在。而这些特点，与语音交互未来发展需要的能力契合。

也就是说有了 GPT 这样的生成式 AI 的助力，未来座舱内多模态交互不会是各司其职，能融合得更丝滑，语音交互的闲聊也不再只是尬聊，那些智能语音给我们画过的「饼」，终于找到了造饼的工具。

大模型上车，没那么容易

尽管越来越多的车企宣布大模型上车计划，甚至已经有车企开始测试，不过大模型上车并不容易。

ChatGPT 可以给我们提供很多信息，但并非无所不能。比如当我问 ChatGPT 怎样开雨刮器，它可能只会给你提供一个通用的结果；如果我的车型比较创新，取消了传统的物理按键，ChatGPT 大概束手无策。

针对这种情况，赛轮思利用生成式 AI 和大语言模型，针对车载场景做出了成果。

比如， Car Knowledge 利用自研的生成式 AI，将主机厂提供的车辆信息、用户手册、传感器信息直接导入大型语言模型。这样驾驶员只需要简单描述自己的需求，甚至只是输入几个字就能找到专门针对这款车型的信息。

对于一个曾经经历过「由于车内没有物理按键，也无法用语音打开油箱盖，不得不在加油站翻用户手册」的人来说，在座舱里创新开关越来越多的今天，深感这个功能的实用。

当然，这只是生成式 AI 和大语言模型上车的小试牛刀而已。另一个 Cerence Browse 更符合我们对智能语音无所不知的闲聊属性的印象，赛轮思将互联网搜索引擎与车载助理集成，通过语音 AI 来解答的各类提问，主打一个陪伴。

前不久，奇绩创坛创始人、微软前全球执行副总裁陆奇在演讲中说，「未来世界有各种模型组成，每个人都将有多有不同领域的副驾驶（CoPilot），等 CoPilot 能力越来越强，就会变成一个正驾驶员（AutoPilot），再往下将拥有一个一个 Pilot team。」

目前，赛轮思基于生成式 AI 和大语言模型上车的产品，未尝不是在打造一个个不同领域的 CoPilot，并通过应用培养它们逐渐变强大，最终营造一个沉浸式的座舱交互体验。

「要创造一个真正的沉浸式车载体验，意味着我们需要超越对话式人工智能。」 对于未来沉浸式车载体验的畅想，Stefan Ortmanns 博士这样回答。

最后

很多人说生成式 AI 的突破，让人工智能进入了 iPhone 时代。对于语音交互和智能座舱来说又何尝不是呢？

未来的智能座舱注定不会是触屏、手势、语音、视觉单一交互方式的单打独斗，而是彼此的相互融合，语音交互更像是一个交互中台的存在。所以大模型和生成式 AI 能为语音交互带来多少想象力，就意味着能为智能座舱带来多大想象力。

不论是对于我们，还是对于赛轮思这样语音交互解决方案提供者来说，在车里我们能「聊」的会越来越多。

车载语音 1.0时代 ：任务型助手的升级

车载语音 2.0 时代：AI 驱动更主动 、更像自然人的交互

大模型上车，没那么容易

最后

发表评论 取消回复

车载语音 1.0时代：任务型助手的升级

车载语音 2.0 时代：AI 驱动更主动、更像自然人的交互

发表评论取消回复