
赛轮思首席执行官 Stefan Ortmanns 博士
目前语音交互究竟是怎样向着「沉浸式伴侣体验」发展的?在这个过程中大模型究竟能带来哪些想象力?我们一起来看看。
车载语音 1.0时代 :任务型助手的升级
如果把智能语音划分成任务型和闲聊型,目前智能座舱里的语音交互就是「任务型助手」的代表。相对封闭的环境,容易把控的使用场景,让车载语音助手可以针对高频需求优化训练,主打一个「有求必应」:无论是打开车窗、空调,还是设置导航播、放视频,都建立在明确的指令下。给出指令——解决问题,一来一回,正好满足驾驶场景的需求。

作为用户来说,这种优化更直接的感受就是车载语音更加务实了:识别准确率提升,能摆脱冗余的唤醒词,不必再记住特定的指令,模糊指令也能识别……
从「出行助理解决方案」这个工具属性来看,体验提升了不少。不过对于智能语音来说,目标显然不止于此。
车载语音 2.0 时代:AI 驱动更主动 、更像自然人的交互
尽管很多时候大家会说「谁开车时会需要闲聊啊?这不是耽误开车么?」但是更具有主动感知能力和自然交互能力的交互体验,一直是不可阻挡的趋势。
在以往的概念车上看到的语音+眼神指令的察言观色、语音+手势的 3DTof 功能,甚至不少车企打出的「情感交互」牌。
如果说情感交互、主动式交互听起来太抽象,那用 Stefan Ortmanns 博士的话来说就是:「 从出行助理解决方案向沉浸式伴侣体验的过程 ,中间阶段就是虚拟副驾驶 (Co-Pilot)阶段 ,这种趋势意味着能带来大量的信息。」
也就是从任务型助手向沉浸式交互发展,意味着更多信息的交互: 系统获取更多的信息 ,处理更多信息 ,以及向用户传递更多信息 。
现阶段是怎么做的呢?最常见的就是多模态融合。通过将语音和摄像头等实时信息融合,或者与以往的数据库融合,给出主动式的服务。
比如,赛轮思推出的 Cerence Co-Pilot 功能,就是将语音系统与视线、手势和触摸输入及汽车传感器信息融合。当你看着车窗说热的时候,系统能自动打开车窗;当监测到马上要到家时,提前询问是否打开家里的空调;当汽车电量不足时,主动提示附近充电桩导航;甚至引入生物识别引擎 Voice Biometrics,在座舱里实现声纹识别等多模态生物识别功能。
说起来容易,但实际应用中并不容易。以往,座舱内摄像头+语音交互融合的 DMS 系统,就曾在不少车型上因为误判、误提醒成为麻烦制造机;为了解决 DMS 误提醒问题,语音数据与视觉数据融合需要处理 10 亿级别的图片数量。
因此,要让主动式交互更主动、更自然,既需要多模态融合能力,也要庞大的数据处理能力,以及对于自然语言和场景举一反三的泛化能力,避免遇到新状况时「当机」。
「庞大的数据训练」、「高效的自然语言处理能力」、「低样本、零样本的泛化能力」、「多模态模型」,如果你最近关注 ChatGPT 的进展,对上边这几个词肯定不陌生。可以说正是因为这些特点,GPT 成为了颠覆行业的存在。而这些特点,与语音交互未来发展需要的能力契合。
也就是说有了 GPT 这样的生成式 AI 的助力,未来座舱内多模态交互不会是各司其职,能融合得更丝滑,语音交互的闲聊也不再只是尬聊,那些智能语音给我们画过的「饼」,终于找到了造饼的工具。
大模型上车,没那么容易
尽管越来越多的车企宣布大模型上车计划,甚至已经有车企开始测试,不过大模型上车并不容易。
ChatGPT 可以给我们提供很多信息,但并非无所不能。比如当我问 ChatGPT 怎样开雨刮器,它可能只会给你提供一个通用的结果;如果我的车型比较创新,取消了传统的物理按键,ChatGPT 大概束手无策。
针对这种情况,赛轮思利用生成式 AI 和大语言模型,针对车载场景做出了成果。
比如, Car Knowledge 利用自研的生成式 AI,将主机厂提供的车辆信息、用户手册、传感器信息直接导入大型语言模型。这样驾驶员只需要简单描述自己的需求,甚至只是输入几个字就能找到专门针对这款车型的信息。
对于一个曾经经历过「由于车内没有物理按键,也无法用语音打开油箱盖,不得不在加油站翻用户手册」的人来说,在座舱里创新开关越来越多的今天,深感这个功能的实用。
当然,这只是生成式 AI 和大语言模型上车的小试牛刀而已。另一个 Cerence Browse 更符合我们对智能语音无所不知的闲聊属性的印象,赛轮思将互联网搜索引擎与车载助理集成,通过语音 AI 来解答的各类提问,主打一个陪伴。
前不久,奇绩创坛创始人、微软前全球执行副总裁陆奇在演讲中说,「未来世界有各种模型组成,每个人都将有多有不同领域的副驾驶(CoPilot),等 CoPilot 能力越来越强,就会变成一个正驾驶员(AutoPilot),再往下将拥有一个一个 Pilot team。」
目前,赛轮思基于生成式 AI 和大语言模型上车的产品,未尝不是在打造一个个不同领域的 CoPilot,并通过应用培养它们逐渐变强大,最终营造一个沉浸式的座舱交互体验。
「要创造一个真正的沉浸式车载体验,意味着我们需要超越对话式人工智能。」 对于未来沉浸式车载体验的畅想,Stefan Ortmanns 博士这样回答。
最后
很多人说生成式 AI 的突破,让人工智能进入了 iPhone 时代。对于语音交互和智能座舱来说又何尝不是呢?
未来的智能座舱注定不会是触屏、手势、语音、视觉单一交互方式的单打独斗,而是彼此的相互融合,语音交互更像是一个交互中台的存在。所以大模型和生成式 AI 能为语音交互带来多少想象力,就意味着能为智能座舱带来多大想象力。
不论是对于我们,还是对于赛轮思这样语音交互解决方案提供者来说,在车里我们能「聊」的会越来越多。