在昨晚,小鹏汽车开始为 P7 用户分批推送 Xmart OS 2.1.0 更新。在这次更新里,除了加入大家期待已久的辅助驾驶功能,还有一个关于车机的重要改变——语音交互的提升。
具体来说,就是加入了全场景语音功能,或者叫「全语音车载系统」。用小鹏官方描述来解释:「用户手动开启该功能后,语音助手可以支持连续对话、可见即可说、语义打断、双音区锁定等语音交互功能,提升人机语音交互便利性。」
我在广州提前一天体验到了这套新的语音交互,先说结论:加入了上述这些能力以后,小鹏 P7 的语音交互已经可以跻身市面一流行列。在体验现场,以电动星球 NEWS 蟹老板为首的几位媒体人,都对 P7 的语音交互给出了非常好的评价。具体可以看蟹老板和常岩今早发布的视频。
具体是个什么情况?我们把上述几个能力按顺序加以介绍。
连续对话:
也叫多轮对话。原先,小鹏的语音交互每一条语音指令输入之前,都需要说一句「你好小 P」来唤醒。升级之后,在连续对话时,可以实现免唤醒词操作。如果系统在 20 秒之内没有识别出语音,那么就意味着此轮对话停止,需要再次使用「你好小 P」来唤醒。
新版本系统里的多轮对话并不局限于屏幕当前功能模块内,而是可以支持垮功能的全局操作。比如,在操作导航时,你可以紧接着让系统去播音乐、调车辆设置等。
可见即可说:
这个能力主要是指,在中控大屏上显示出的文字,你都可以通过语音的方式进行操作。比如,屏幕上出现了一个歌名,你可以念出来,系统就会识别,然后播放。甚至是当屏幕上出现了一个「请阅读后点击确定」这样的按钮,你也可以说「阅读」俩字,然后车机自动完成点击这个按钮的操作。另外一个作用是,当你不确定你想操作的功能在哪个页面时,你可以用语音把那个页面调出来,比如你在导航页面说「氛围灯」,车机就会调出氛围灯设置页面。理论上来说,当这个「可见即可说」足够好用时,就可以解决车机菜单逻辑和层级复杂这一痛点。
小鹏的语音负责人告诉我,这个功能的实现目前主要是依赖的云端能力。
不过在逻辑上,「可见即可说」有一个 bug:这个功能的初衷或许是想让用户尽可能少的进行触摸操作,尤其是在车辆行驶时。不过,虽然解放了手,但没办法解放双眼。你的眼睛其实还是得看屏幕然后说出语音指令,所以也就无法完全解决「在开车时因为操作屏幕而产生安全隐患」的问题。
语义打断:
这个没什么可说的,就是你可以在语音交互时随时打断语音播报,给出新的语音指令输入。「语义打断」加上「连续对话」,就有了一种更接近人与人自然对话的感觉。
双音区锁定:
小鹏 P7 的语音支持多音区识别和操控,而双音区锁定能实现的是,在一场连续对话中,主副驾谁说出「你好小 P」的指令,连续对话就锁定到谁。比如,主驾通过「你好小 P」唤醒语音交互并进行连续对话,那么此时副驾的任何语音都不能被识别,也就减少了此时副驾说话对于语音交互系统的干扰。如果在这个过程中副驾想发布语音指令,就需要用「你好小 P」来让自己成为发号施令的那个人。
从我的体验来看,小鹏 P7 的语音系统在连续对话时,不会误识别那些不该被识别的正常交谈,这固然是连续对话优化的比较好,但双音区锁定也对此作了很大贡献。
其实小鹏的语音交互本来就有识别准确率高、反应迅速的优点,再加上这次升级的这些能力,确实是有了更大的进步,之前我们发现的问题比如不支持上下文理解,不支持大面积免唤醒,不支持可见即可说都得到了解决。就像开头所说,小鹏 P7 现在可以跻身市面量产车语音交互的第一梯队,甚至是前几名。接下来,小鹏需要做的就是把这个优势继续巩固,并且不断对语音交互加以优化。它绝对不是完美的,还有提升空间。
当然,P7 语音能力的提升,也跟小鹏做的大量自研有关。虽然语音识别的底层能力来自思必驰,但在此基础之上,小鹏做了大量的自主研发工作。举个例子,小鹏的语音负责人告诉我,当产品经理提某个需求时,一般会同时提给语音产品经理和 UI 产品经理,这相当于是把语音拿到了一个比较高的层级去对待。而另一方面,语音能力足够强,也能减轻 UI 和触控交互研发上的压力。
昨天在体验现场大家也提到,几家头部造车新势力都开始意识到语音交互的意义,并且准备投入更多的资源去进行研发。照着这个趋势来看,中国品牌智能电动车在语音交互上相对特斯拉的优势一定会越拉越大。