2020 年我们能明显感受到市面上的车载语音体验有了很大的进步:不仅造车新势力品牌们的语音有了更多的创新突破,传统车企的语音能力也在以更快的步伐追赶。
前者不断创新的原因我们之前剖析过,传统车企则更多是依靠其他供应商。目前能为车企提供语音能力的公司有不少,但能够提供体验流畅,可选项多,价格经济还能快速上车的语音产品公司屈指可数。
博泰车联网擎 AI 语音平台是一个不容忽视的角色。在我们的实际体验下,它不仅基础能力扎实,服务场景丰富,还有非常灵活的商务合作方式。它不是一个公版的通用产品,而是一个具有可拔插能力的语音平台。
简单来说,它可以在短时间内以相对经济的方式,为车企提供具有行业竞争力的车联网智能语音产品。基于这样的产品背景,极客汽车在今年的年度评选活动中,决定将「2020 年度最佳平台化车载语音供应商」的荣誉授予博泰车联网的擎 AI 语音平台。
当前比较完善的语音产品是什么体验?
大多数用户接触到「车载语音」可能是从蔚来汽车的 NOMI 开始的。几年前,在整体语音技术还很不成熟的时候,NOMI 凭借憨态可掬的外形和有趣的回复,完美演绎了什么叫又嗲又可爱的小呆瓜。举几个当时的例子:
问:苹果的 CEO 是谁?答:忘记了,外国人的名字都好长啊。
问:蔚来的股价是多少?答:你没看吗?在市场上表现很好的。
2020 年,我们再次体验 NOMI 时,它发生了非常明显的变化,无论是识别率、识别速度还是功能丰富度,都有不小的提升。而且它不再只是一个交互方式或表达媒介,它还和驾驶辅助功能联系到了一起。很显然,它已经从一个萌物变成了有实用价值的工具。
2020 年 10 月,小鹏汽车发布了自己的全场景语音,包括多轮对话、语义打断、双音区锁定和可见即可说 4 个新功能。它更加能了解用户的真实意图,更强的上下文逻辑,也能听懂更多领域的类人类表达方式。举个例子:
问:把地图的比例尺调整为 200 米。
答:好的。(正确调整)
连续问:20 米。
答:好的。(继续正确调整)
总的来说,当前的语音产品体验,已经和两三年前不是一个级别。之前我们讨论的更多是如何提高唤醒率,如何输出更流畅的 TTS,如何理解用户的意图。如今我们则在讨论如何更好地完成自动纠错、免唤醒、打断,还要能完成多轮对话、上下文理解、可见即可说,甚至要实现多条件叠加说法,以及音视觉融合等能力。
想要实现上述语音功能,以小鹏汽车的全场景语音为例,它自主搭建了一套语音框架,以便自主定义语音的全流程体验,更灵活地完成技能优化和迭代,不受制于供应商的开放能力范围限制,这需要投入非常多的人力物力财力。
博泰车联网擎 AI 语音平台能给用户带来怎样的体验?
传统车企在无法或不想投入这么多成本研发语音功能时,还想拥有类似水平的体验,博泰车联网擎 AI 语音平台是个相对经济又比较完善的两全选择。
博泰车联网擎 AI 语音平台,顾名思义,它是一个具有可插拔切换能力的平台型产品。
平台能力是指它支持多家不同的 ASR、NLU、TTS 能力接入,比如讯飞的 ASR、思必驰的 TTS 等等,方言、声纹、声音克隆、技能均可按需定制。在此之上,博泰车联网基于底层 NLU 技术开发技能和中控系统,保证连续对话的深度记忆和语义仲裁的正确与连贯。
目前博泰车联网擎 AI 已经升级至 3.0 版本,我们之前体验过搭载了博泰车联网擎 AI2.0 的产品,当时它已经能够完成非常复杂的语音指令,比如我们可以问:帮我订一张后天去上海的经济舱机票,要南航的或者东航的或者国航的。还可以继续说:找最便宜的航班,要给公司省一点。又或者:帮我在北京三环内找一家带泳池的五星酒店,要无烟房,不超过两千块钱……
而且它的语音功能和导航结合的很好,创新的做到地图边说边搜索,是目前搜索速度最快,可以在 30 秒内完成 22 次导航 POI 搜索;在环境噪音 90 分贝,说话声音在 45 分贝的情况下,Oneshot 识别准确率达 99.9%。
据了解,博泰车联网擎 AI 语音平台 3.0 可以实现全双工语音交互、多轮对话、上下文深度记忆理解、全双工、免唤醒、所见即可说、声源定位、多屏交互、声纹识别等功能。另外它在部分范围内还可以完成更复杂的否定说法、多条件叠加说法、冗余说法、间接意图说法和带上下文的跨场景跳转。这些是不太多见的对话逻辑,难度也更大。
整体来说语音功能的应答范围覆盖了出行、媒体、娱乐、商务、饮食、住宿、社交等 40 多个领域的生态,共超过 1000 多个场景服务。再配合博泰车联网为用户提供的语音伴侣,更能给到用户类似助理般的服务与陪伴。
最关键的是博泰车联网擎 AI 语音平台的商务合作方式非常灵活,它可以根据具体需求,按项目、车型提供不同技能的语音服务,让车厂自由配置功能,增减技能垂类,并快速应用到各个车厂的项目中。它支持 Linux 和安卓系统、车机端和手机端等不同系统不同端的多种集成方式。
目前已实现落地北汽新能源、北京汽车、东风、吉利、长城、五菱、红旗等多款车型的擎 AI 语音的量产落地,即将量产的有东风 H、大众、现代、长安等车型。
我们可以从 5 个角度去理解这个产品,分别是具备模块化的平台能力、可以提供不输新势力品牌语音产品的体验感受、覆盖上千个服务场景的语音功能、比较人性化的交互方式,以及非常灵活的商务合作方式。可以说,它可以在短时间内以比较经济的方式,为车企提供具有行业竞争力的车联网智能语音产品。
重构移动空间的生活方式
以上描述的更多是讲擎 AI 语音平台提供的语音能力,但基于此它还有更多维度的想象空间,博泰车联网希望能够基于擎 AI 语音平台重构移动空间的生活方式。
比如从人性化角度来说,博泰车联网正在探索融合图像识别、手势交互、情绪感知等多感官的融合交互,擎 AI 还可以基于大数据分析用户需求偏好,实时为用户推送生活提醒、推荐各种生活服务,真正做到服务找人。
而且博泰车联网不止主攻车内场景,还希望将服务延伸至车外,从而真正形成一个 IoT 闭环生态,所以博泰车联网还在探索耳机、音箱、电视、手环的玩法,可以简单理解为 1+1+N。为此,2020 年博泰车联网接受了来自小米集团的战略投资。
能够看出来,博泰车联网的定位从来不是一个简单的供应商,它更愿意称自己为车联网服务运营商和智慧城市服务运营商。博泰车联网希望基于中国汽车产业规模化发展的优势,打造一个聚集全球智能汽车产业软件与数据的集聚中心;基于中国特大超大型城市的典型商业场景,构建智能汽车下的产业生态与商业模式,为全球汽车产业提供蓝本;基于智能汽车这个未来城市的移动商业空间,构建全新的社会文化与人文关系巩固城市品牌。
结语
博泰车联网是最早一批深耕车载语音的公司,早在 2011 年博泰车联网联合合作伙伴创造了全球汽车第一个车内中文语音产品,早于苹果手机 Siri 中文语音 9 个月。
2018 年,博泰车联网花费数千万元部署了完全自主掌控的车载语音平台,自主可控并且可以开放兼容任何一家语音公司的 ASR,TTS 与 NLU 能力。此后不断迭代,直到今天进化到 3.0 版本。
到今天,博泰车联网已经成立 11 年,累计投入了十多亿研发资金,同时将每年 28%营收持续投入研发,拥有全套车联网运营资质,以及超过 4000 项知识产权。
我们能感受到这个公司的创新热情和严谨精神,它拥有强烈的的产品创新意识和商业思维。因此,极客汽车决定将「2020 年度最佳平台化车载语音供应商」的荣誉授予博泰车联网的擎 AI 语音平台,希望 2021 年有更多车企在博泰车联网的配合下为用户提供更好的语音体验。