怎么做好语音控制?长城汽车 Coffee OS 2 交卷了

· Apr 21, 2023

在智能座舱中,语音控制功能已经司空见惯,是人们使用频率最高的智能座舱中的功能之一。因此,语音控制功能成为人们衡量智能座舱整体表现并且会影响人们驾乘体验的一个重要指标。但市场上智能座舱或者语音控制产品虽然种类繁多,但是使用体验却天差地别。有没有语音控制功能和语音控制功能是不是好用,还是存在比较明显的差距。

语音控制行业现状——痛点不少

当前上市的新车虽然几乎都搭载了语音控制功能,但是通过实际体验和功能分析,我们总结出了语音控制功能主要存在如下痛点:

图片 2

1. 无法实现连续对话。有些语音控制功能需要用户一遍又一遍地唤醒语音控制功能,且需要在语音系统播报完成并且处理完上个指令后,用户才能下达下一个指令。

2. 无法进行自由对话。在某些车机系统中,用户需要刻意记住关键词才能够让系统实现对语音功能的识别,不支持用户的口语化指令。

3. 音区锁定困难。当某一个用户在使用语音控制功能时,周边的其他声音会让干扰系统对语音的识别。在举家出游,尤其是车上有「熊孩子」时,语音控制功能体验较差。

4. 并行多意图难以识别。车机系统难以识别用户一句话中的多个指令。用户需要耐心等待一个指令完成后,才能再下达一个新的指令。当用户上车之后,往往需要对包括车窗、天窗、导航、多媒体、座椅位置、空调等多个系统进行调整。无法并行多意图实现的语音控制系统,往往需要花费用户比较长的时间来逐步调整。

从用户痛点出发,长城 Coffee OS 2 构建自己的产品亮点

通过着力对上述提到的四个痛点进行解决,长城 Coffee OS 2 的语音功能具备了四大行业领先的优势:

640_副本

1. 相应速度快。瞬间响应 Coffee OS 2 仅需 250 毫秒的唤醒速度,而汽车行业第一梯队的唤醒时间普遍需要 300-350 毫秒。同时毫秒级的响应速度也同样秒杀行业第一梯队 1-1.5 秒的平均速度。

2. 多域多意图的精准识别。当我们用一句涉足多个领域且包含多个意图的复杂指令时,Coffee OS 2 能够精准识别我们的指令意图,并且逐一高效执行,没有发生任何错漏的情况。

3. 后排抑制。Coffee OS 2 通过多音区声源定位,能够有效规避后排闲聊对前排语音交互的干扰,即便后排聊天的内容和车辆控制有关,Coffee OS 2 也能通过精准识别,精准捕捉到前排驾驶员的目的,大幅降低误报率和漏报率的同时,也让后排乘客在行车过程中能够更加自如随意地进行聊天。

4. 得益于人工智能技术的赋能,Coffee OS 2 具备比较强地上下文理解和泛化理解能力,其能够极限逼近真实口语习惯,在和竞争对手的对比中,优势比较明显。

图片 3

此外,可见即可说、免唤醒、全双工多轮对话、车机闲聊、跨域知识上下文等功能,都在 Coffee OS 2 上得到了实现,使得其语音控制功能非常强大。如果再结合触控交互、手势交互、头姿交互等各种自然交互模式,搭载 Coffee OS 2 的整车能够为用户提供更便捷、更好玩但却也是更加安全的智能交互体验。

Coffee OS 2 背后的核心技术

整体来看,能够实现这些市场领先的功能,得益于长城汽车在新一代座舱系统——Coffee OS 2 中,以「1 个自研中间件」,立足 App 和 HAL2 个自研统一接口,来实现「N 种硬件配置+应用服务生态「。「1+2=N」的底层架构,让 Coffee OS 2 的算力、迭代效率更快,语音交互功能更强。

图片 3

具体来看,在硬件层面,Coffee OS 2 不仅搭载了满足不同用户视听需求的显示屏,同时也具备了超级 AI 算力、16G 大内存以及可集成适配不同 AI 算法的千兆级以太网接口并采用了实现高速读写速度的 UFS 2.1 储存协议。

在软件层面,Coffee OS 2 也做了大量的工作:

1. 唤醒相应速度。为了能够实现 250ms 的唤醒响应速度,Coffee OS 2 在算法层面做了大量的工作:采用了低帧率低延时的深度学习模型,搭配唤醒快出逻辑策略,在保障唤醒性能的情况下,尽可能的减少了计算量与本地解码网络延时;唤醒模型采用 DNN 神经网络模型,减少特征提取对缓存音频的帧数,从而提升响应速度;采用 tts 离线固化音频,替换在线请求合成,并减少空帧时间,优化 audiotrack 音频播放逻辑,减少音频播放切换延时。

2. 命令响应速度。Coffee OS 2 的流式语义解析引擎采用基于深度神经网络的机器学习模型和自动机规则解析引擎结合的方式,将「领域分类」的时机大幅提前,将「提取槽位」的动作提前,这样大大降低语义解析的时间在流式语音识别输出结果的同时,可以输出流式语义解析的命令结果,实现边说边执行,提升响应速度。此外,Coffee OS 2 还建立了常用识别文本的预测模型,做到话未说完,语义提前 ready。

3. 多意图识别。Coffee OS 2 创新性地将大规模预训练语言模型和递归子句解析算法相结合,少量样本,训练复杂模型,实现了从单意图到多意图的理解技术革新,极大提升了多意图理解的句准率。结合模型解码深度递归子句算法,让 Coffee OS 2 颠覆业界传统的一问一答式机器理解。

4. 可见即可说:Coffee OS 2 采用本地热词的方案,声学模型共享,不同的场景热词可独立注册为一个识别解析解码网络,也可根据不同场景配置不同,动态插槽,解码快,响应快。此外,其还可以通过自动分词以及自动泛化技术,提升文本选中概率。

深刻洞察用户的需求,从用户的需求出发,是长城 Coffee OS 2 能够取得细分市场领先的最主要原因之一。而这个初衷的实现,也离不开长城对于 Coffee OS 2 车机系统的全部自研。由于自己掌握了多项底层核心技术,因此长城可以根据用户的反馈和自身的不断积累,对系统持续进行优化升级,带给用户不断更新的语音控制体验,让整个智能座舱具备更大的想象空间。

0


Related Posts 相关文章

One response to “怎么做好语音控制?长城汽车 Coffee OS 2 交卷了

发表评论

电子邮件地址不会被公开。 必填项已用*标注