早在 20 世纪 90 年代,微软、苹果、IBM 等 IT 公司就掀起了第一波语音浪潮,当时的语音识别还处于需要在手机或设备里面嵌入语音识别芯片的「本地化语音识别」的阶段,当时有一个中国人受到了这场浪潮的影响,他就是现在车音网的创始人 沈康麒。
现在第一波语音浪潮早已平息,无线网络环境也有了质的改善,1999 年的初始创业团队也经过被收购、重新创业,直到 08 年,在对美国安吉星的一次考察后,创立了「车音网」。早期是通过语音识别的方式为车主提供车上半自动化的智能服务。直到现在,车音网 不仅仅在语音识别一个层面,更多的是在 车载人机交互层面 在做技术研发。所以 GeekCar 来到了车音网,和车音网副总裁陆凌涛聊聊关于车载智能语音的看法。
车音网在做什么?
一句话概括,车音网是一家基于语音识别的汽车互联运营商,目前有 320 人的规模,有将近 100 人在做汽车互联项目,应该是汽车垂直领域最早的本土语音识别公司之一。
在 GeekCar 看来车音网更像是车内语音的「老炮」,他们对汽车「系统」的理解更加彻底,目前他们和车厂的合作项目有十几个,这也是他们目前现金流的主要来源。其中包括马自达的语驾、通用的 MyLink2.0 等等前装、准前装项目。车音网从最初的汽车企业 App 端外包开发,向汽车互联平台端的开发转变,平台跟整个车的生命周期关联在一起,从用户买车、到用车。
除了 App 端外还有一个后端服务平台,这个平台除了服务用户外,还服务于汽车厂商、4S 店。给他们提供用户的活跃度、常用的功能、以及用户习惯等数据,通过习惯分析告诉汽车厂商未来应如何通过 4s 店推荐有效服务。在后装市场方面,车音网从 2011 年之后就很少做了,目前只有四、五款自己的产品,今年还会推出一款手机端客户终端产品。
车内语音的问题出在哪儿?
语音识别技术是车音网的看家本事,目前在中国掌握语音识别核心技术的四个人之一,目前就在车音网的新加坡研究院,而且这四位博士生导师带出来的学生大多数也都在这些地方工作。车音网如同之前我们采访过的「虫洞语音」一样,提到了智能语音的更新迭代问题,但他们的态度却十分不同。在车音网的陆凌涛看来,虫洞这样的公司实在太「理想主义」了。
「很多大数据在车内都是伪命题」。
用户在车内的生活和对话是碎片化的,机器或系统智能学习到有限的对话习惯和需求习惯,而无法完整地学习一个人。所以他们的态度是:在车内只要把某件跟用户密切相关的需求做好就可以了。
而对于他们的直接竞争对手,一直坚守和专注语音识别这个堡垒的「科大讯飞」来说,车音网认为目前肯为语音识别买单的车厂和用户太少了,作为技术提供方来说,从车厂赚到的钱是很少,作为上市公司的科大讯飞「赚钱」的方式和公司性质不同的车音网肯定是不同的。对于车厂和语音识别公司的关系来说,目前很多大多数公司只做了「语音识别」这第一件事,而 在「语音识别」和「语义分析」这两件事中间出现了严重的脱节 。比如汽车厂商、TSP 公司、电信运营商等不具备语音识别的技术能力和背景,所以他们对语音识别的理解是不正确的,例如车厂会要求语音识别公司做到语音控制车辆,这在技术上确实可以实现,但确实也没必要这么做。
「车内完全通过语音控制车内设备会把车主搞疯!」
汽车厂商对车内控制类设备的操作方面,已经有了非常好的解决方案,完全没有必要用语音这种在操作上略显「鸡肋」的方案去实现。想象一下,你对着你的车说:「关一下窗户。」汽车反问:「主人你是要关前后左右哪个窗户。」你说:「左前窗。」汽车反问:「主人,你要关到多少程度。」这时候你肯定就疯了,按钮就在你手边,为什么不能按一下呢?!
什么才是对的车内语音解决方案?
「我始终认为在车上用户需要的是简单答案,最好是唯一的。」
在车内,人们对互联网的浏览习惯和在手机 PC 上浏览会有很大不同:在手机或桌面上浏览时,人们是很集中精力的,并且不介意分神。但在车中,用户头脑中无法做出复杂判断和复杂转换,这时就需要「快、准、狠」的结果。一般情况下用户不会去问「世界上蜜蜂有多少」这种查询类的问题,而是会问跟下一段生活有关连的问题,例如餐馆推荐等等。所以车音网认为理想的解决方案就是 根据很多维度,例如现在的位置、过去常去的地方等等,再结合大数据的算法,从浩如烟海的答案中选择一个最适合的给用户推送过去。
当然,也许你会说这不是我想要的答案,那么他们会继续给你推送第二个答案,如果还不是你想要的(好吧,你应该是处女座),那么他们就会给你转接人工服务。这也是陆凌涛一直在强调的:
「多种交互方式的组合才是最佳人机交互方式」
通常在实验室、绝对安全的环境下,用户的所有人机交互都是通畅的、网络也是稳定的。但在 高速行驶,高速切换基站的状况下,3G 网络不稳定,车内噪音大 等,都会影响语音识别的准确度。再比如在紧急状态下,用户没有清晰地逻辑思维,想要冷静清晰地向机器转达他的想法并不现实,所以这个时候转接人工座机似乎就成了一种「应急保障通道」。而且从另一方面说,车主的素质、普通话程度的好坏这些都无法预判。所以「带有人工座机的车内语音」 也是智能语音在车内好的解决方案之一,也是「可被商用」的前提。
说到这儿,陆凌涛表示虽然他们是做语音识别,但他们依然不认为语音识别是万能的。 人脸识别、眼球识别、触控、语音识别这些技术应该用在最合适的地方,并不是一切用语音识别来代替。一些通过大数据、云计算了解并被动发起的 指令(例如提示疲劳、提醒机器故障等) 能给用户带来更好的体验。
最后一张是科大讯飞的实验室图片,而且版权是电视台的,为什么盗版?
作者做为汽车发烧友对车载语音交互技术理解不够深入,同时是否做过车载语音应用场景的实际体验?
GeekCar 最近就是在梳理车载语音,最早就跟科大讯飞联系并提出了能够请教专业问题的请求。但是估计因为科大讯飞比较忙,以及有自己的传播节奏,所以一直没有对接上。不管怎么样,GeekCar 在努力学习着了解车载语音,语音这件事情。也希望能够有更多的沟通。如果可以,你们可以加我的微信账号:ccmimii 沟通更多。
前几天跟车音网交流了,申请个账号先体验一下。。