虫洞(Wormhole),又称爱因斯坦-罗森桥,是宇宙中可能存在的连接两个不同时空的狭窄隧道。虫洞是 1930 年代由爱因斯坦及纳森·罗森在研究引力场方程时假设的,认为透过虫洞可以做瞬时间的空间转移或者做时间旅行。
也许我们无法在短时间内完全理解爱因斯坦的「虫洞理论」,但是几个来自交通大学的理工科研究智能语音的技术宅男用他们自己的方式给我们解释了什么是他们眼中的「虫洞理论」——让用户更快速更智能地获取信息。 说到虫洞智能语音搜索,我们想到的第一个可能就是他们安卓端的 App「虫洞语音助手」,我们今天不想聊这个,因为这个 App 只是这个不到 30 人的团队中的 2、3 个人花了两三天时间做的(但易观国际统计过,目前它是安卓端语音搜索类 App 全国下载量第一,达到接近 3000 万次的下载),我们想聊的是这个「草根」团队是想要如何改变智能语音搜索,以及智能语音的车载应用问题。
语音现在还是在操作层面应用比较多,比如听歌、发个信息什么的,但其实它的潜力还没有真正发挥出来 ,真正的智能不止存在于操作层面。
虫洞的这个团队在做什么?除了以上我们提到的「虫洞语音助手」,他们还有很多「端」的合作,例如车载 i 智歌、三星智能电视、智能手表、海尔智能家居、甚至步步高学习机等,虫洞语音助手只是他们众多「端」中的一个。他们通过这些端服务用户,获得一部分盈利,但其实他们更看重的则是通过这些端获取用户的语料信息(例如所有问题和对话都会通过虫洞的后台,后台有上百台服务器在记录这些话,统计问答对话的多样性,分析用户的特性、习惯和爱好)。其实这些语料对于虫洞来说才是最值钱的,因为虫洞要做的不是垂直领域的智能语音搜索,而他们的目标是做「第四代搜索引擎」。 什么是「第四代搜索引擎」? 我们都知道,第一代搜索引擎是指主要依靠人工分拣的分类目录搜索,用反馈结果的数量来衡量搜索结果的好坏;第二代则是指以超链接分析为基础的机器抓取技术为基础;第三代搜索引擎则是在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示。第四代搜索引擎区别于前三代,是把个性化信息及人际推荐关系叠加到链接分析上,不是通过某些关键词搜索,而是通过上下文理解及记忆式上下文分析,让搜索引擎读懂你。就像电影《Her》里面的虚拟女神「斯嘉丽·约翰逊」,真正实现让你无障碍意淫的人工智能,更像是 24 小时的私人助理和秘书。在这一点上,虫洞比其他团队更加理想主义。他们和中科院、微软上海实验室、北邮实验室等等不同类型、不同领域的研究机构合作。虫洞负责参与研究,并最终把研究工程化。 虫洞看智能语音在车内的应用 和我们之前采访过的「出门问问」一样,「虫洞」也意识到了智能语音应用在车内场景中应用的重要性,而且他们觉得汽车前装市场更新迭代太慢,并不适应互联网模式(这点倒和「出门问问」的观点是达成一致的),后装市场并不成熟,而且很多需要定制化,很费时间而且市场效果也不一定好。
现在车载模式大多数是投射的模式,但真正的智能是服务或者平台+端的模式。这个平台可以定义为是一个特别了解你的助手或者秘书的角色。平台是一个大脑级的东西(在云端,投射到不同的屏上),知道你的喜好和习惯。
智能语音发展也有很多年了,但它不像其他领域发展的那么快的原因之一就是场景的局限性。在嘈杂的环境下语音识别率会受相应的影响。而车内算是语音应用比较理想的场所,但也会受到影响。虫洞的想法是未来会应用到谷歌的「骨传导」技术,并且还会发展到通过「脑电波」的模式让汽车和你进行沟通。而且他们认为车内的语音智能应该是以一种更主动的方式实现,并不是用户语音搜索周边的饭馆或者搜索一条路径,就直接给用户列出一大篇列表,而是需要更自然的交互式的「会话式」语音互动。 这种「会话式」语音搜索模式的实现也有很多难点。 我们都知道智能语音分为三大模块:1. 语音识别,也就是语音到文字的转化过程。这个过程需要大量的语料收集、人工或机器标记,然后把对话传到云端,通过波峰波谷判断和计算看是哪个字。科大讯飞在安徽有一个三百多人的团队,每天在做的事情就是在录入和标记这些语料信息。还有百度、出门问问也都在做语音识别,算法层面大同小异。2. 语义分析:也就是从文字到意图的理解,这也是出门问问以及虫洞等智能语音企业的核心技术,每个企业的方式和风格不同,对语义的识别的侧重点也会不同。3. 智能搜索:从文字的理解到搜索结果的呈现。「会话式」语音交互模式的难点就在于要分析和记忆用户之前说的话、喜好、行为习惯,这是一种机器学习的能力,让机器从一张白纸通过和你交流成长,进而变成你的得力助手或秘书。
硬件的成长速度很快,每 18 个月都会翻一番。语音领域一般来说隔 3、5 年是一个周期。下一个周期这个领域可能会在类似 nest、智能手表、车载等智能硬件领域应用会发展很好,会突破控制类的交互而更多转向主动性交互。
语音搜索发展需要经历用户习惯迁移的过程,HTC 小 hi 在一定程度上改变了用户的习惯,但这并不完全。例如附近场景的搜索功能,用户希望越简单越傻瓜越好,未来最好是不用安装和打开很多 App,只需要一个智能语音去集成这些 App 就可以了。 对于一个自称「草根」、「苦逼」、「技术宅」的技术导向智能语音创业团队来说,跟随导师贺仲雄参与中科院、清华机器翻译等科研项目、参与 Siri 中文版的研发、成为第一批微软云加速器孵化器的成员之一,这些经历见证了他们的成长。随着智能硬件的发展,未来智能语音领域的竞争会越来越激烈,但是对于技术,他们不会走「虫洞」这条位于不同时空间的捷径,未来的汽车产业或人工智能领域会不会有虫洞语音的名字,我们非常期待。
未来的世界是属于我们的