你玩过 Face U 吗?大眼瘦脸滤镜美颜无所不能;选择喜欢的贴纸,对着镜头卖个萌,大叔都能变成少女。
如果你是个鄙视美颜自拍的直男,那你可能用过招行或者其他金融机构的一些金融产品,你需要拿着身份证拍一张照片,传到后台等待审核。
而无论是 Face U 的「造骗」还是身份证审核,都是通过商汤科技的人脸检测和跟踪技术实现的。
商汤科技是一家主要做视觉识别和深度学习算法的本土 AI 公司,他们的技术已经应用在金融、商业、安防、和一些互联网产品上。就在今年,商汤也开始在自动驾驶领域开始布局,在 2 周前的 GTC 大会上,商汤的徐立博士和颜深根博士还做了演讲。一家用 GPU 做深度学习的公司在自动驾驶领域有何布局?我们在 GTC 现场采访了商汤的 CEO 徐立博士 (以下是采访整理,X 代表徐立博士,G 代表 GeekCar)。
G:请您谈一下商汤在汽车行业中可以提供的技术,以及在汽车供应链中的地位。
X:商汤在做的很多事情和视觉相关,但不限于视觉方面。在汽车中,我们可以提供基础的视觉模块。我们认为,视觉输入是未来无人驾驶的关键之一,当然还会有其他传感器。多源头数据的融合本身就是是深度学习的重要部分。行业内目前还没有成熟的多模态的深度学习框架,怎么把各种数据进行融合做一些深度学习训练,还是一个开放性的问题。我们也在做一些多模态的框架,这是商汤在底层框架上做的突破。如何把视频、语音、图像,甚至雷达、传感器收集到的不同数据融合在一个框架,是很重要的一件事情。其次,在视觉方面,我们总结出了大概 20 多个视觉算法模块,从前端的相机,到相机成像、标定,背后的识别、理解、场景化,再到最后的路径规划,都包含在内。这些模块可以嵌在现有的 ADAS 系统里 ,也可以为未来的辅助驾驶、自动驾驶提供核心的技术支撑。
G:商汤和英伟达除了芯片的合作,还有什么其他合作吗?
X:我们和英伟达的合作更多是生态链的合作。他们在 GTC 上宣布商汤是其平台战略合作伙伴,因为我们可以在他们的底层架构上搭建应用,甚至是深度学习操作系统,这样的模式搭建的深度学习系统可以辐射到下游,如安防企业或者互联网企业,可能因为选择我们的方案而改为使用 GPU。英伟达推出新产品时,也会第一时间跟我们对接。
G:您刚才提到,和 NVDIA 的合作可能会向下辐射,带动更多人使用英伟达的产品。这种情况在汽车行业会发生吗?汽车行业是个比较特殊的行业,商汤现在有哪些汽车 oem 合作伙伴?
X: 我们有汽车 OEM 合作伙伴,国内、国际 OEM 都有。不过,大部分 OEM 还是有自己特殊考虑的。汽车是个封闭性的环境,对准确率有很高的要求。深度学习是个黑盒子,OEM 担心安全问题,会更慎重的选择方案。目前 AI 在汽车行业有市场,但无人车上路还很远。比如数据收集就是一个很大的问题,不同地方训练的场景并不是普遍适用的,所以深度学习系统在适配和数据反馈上还有很长的路要走。我个人认为,OEM 在某种程度上会进行自己的核心研发,或者和有能力的公司合作研发,共享 DEMO。
G:商汤在汽车领域有什么计划?
X:商汤有自己的平台和核心技术,可以帮助厂商打造自己的系统。我们可以把深度学习平台提供给合作伙伴,让他们用收集到的数据建立自己的应用。
G:未来 NVIDIA 架构的算法能力会越来越优化,他们会不会直接找 OEM 合作从而挤压算法公司的生存空间?
X:NVIDIA 是直接提供整套产品的,如直接给到车厂的 Drive PX 2。我们给车厂的是 GPU 集群,可以让他们搭建基于 GPU 的系统,并利用自己的数据做一些预测,和英伟达直接提供这样的模块不同。当然我们提供的方案也是要符合车规的。
G:汽车场景中,商汤的视觉识别技术和传统 ADAS 公司的深度学习有什么区别?
X:在汽车中,我们涉及 3 个部分:传统 ADAS 模块、DMS 系统和强化学习。DMS 是针对司机、乘客、后排乘客的算法。在无人驾驶场景中,对后排乘客进行预警也是很有必要的。而强化学习,可以进行路径规划。Mobileye 以前是用传统算法做,近两年也开始用深度学习算法,性能大幅度提升。如果算法还有大的突破,现有格局可能被颠覆。我们认为,深度学习底层网络若有颠覆式创新,行业将有洗牌。所以,我们只做算法优化和结构创新,至于数据,则是选择和 OEM 合作。在我们看来,想要做垂直领域必须要具备行业要素。汽车行业门槛比较高,要么有强大的地图数据,要么对车和司机有控制,否则很难真正推出一款实用的产品。我认为,目前具备这两方面能力的是 Uber、Google、博世以及一些 OEM,他们能真正把自动驾驶产品落地。其他互联网公司造车可能并不具备核心要素。
在徐立看来,中国市场 AI 需求大,会有很多企业做,但也不乏复制现有者。商汤有自己的深度学习平台,搭建的神经网络多达 1207 层,是目前最深的神经网络,也是目前公开的最好的结果。
在数据共享层面,徐立认为,AI 开放是趋势,但需要更多机构或公司去贡献数据,而不仅仅是享用。目前的平台可能是单向输出,车厂用了但反馈后的数据不会共享出来,单向输出可能不长久。
商汤的核心技术包括 SensePose、SenseFace、SenseVideo、SensePhoto 以及 SenseAR。其中,SenseVideo 系统可以进行行人检测、车辆检测、车辆分类等技术;而今年 GTC 上首次亮相的 SensePose 能通过单目摄像头进行动作估计,可以捕捉人体关节的 3D 图像。这两项技术都是基于商汤的视觉处理能力和深度学习神经网络进行的,可以应用在自动驾驶场景中。不过,当我们问到徐立对于深度学习、监督学习和强化学习的看法时,他并未做出回答,想必他们利用深度学习网络做路径规划也是处于起步阶段。
我们知道,自动驾驶的实现需要算法、硬件以及数据的结合。纵观行业内,国内的地平线一直深耕于深度学习算法,Mobileye 近两年也开始发力深度学习。商汤有英伟达强大的硬件支持,还有 OEM 合作伙伴共享数据,虽然进入汽车领域不久,不过如果他们的深度学习网络算法有颠覆式创新,在自动驾驶领域实现弯道超车也不是不可能。
原创声明: 本文为 GeekCar 原创作品,欢迎转载。转载时请在文章开头注明作者和「来源自 GeekCar」,并附上原文链接,不得修改原文内容,谢谢合作!
欢迎关注 GeekCar 微信公众号: GeekCar 极客汽车(微信号:GeekCar)&极市(微信号:geeket)。