专访商汤科技 CEO 徐立:这家用 GPU 做深度学习算法的公司,能在自动驾驶领域弯道超车吗?
你玩过 Face U 吗?大眼瘦脸滤镜美颜无所不能;选择喜欢的贴纸,对着镜头卖个萌,大叔都能变成少女。 如果你是个鄙视美颜自拍的直男,那你可能用过招行或者其他金融机构的一些金融产品,你需要拿着身份证拍一张照片,传到后台等待审核。 而无论是 Face U 的「 造骗」 还是身份证审核,都是通过商汤科技的人脸检测和跟踪技术实现的。 商汤科技是一家主要做视觉识别和深度学习算法的本土 AI 公司,他们的技术已经应用在金融、商业、安防、和一些互联网产品上。就在今年,商汤也开始在自动驾驶领域开始布局,在 2 周前的 GTC 大会上,商汤的徐立博士和颜深根博士还做了演讲。一家用 GPU 做深度学习的公司在自动驾驶领域有何布局?我们在 GTC 现场采访了商汤的 CEO 徐立博士 (以下是采访整理,X 代表徐立博士,G 代表 GeekCar)。 G:请您谈一下商汤在汽车行业中可以提供的技术,以及在汽车供应链中的地位。 X:商汤在做的很多事情和视觉相关,但不限于视觉方面。在汽车中,我们可以提供基础的视觉模块。我们认为,视觉输入是未来无人驾驶的关键之一,当然还会有其他传感器。多源头数据的融合本身就是是深度学习的重要部分。行业内目前还没有成熟的多模态的深度学习框架,怎么把各种数据进行融合做一些深度学习训练,还是一个开放性的问题。我们也在做一些多模态的框架,这是商汤在底层框架上做的突破。如何把视频、语音、图像,甚至雷达、传感器收集到的不同数据融合在一个框架,是很重要的一件事情。其次,在视觉方面,我们总结出了大概 20 多个视觉算法模块,从前端的相机,到相机成像、标定,背后的识别、理解、场景化,再到最后的路径规划,都包含在内。这些模块可以嵌在现有的 ADAS 系统里 ,也可以为未来的辅助驾驶、自动驾驶提供核心的技术支撑。 G:商汤和英伟达除了芯片的合作,还有什么其他合作吗? X:我们和英伟达的合作更多是生态链的合作。他们在 GTC 上宣布商汤是其平台战略合作伙伴,因为我们可以在他们的底层架构上搭建应用,甚至是深度学习操作系统,这样的模式搭建的深度学习系统可以辐射到下游,如安防企业或者互联网企业,可能因为选择我们的方案而改为使用 GPU。英伟达推出新产品时,也会第一时间跟我们对接。 G:您刚才提到,和 NVDIA 的合作可能会向下辐射,带动更多人使用英伟达的产品。这种情况在汽车行业会发生吗?汽车行业是个比较特殊的行业,商汤现在有哪些汽车 oem 合作伙伴? X: 我们有汽车 OEM 合作伙伴,国内、国际 OEM 都有。不过,大部分 OEM 还是有自己特殊考虑的。汽车是个封闭性的环境,对准确率有很高的要求。深度学习是个黑盒子,OEM 担心安全问题,会更慎重的选择方案。目前 AI 在汽车行业有市场,但无人车上路还很远。比如数据收集就是一个很大的问题,不同地方训练的场景并不是普遍适用的,所以深度学习系统在适配和数据反馈上还有很长的路要走。我个人认为,OEM 在某种程度上会进行自己的核心研发,或者和有能力的公司合作研发,共享 DEMO。 G:商汤在汽车领域有什么计划? X:商汤有自己的平台和核心技术,可以帮助厂商打造自己的系统。我们可以把深度学习平台提供给合作伙伴,让他们用收集到的数据建立自己的应用。 G:未来 NVIDIA 架构的算法能力会越来越优化,他们会不会直接找 OEM 合作从而挤压算法公司的生存空间? X:NVIDIA 是直接提供整套产品的,如直接给到车厂的 Drive PX 2。我们给车厂的是 GPU 集群,可以让他们搭建基于 GPU 的系统,并利用自己的数据做一些预测,和英伟达直接提供这样的模块不同。当然我们提供的方案也是要符合车规的。 G:汽车场景中,商汤的视觉识别技术和传统 ADAS 公司的深度学习有什么区别? X:在汽车中,我们涉及 3 个部分:传统 ADAS 模块、DMS 系统和强化学习。DMS 是针对司机、乘客、后排乘客的算法。在无人驾驶场景中,对后排乘客进行预警也是很有必要的。而强化学习,可以进行路径规划。Mobileye 以前是用传统算法做,近两年也开始用深度学习算法,性能大幅度提升。如果算法还有大的突破,现有格局可能被颠覆。我们认为,深度学习底层网络若有颠覆式创新,行业将有洗牌。所以,我们只做算法优化和结构创新,至于数据,则是选择和 OEM 合作。在我们看来,想要做垂直领域必须要具备行业要素。汽车行业门槛比较高,要么有强大的地图数据,要么对车和司机有控制,否则很难真正推出一款实用的产品。我认为,目前具备这两方面能力的是 Uber、Google、博世以及一些 OEM,他们能真正把自动驾驶产品落地。其他互联网公司造车可能并不具备核心要素。 在徐立看来,中国市场 AI 需求大,会有很多企业做,但也不乏复制现有者。商汤有自己的深度学习平台,搭建的神经网络多达 1207 层,是目前最深的神经网络,也是目前公开的最好的结果。 在数据共享层面,徐立认为,AI 开放是趋势,但需要更多机构或公司去贡献数据,而不仅仅是享用。目前的平台可能是单向输出,车厂用了但反馈后的数据不会共享出来,单向输出可能不长久。 商汤的核心技术包括 SensePose、SenseFace、SenseVideo、SensePhoto 以及 SenseAR。其中,SenseVideo 系统可以进行行人检测、车辆检测、车辆分类等技术;而今年 GTC 上首次亮相的 SensePose 能通过单目摄像头进行动作估计,可以捕捉人体关节的 3D 图像。这两项技术都是基于商汤的视觉处理能力和深度学习神经网络进行的,可以应用在自动驾驶场景中。不过,当我们问到徐立对于深度学习、监督学习和强化学习的看法时,他并未做出回答,想必他们利用深度学习网络做路径规划也是处于起步阶段。 我们知道,自动驾驶的实现需要算法、硬件以及数据的结合。纵观行业内,国内的地平线一直深耕于深度学习算法,Mobileye 近两年也开始发力深度学习。商汤有英伟达强大的硬件支持,还有 OEM 合作伙伴共享数据,虽然进入汽车领域不久,不过如果他们的深度学习网络算法有颠覆式创新,在自动驾驶领域实现弯道超车也不是不可能。 原创声明: 本文为 GeekCar 原创作品,欢迎转载。转载时请在文章开头注明作者和「来源自 GeekCar」,并附上原文链接,不得修改原文内容,谢谢合作! 欢迎关注 GeekCar 微信公众号: GeekCar 极客汽车(微信号:GeekCar)& 极市(微信号:geeket)。
「活动总结」地平线:自动驾驶时代的数据怎么处理?
看过 GeekCar 文章的同学应该知道,自动驾驶离不开感知、地图、决策以及控制这四个环节,而这四个环节依靠人工智能的深度学习才能更有效的实现。 在感知环节,既需要高精度地图定位,也需要摄像头、激光雷达等传感器捕捉环境数据,而通过深度学习则能更有效的识别、分析传感器画面。在决策和控制环节,机器在不同路况环境下模拟人的行为,深度学习可以帮助它优化决策。这其实就类似于人的大脑,而我们以前报道过的英伟达 DRIVE PX 2 正是在扮演这样一个角色。 但实际上,除了英伟达之外,国内有一家创业公司——地平线机器人公司(Horizon Robotics, Inc),也在做深度学习。这家由 200 多位工程师组成的创业公司,成立两年来,一直深耕于深度学习算法,并且从最底端技术研发开始,搭建自己的架构 IP。他们想做的是软件、算法、硬件一体的自动驾驶解决方案。 在刚刚过去的上海车展上,我们将地平线的余轶南博士请到 GeekCar 主办的人工智能论坛,和我们分享了地平线在自动驾驶中应用的深度学习算法。 汽车有强大的能源和空间,不只要对外部环境进行感知,还要对内部驾驶意愿进行交互,可以说汽车是 AI 机器人的载体。 地平线提供的是嵌入式人工智能解决方案,将 AI 同自动驾驶结合。他们的「 汽车大脑」 包括算法软件架构、芯片的编译器和运行时间库以及硬件,还有模拟训练后台支撑前端的业务和技术,所以可以执行包括感知、定位、语义环境重建以及运动预估在内的全站式工作。 余博士提出,他们设计这套算法有三个目标: 1. 神经网络可以被用户理解。 神经网络由于包含隐层,经常被人理解成黑盒子,如何理解神经网络成为关键。地平线现在在做的贝叶斯网络(Bayes Networks),是神经网络中和控制决策相关的技术。通过深度学习,摄像头、激光雷达、毫米波雷达对汽车周围环境进行感知收集数据,然后进行环境重建及运动预估,最后通过贝叶斯网络做决策,给出路径规划。 现在主流公司会使用深度学习加强化学习,做「 端到端(end-to-end)」 训练,从传感器的输入直接导出控制器的输出,这使得深度学习缺乏透明性。你能看到输入层和输出层的数据和决策,但不知道输入的数据运用什么样的算法形成输出层的决策。如果输出了错误的决策导致驾驶事故,你甚至不知道为什么会出事故,这样一来,再多的数据积累都没有意义。而且,端到端的训练仅仅依靠相关性推理,推出的结果有一定的盲目性,运用在驾驶中可能导致严重后果。 地平线在收集到感知数据后,会进行人工标注,配合激光雷达、 毫米波雷达进行三维标注,区分出车道、行人、周围车辆,然后建立 3D 仿真模型,进行模拟训练,还会做出运动估计。这些模块会单独做端到端的学习,而神经网络会把各个模块串起来,形成一个整体网络。这其中还可以加入专家模块,形成冗余路径,能增加输出的可靠性。同时,贝叶斯网络采用因果推理,使整个系统更加通透。你能够分析决策的过程,就能找出导致错误决策的原因然后修改。 2. 系统可以自适应学习。 汽车每天面临着各种各样的驾驶环境,很难在一开始收集庞大数据库去训练各个模块,所以需要在不停变化的环境中不断学习,既要学习人类的驾驶行为,还要进行仿真训练。不正确的驾驶行为导致一些后果之后,地平线会利用其收集到的大量数据在云端进行控制,让汽车更加 smart,避免再出现同类型事故。同时,他们不只要让车「 被训练」,还要车内系统能够自适应学习。 对自动驾驶来说,足够强大的前端做实时的强化学习以及强大的后台保证系统的学习,很重要。 3. 算法和硬件平台相互迭代优化,使计算平台更加高效、节能。 地平线认为芯片在自动驾驶中占据很重要的地位。之前他们的神经网络都是在 GPU 跑浮点模型,不过功耗非常大。所以,他们在神经网络结构稀疏化上做了很多努力,希望「 在未来若干年,不增加计算量或在小功耗环境下,可以有更强大的计算能力和更好的效果。」 在年初的 CES 上,地平线和 Intel 联合推出 ADAS 系统。这套系统做了神经网络并联化和稀疏化,能耗低、运行快,能同时对车辆、行人、车道线和可行驶区域进行实时检测和识别,还能进行高密度的环境检测。他们曾在宇宙中心五道口进行过路测,利用他们的算法能准确的识别行人、汽车、街道、建筑、树木和标志。 和计算机视觉不同,做自动驾驶的关键在于获得结构化场景,而且还要对汽车的应用学模型、动力学模型、定位有所了解。余博士表示,一直在做计算机视觉的他,转做自动驾驶有点「 水土不服」。不过经过努力,地平线结合了车辆运动系统、语义感知,实现环境结构化,还能重建场景,使汽车运行更加游刃有余。并且算法优化可以直接在场景语义结构化中实现。 最后,余博士也表示平常机器训练更多用 GPU,前端 inference 会使用嵌入式结构。他们自己打造了低功耗的深度处理器 IP-- BPU(Brain Processor Unit),它将会有三代架构,分别是高斯架构、伯努利架构和贝叶斯架构。目前第一代架构已用于和 Intel 联合打造的 ADAS 系统,第二、三代架构正在研发中。 此前我们也报道过,地平线在上海安亭成立了研发中心,这将方便地平线进行自动驾驶技术的测试,加快研发进度,而且安亭的地理位置更有利于地平线和客户进行接洽,让技术更快落地,实现商品化。 在自动驾驶时代,汽车将成为一个移动数据中心,数据的计算、处理能力将尤为重要。深度学习网络隐层、系统自适应学习以及降低计算功耗是地平线的深度学习算法的目标,也是当前自动驾驶研发亟需解决的问题。 目前,自动驾驶巨头在中国的数据积累几乎为空白,针对中国驾驶场景的算法优化也没有明显的优势,地平线可能也正是看中了这一点,所以一直深耕深度学习算法。不过,他们能不能在巨头进入、瓜分中国市场前积累优势,还要看他们的产品落地和数据积累情况。 原创声明: 本文为 GeekCar 原创作品,欢迎转载。转载时请在文章开头注明作者和「来源自 GeekCar」,并附上原文链接,不得修改原文内容,谢谢合作! 欢迎关注 GeekCar 微信公众号: GeekCar 极客汽车 (微信号:GeekCar)& 极市 (微信号:geeket)。
「CES 2016」Mobileye 自动驾驶技术路线及商业策略解析
如果可以投票选出 2016 年 CES 的关键词,我一定双手赞成选「 自动驾驶」,几乎所有参展的汽车厂商或供应商都逃不开这件事儿。一些在展示自己尖端的传感器技术,一些在展示自己的高精度地图,还有的干脆直接发布了自动驾驶概念车。 而这几天令我最为深刻的事情之一,则是在 6 号在拉斯维加斯会议中心南馆会议室参加的一个小型发布会,与其说是发布会,还不如说是 Mobileye 的联合创始人兼 CTO Amnon Shashua 主讲的一堂「 自动驾驶晋级课」,这位耶路撒冷希伯来大学教授、自动驾驶技术的大神用一个半小时的技术讲解,描述了 Mobileye 的自动驾驶技术路线,以及他们的商业逻辑和策略。 如果你还不知道 Mobileye,请参阅 GeekCar 此前的相关报道: 1.《Mobileye,一个造了 10 年的「摄像头」?》2.《我们搞到了一台 Mobileye,并且花四个小时把它装进了车里》3.《你是我的眼——高级驾驶辅助系统 Mobileye 评测》4.《「CES 2016」为了自动驾驶地图,通用打起了用户车里摄像头的主意》简单来说,在用户层面,Mobileye 是一套基于摄像头、可以给你提供驾驶员安全驾驶辅助功能的系统;在行业层面,Mobileye 给汽车厂商提供 ADAS 服务,全球已有超过 1 千万辆车使用它的技术,合作厂家包括奥迪、特斯拉、沃尔沃、通用、HKMC、日产、克莱斯勒等 OEM 厂商。 「 游戏的开端是摄像头,但玩法却是自动驾驶。」 在 Mobileye 眼中,卖摄像头绝对不是目的,帮助车厂实现全自动驾驶才是终极目标。这个逻辑很容易看到,在 Shashua 看来现在所谓的无人驾驶分为两个阵营:以谷歌为主导的「Somewhere with fully functionally」 阵营,和以传统汽车厂商为主导的「Everywhere with partial functionally」 阵营。前者强调通过采集某一区域的高精度 3D 地图信息配合激光雷达在某一区域实现无人驾驶,后者则更强调「 万无一失」 的复杂传感器组合识别周围环境配备,并匹配低精度导航地图(当然现状会有所改变),能在任何区域实现无人驾驶。但终极愿景都是:「Everywhere with fully functionally」。 哪种更好?其实都有缺陷,前者需要不断地采集并更新实时高清地图(所采集的高精度 3D 厘米级地图会达到 3-4Gb/km),而后者的难点则在于更高精度的地图和更强的人工智能,因为从部分自动驾驶的功能实现到全部实现,需要更人性化更自然的驾驶方式,但汽车厂商并没有人工智能方面的基因,这可能会耗费他们 5 到 10 年的时间去实现终极目标。 Mobileye 能做的,则是利用摄像头作为传感器,搭配人工智能、深度学习以及众包数据的方式获取高精度地图,并且大小只有 10Kb/km,来帮助汽车厂商完善和实现高清晰度地图。 站着说话永远不会腰疼,因为人工智能和深度学习需要经历无法想象的困难。 Shashua 将自动驾驶的主要因素分为三部分:传感器、匹配和决策。传感器用来采集 360°环境信息,建立「 环境模型」。Mobileye 通过采集包括交通信号、方向指示牌、长方形指示牌、路灯及反光标等「 地标」,得到一个简单的 3D 坐标数据;再通过识别车道线信息,路沿,隔离带等获取丰富的 1D 数据。把简单的 3D 数据和丰富的 1D 的数据加起来,大小也不过是 10Kb/km,相当于谷歌的高精度 3D 地图大小的百万分之一大小。于是 Mobileye 可以采集大量的数据,并且可以做众包数据采集,方便用户将大量的数据上传云端。 他们管这叫做:REM(Road Experience Management),路网采集管理,这些采集到的路标其实就构成了所谓的「RoadBook」(路书)。在我看来,这是 Mobileye 在自动驾驶这个赌局中的筹码之一。 「If you want to slow down our competitors, told them to use deep networks.」 上面这句话是 Mobileye 的工程师跟 Shashua 说的,足以表明人工智能和深度学习网络的难度令人发指。 Mobileye 目前几乎将全部精力都放在自动驾驶的决策上,实现途径是人工智能的深度学习模式,终极目标是通过大量数据的深度学习网络学习人类开车最自然的模式。当然,这个过程也并不顺利。 Shashua 现场举了几个例子说明人工智能和深度学习在自动驾驶领域的重要性和难度。例如通过像素标记的方式得知开放道路的范围(车辆可以通过边界识别道路边缘,甚至可以在没有边界并且路面相同的停车场识别出哪个是可通行路线,哪个是停车位)、以及利用完整线索进行的车道规划等(当行驶道路上没有车道线时,保持车辆稳定行驶)。 Shashua 对于 Mobileye 在自动驾驶深度学习网络方面的能力十分自信,他认为做 demo 那 80%的工作非常简单,但如果想要做完后面的 20%,从 demo 到产品化,就像「 从一个男孩成长到男人」。 Mobileye 的商业逻辑和产品价值 虽然有着极强的人工智能和地图数据采集能力,但 Mobileye 并没有选择和谷歌站在统一战线,而是选择和那些传统的大型汽车厂商进行合作,这里面体现着 Mobileye 更加长远的计划和目标,我想原因有几个: … 继续阅读
玩算法的 Uber,居然像滴滴一样引入了接单模式
为了提高「 上座率」,Uber 在 App 中上线了一个新功能——目的地。如果司机要去特定的目的地,他可以将自己的目的地输进去,然后 Uber 的算法君就会指派给司机沿途的单子,并过滤掉那些迫使司机偏离他们路线的搭车请求。 这不仅使得司机可以更加灵活的想去哪儿就去哪儿,不用枯坐在一个地方等指派,也可以让更多的人成为 Uber 司机。比如我今天要去买菜,然后输入地址,算法君了解到也有个人要去那个地方买菜!正好,接了单子既能挣钱,也不耽误买菜。这提高了时间效率,让平常忙绿的开车族也可以轻而易举的加入 Uber,成为兼职司机。 目前,这个应用只在旧金山推广,在这之后,Uber 将会根据各地不同的地理需求,将此功能投入到更多的地方。 听起来是不是有点耳熟?司机的主动性更强了,虽说还是派单,但和滴滴打车的接单模式更加相像了。看来,Uber 也在不断学习其他搭车软件。毕竟,黑猫白猫,能抓老鼠的就是好猫。 不过,这不只是全部。 确切来说,Uber 一直在关注广大司机朋友的用户体验,他们用了一年时间了解了 100 位 Uber 司机的诉求。因为有些司机投诉说显示挣钱情况的条形图看不懂,Uber 改变了自己 App 中关于司机查询挣钱情况的设计。另外,有些司机抱怨有些管理方面的任务要在要在电脑上登录才可以进行,还有通过纸笔才能记录他们的收入情况。这些反馈,在重新设计数据分析时,Uber 公司都会加以参考。 不论是改变 App 的功能还是设计,Uber 无疑是为了增加普适性,做到可以跨文化、种族和地区,使更多人成为 uber 司机,从而扩大自身的市场。 原创声明: 本文为 GeekCar 原创作品,欢迎转载。转载时请在文章开头注明作者和「来源自 GeekCar」,并附上原文链接,不得修改原文内容,谢谢合作! 同时欢迎关注 GeekCar 微信公众号: GeekCar 极客汽车 (微信号:GeekCar)& 极市 (微信号:geeket)。