2021 年的科技圈被两件皮衣点燃。
一件来自 NVIDIA 老大黄仁勋的厨房专属款,老黄和他的皮衣仅用「数字人」技术实现的 14 秒画面,就把众多科技发烧友骗得团团转,「真假老黄」的故事层出不穷,发展到最后只能 NVIDIA 官方出来辟谣。
另一件是 8 月 20 日早,特斯拉 AI 日上马斯克穿的皮衣。难道你们不好奇吗,此时的美国也是夏天,与马斯克同台的伙计们都是牛仔裤加 T 恤的「程序员标配」,而老马本人却用一件皮衣把自己裹得严严实实。
我相信此时在看文章的小伙伴们都或多或少地了解了特斯拉发布的 Tesla Bot,一个身高 1.7m 的类人型机器人。所以我们可以进行一番大胆地猜测,没准三个月后就会出现一篇名为《马斯克骗过了全世界,藏在皮衣下面的竟是 Tesla Bot》的文章(开玩笑)。
言归正传,从「自动驾驶日」、「电池日」到今年的「AI 日」马斯克正在将特斯拉包装成一家彻头彻尾的人工智能解决方案公司,正如在谈及 Tesla Bot 时,马斯克表示他们对机器人项目抱有信心,毕竟从某种意义上讲,汽车也是机器人的一种。
比起上次马老板 28 分钟结束新款 Model S Plaid 的交付仪式,本次接近两个小时的直播真可谓「内容量有点大,你们忍一下」。而将所有内容理顺之后,我们得到了三个关键要素:
D1——赋予特斯拉赶超芯片大厂的能力;
FSD——云端神经网络深化纯视觉自动驾驶路线;
Tesla Bot——AI 的实体化形态
相信我,「AI」是一名身着皮衣的技术男口中最性感的名词,但当马斯克用这个词撩拨全世界技术宅的心弦时,你一定要冷静,毕竟大家认识马老板已经不是一天两天了,他的宏图愿景基本上是由一半「肺腑之言」加一半「荒诞情话」构成的。
这回特斯拉真的走「芯」了
在 AI 日之前,关于特斯拉 Dojo 超级计算机的讨论早已甚嚣尘上。让人意外的是,此次马斯克要讲述的不仅是 Dojo 超级计算机的故事,还有特斯拉自研的 D1 超级计算机新芯片。
D1 芯片的能力如何? 单个芯片算力为 362 TFLOPS,25 个芯片为一组,算力可以达到 9 PFLOPS,接口带宽为 36 TB/s。
Dojo 超级计算机何许人也?Dojo 是由 D1 芯片组(25 个为一组)组成的超级计算机,每个机柜可安放 120 个芯片组,理论算力达到 120x9PFLOPs=1080PFLOPs。
可能将上述数字罗列出来也无法让大家产生最直观的感受,所以我们找世界上最牛 X 的超级计算机来对比一下。目前世界第一的超算为日本的富岳为 442PFLOPs,特斯拉 Dojo 超级计算机的性能是它的两倍多。当然我们要强调的是理论算力,因为马斯克在社交平台上也直言 Dojo 面临的最大问题就是能耗,Project Dojo 能否完全落地也要看他们后续能否解决能耗问题。起码在 D1 模组的爆炸图上,我们能看到特斯拉在尝试新的散热技术。
从上述表格反馈的排名能看出,前四名超级计算机都属于「国家队级选手」,日本富岳排名第一,中国的神威太湖排名第四。特斯拉正在以「一企之力」实现他人「举国之力」完成的事情,如同 Space X 探索火星一样。
特斯拉推出 D1 之后,他们实现了与 NVIDIA 和谷歌等芯片业大佬的平起平坐。所以特斯拉入局超级计算机的目的是什么呢?
走视觉路线,马斯克是专一的
Dojo 意为「道场」,特斯拉组建 Dojo 超级计算机的目的之一是为给 FSD 的视觉感知自动驾驶路径提供一个进行「算法精进」的道场。
我们现在了解到的融合感知硬件的自动驾驶方案都是将主要算力集成在车端,这也是当激光雷达上车之后,大家都在「狂堆」车端算力的原因,感知硬件的冗余使得车规级 AI 芯片算力即将完成上千 TOPS 的突破。
特斯拉走的是完全视觉路径,车端感知硬件只有 8 颗摄像头,所以在车端 AI 芯片上特斯拉的算力的并不高,FSD 也不过 144TOPS。就目前的技术来看,视觉感知路线是更加考验 AI 能力和学习能力的自动驾驶解决方案。这也是众多车企和供应商选择激光雷达融合视觉感知的原因。
相比之下纯视觉识别是最为「拟人」的方案,车载 AI 需要通过摄像头拍摄到的画面判断出车辆行进录像中出现的其他车辆、行人、车道线甚至猫猫狗狗。因为技术难度过高,所以会出现特斯拉 FSD 将影子识别成车辆同时采取紧急制动的案例。采用激光雷达辅助视觉感知的方案能够在现阶段大幅避免错误判断,因为激光雷达可以向车端 AI 传输 3D 点云图像,拥有三维感知能力后自动驾驶系统可以更好地应对各类情况。
正是因为多数人认为纯视觉路线的制动驾驶系统过于考验 AI 的能力,所以大家转投融合感知路线,起码在这条路径下路面上的所有障碍物都是能够被识别到的,自动驾驶本就是个脆弱的行业,这个行业的每一次突破都必须有「万无一失」的保障。但马斯克偏不信这个邪,Dojo 的到来便是马斯克要一路到黑的决心。
Dojo 必定成为辅助 FSD 精进算法的利器,未来的视觉处理工作将由车端转移至云端。特斯拉的车载摄像头能够不间断地采集真实的道路数据,Dojo 超级计算机能够自动标记这些数据中的物体。过去,大型 AI 数据集通常需要手动标注并转由 AI 学习并认知,而 Dojo 将具备无监督学习算法,自主感知并标注道路情况。未来将会有更多数据通过 Dojo 反馈到云端的神经网络学习系统,实现自动驾驶算法主动迭代。
在纯视觉路径中,特斯拉将要搭建一套沟通车、云两端的完整体系,并且整套系统都是由特斯拉完全自研的。 很多人认为有激光雷达的加持后,融合感知路径的能力会在未来的一段时间里超越纯视觉路径。而云端神经感知网络就是特斯拉的反制手段,在 Dojo 超级计算机的加持下,FSD 将与其他竞争对手的产品再度拉开差距,但「功能突破」仍需要时间。
2019 年特斯拉发布 FSD HW3.0 的时候马斯克就表示,到 2022 年,特斯拉在全球将拥有 100 万台 Robot Taxi,而汽车也将成为创收工具。如今 2021 年已经过半,「渣男马」在 HW3.0 时代立下的 flag 还没实现,车端芯片 HW4.0 就要来了。
那么问题来了,HW3.0 的能力到头了吗?HW4.0 能够带来更多功能突破吗? 或许这些问题的答案都是否定的。道理如同蔚来 ET7 用 1000+TOPS 的算力平台为日后自动驾驶功能迭代来铺路一样,在伦理道德和法律法规的限制下,现在实现商业落地自动驾驶功能仍处在 L2 级水平,「解锁功能」受限不代表「技术迭代」受限。
不过,特斯拉解锁功能的路径与竞争对手的路径也大不相同,这点也与纯视觉路径相关。
过去三年里,我们看到了自动驾驶功能从 L2 到 L2+的演变,对于大多数提供解决方案的厂家来说,上述演变是通过硬件升级实现的「子功能落地」。具备单一车道的横向和纵向控制是基础 L2 的标准,硬件需要前视摄像头。增加侧后视视像头和侧后方毫米波雷达后,车辆便能够实现「变道辅助」这项子功能。所以 L2 到 L2+多是由子功能叠加实现等级突破。
但子功能叠加并不是特斯拉实现自动驾驶等级突破的路径。 特斯拉是将驾驶看作一件事来做的,L2 与 L5 的差距只是人类驾驶员监管力度上的差距。所以摆在他们面前的问题不是功能突破,而是如何让 AI 真正替代人类驾驶员。所以 Dojo 的落地很可能让纯视觉路线的特斯拉实现「代差级」飞跃。
Tesla Bot,马斯克的「荒诞情话」
Tesla Bot 究竟是用来干嘛的呢?说白了就是马斯克为了招人而讲出来的故事,大概意思就是「嘿哥们儿,你看我要做的东西牛 X 不?还不赶紧加入我们」。马斯克自己也在 AI 日之前明确表示过,这次活动在某种意义上也是场招聘会。
之所以说 Tesla Bot 荒诞,其中有两点原因:1. 类人型机器人技术难度奇高 2. 无商业化前景
要说技术难度有多高?这就不得不请出机器人领域的「象牙塔级企业」——波士顿动力,这是一家根本不考虑投资人利益而且缺乏与外界理性沟通的企业。有趣的是,波士顿动力在前几日也发布了一条双足类人型机器人的视频,视频中能看到该款机器人已经实现了双足平衡,在障碍物上奔跑也没有问题。大家虽然看到了类人型机器人的机械可行性,但看不到的是波士顿动力在背后投入的人力、物力、财力和时间。
波士顿动力也曾明确表示过,制造双足类人型机器人只是为了探究该类机器人平台和背后的控制逻辑。
为什么双足机器人商业化前景渺茫?因为机器人要与场景配套实现价值,只有在场景里机器人才能实现效率提升。
人类是通过双足行动的生物,也是大自然选择的行动方式。车是四个轮子的机器,但是车做不到全地形行驶,而人可以全地形行走。不过与车相比,人类的行走效率过低,所以人类发明了汽车,与汽车配套的场景是公路,为了实现交通工具的高效运转,人类可是花费了大量人力、物力修建公路。田地里的自动化农机、工厂里的自动化产线都是同理。
马斯克说 Tesla Bot 将代替人类做更多琐碎的事情,听上去好像这个机器人什么都能干,但仔细想想会发现,在任何场景下类人型机器人都很难超越人类的效率。更何况一碗米饭就能让一个正常的人类工作一下午,机器人消耗的能量会比人类还少吗?
可能很多事情马斯克自己再清楚不过,但是!对于那些技术极客来说,还有比打造一个「人类公敌」更让他们着迷的谎言吗?
结语
马斯克是这个时代里最「理性的渣男」,他做过很多令人匪夷所思的事,也吹过许多自己都无法圆场的牛皮。有人说他是「韭菜收割机」并对他嗤之以鼻,有人被他的疯狂圈粉到投身其中。此时连特斯拉电话会议都不参加的马斯克,或许又在酝酿一个大新闻。