無人駕駛, 真的能落地嗎?
人類研發(fā)無人駕駛,已經(jīng)消耗了無數(shù)的時(shí)間與資金。到了今天,事故頻發(fā)、燒錢無止境、進(jìn)度緩慢,引發(fā)了眾多不解與質(zhì)疑:無人駕駛是否是一場騙局,甚至,行業(yè)已死?
這個(gè)行業(yè),真的是我見過最分裂的行業(yè)之一,各個(gè)派系觀點(diǎn)各不相同、互相瞧不上、互相指責(zé),神仙打架之后,又各干各的,各踩各的坑,各倒各的閉,各花各的錢。
結(jié)果就是,在2024年之前,無人駕駛走入了寒冬。
但這個(gè)寒冬,隨著馬斯克號稱“通過端到端AI技術(shù)“重構(gòu)了特斯拉的FSD,并宣布要進(jìn)軍無人駕駛出租車(Robotaxi),似乎又出現(xiàn)了一些新的生機(jī)和希望。
端到端能否帶領(lǐng)我們走向真正的無人駕駛呢?自動駕駛中定義的L2與L4之間真的相隔甚遠(yuǎn)嗎?如今無人駕駛技術(shù)發(fā)展到哪一步了?純視覺與多模態(tài)之爭,真的沒有盡頭嗎?
為了探究無人駕駛行業(yè)到底發(fā)展如何,我們歷時(shí)3個(gè)月,采訪了全球市場上最前沿的無人駕駛公司,包括Waymo,Cruise的前核心員工、前特斯拉FSD工程師、一二級市場投資人等多達(dá)十多位自動駕駛界的專業(yè)人士。
我們發(fā)現(xiàn)這個(gè)行業(yè)依然割裂,很多技術(shù)路線業(yè)內(nèi)并沒有達(dá)成共識。
這個(gè)系列文章我們將從感知、算法、產(chǎn)品、運(yùn)營、經(jīng)濟(jì)、法律等多個(gè)角度,全方位一起來探討如今的自動駕駛技術(shù)的最前沿現(xiàn)狀。
本期文章我們先全面聊聊技術(shù),下期會從運(yùn)營與經(jīng)濟(jì)角度解析。
一、自動駕駛是什么?
我們先來做個(gè)概念區(qū)分:無人駕駛和自動駕駛的區(qū)別是什么?
根據(jù)智能化程度的不同,自動駕駛被分為L0到L5共6個(gè)等級:
L0為無自動化,L1指駕駛輔助,L2指部分自動駕駛,L3指有條件自動駕駛,L4指高度自動駕駛,L5指完全自動駕駛,即真正的無人駕駛。
我們之后提到的Waymo和Cruise,以及侯曉迪做的無人卡車都屬于L4級別,特斯拉FSD屬于L2級別,但馬斯克號稱的特斯拉Robotaxi,卻是L4級別的。
所以,目前在這個(gè)產(chǎn)業(yè)中,人們說無人駕駛,一般指的是L4的公司,因?yàn)楝F(xiàn)在還沒人能做到L5;而一般說自動駕駛,則是包括了所有級別,是更泛的一個(gè)稱呼。
我們再來看看自動駕駛產(chǎn)業(yè)是怎么開始的。
盡管早在100年前人類就開始探索無人駕駛,但公認(rèn)現(xiàn)代自動駕駛正式起源于2004年美國軍方的DARPA挑戰(zhàn)賽。
經(jīng)過幾年發(fā)展后,形成了感知(Perception)-規(guī)劃(Planning)-控制(Control)這樣的運(yùn)行鏈路。其中感知模塊包含了感知(Perception)和預(yù)測(Prediction)。
感知層需要通過雷達(dá)、攝像頭等傳感器獲取前方路況,并預(yù)測物體的運(yùn)動軌跡、實(shí)時(shí)生成一張周圍環(huán)境的地圖,也就是我們在車機(jī)上常見的鳥瞰圖,再將這些信息傳遞給規(guī)劃層,由系統(tǒng)根據(jù)算法來決定速度與方向,最終再下放到執(zhí)行控制層,控制對應(yīng)的油門、制動和轉(zhuǎn)向機(jī)。
后來隨著AI的興起,人們開始讓機(jī)器自己去學(xué)習(xí)如何開車,先讓算法到仿真的數(shù)字世界里開車,等仿真訓(xùn)練到一定程度,就可以開始上路測試。
而最近這兩年,隨著特斯拉將“端到端”方案應(yīng)用在FSD V12的版本中,感知-規(guī)劃-控制的運(yùn)行鏈路也開始改變。
接下來我們著重來聊聊自動駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線:純視覺派與多模態(tài)融合派,這兩個(gè)派別在過去很多年一直在打架,各說各的好,我們來講講它們的恩怨情仇。
二、感知篇:純視覺Vs.多模態(tài)融合
目前汽車主流的感知方案分為兩種。
第一種是不少公司采用的多模態(tài)融合感知方案,會將激光雷達(dá)、毫米波雷達(dá)、超聲波傳感器、攝像頭、慣性測量單元等傳感器采集的信息進(jìn)行匯總?cè)诤?,來判斷周圍環(huán)境。
回到我們上一章說到的DARPA挑戰(zhàn)賽,2004年第一屆中,雖然沒有任何一輛車完賽,但一位名叫David Hall的參賽者在比賽中意識到了激光雷達(dá)的重要性,在比賽結(jié)束后,他創(chuàng)辦的Velodyne開始從做音響轉(zhuǎn)向做激光雷達(dá)。
當(dāng)時(shí)的激光雷達(dá)還是單線掃描,只能對一個(gè)方向測距,而David Hall發(fā)明了64線機(jī)械旋轉(zhuǎn)式激光雷達(dá),可以360度掃描環(huán)境。
后來他帶著這臺旋轉(zhuǎn)式的激光雷達(dá),參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺頭頂著5個(gè)激光雷達(dá)的車完賽并取得了冠軍。
但這并不是David Hall的車……他的車輛中途因機(jī)械故障退賽了,不過他的表現(xiàn)確實(shí)讓大家意識到了,激光雷達(dá)、是個(gè)“外掛”。
到了2007年第三屆DARPA挑戰(zhàn)賽中,完賽的6支隊(duì)伍中,5只都用到了Velodyne的激光雷達(dá)。至此,激光雷達(dá)開始成為自動駕駛界的香餑餑,Velodyne也成為了車載激光雷達(dá)的龍頭企業(yè)。
張航(Cruise高級主任科學(xué)家):
現(xiàn)在不管是Cruise、Waymo,基于L4在做的一些解決方案,都是基于激光雷達(dá)為主了,它可以直接拿到位置信息,這樣的話對于算法本身的要求,就是相對會比較低一些,然后很多可以直接通過傳感器來拿到這些3D的信息,這樣對系統(tǒng)的魯棒性,還有對于安全性,一些長尾問題會比較輕松。
另一個(gè)技術(shù)派別就是以特斯拉為代表的純視覺方案了,只靠攝像頭采集環(huán)境信息,然后利用神經(jīng)網(wǎng)絡(luò),將2D的視頻轉(zhuǎn)換成3D的地圖,其中就包含了周邊環(huán)境的障礙物、預(yù)測的軌跡、速度等信息。
相比激光雷達(dá)方案直接生成3D地圖,純視覺多了一道2D轉(zhuǎn)3D的過程,在張航看來,純靠“視頻”這種缺乏3D信息的訓(xùn)練數(shù)據(jù),會給安全性帶來一定挑戰(zhàn)。
張航(Cruise高級主任科學(xué)家):
它需要大量的訓(xùn)練數(shù)據(jù)去學(xué)出缺乏3D的信息,這樣的話缺乏監(jiān)管,因?yàn)闆]有一個(gè)參照物,很難去拿到一個(gè)現(xiàn)實(shí)中的一個(gè)ground truth(真值數(shù)據(jù)),如果完全通過這種半監(jiān)督的學(xué)習(xí)方法,想要達(dá)到系統(tǒng)的一個(gè)安全性,我覺得是比較難的。我覺得特斯拉主要目的還是控制成本,包括修改一些換擋的機(jī)制,都是為了節(jié)約一些零部件方面的成本。
但在特斯拉的前AI工程師于振華看來,選擇純視覺并不只是節(jié)約成本那么簡單。
1. 多即是亂?
于振華(前特斯拉AI工程師):
其實(shí)特斯拉原來的自動駕駛系統(tǒng)是有毫米波雷達(dá),傳感器融合其實(shí)是一個(gè)很復(fù)雜的算法,就是它做出來了并不一定好。
我當(dāng)時(shí)有一輛車,是最后一批有毫米波雷達(dá)的車。在2023年的時(shí)候,我的車進(jìn)行了一次保養(yǎng),服務(wù)工程師就自動把我的雷達(dá)給去除了。這一件事情的結(jié)論是什么呢?去掉毫米外雷達(dá)不是為了成本,因?yàn)槲业能囈呀?jīng)有毫米波雷達(dá)在那放著了。根源的原因是純視覺已經(jīng)勝過毫米波雷達(dá)了。所以特斯拉是在做減法,把一些他認(rèn)為不需要的冗余的事情去掉,或者說累贅的事情去掉。
于振華認(rèn)為,如果融合算法做不好,或者通過純視覺就已經(jīng)能達(dá)到足夠好的效果了,那更多傳感器反而成為累贅。
接受我們采訪的很多L4從業(yè)者也同意,信息并不是越多越好,反之,傳感器收集到的太多額外的無效信息會加劇算法的負(fù)擔(dān)。
那么馬斯克一直倡導(dǎo)的光靠攝像頭這一種傳感器,到底行不行呢?
2. 少即是多?
馬斯克說,既然人類僅通過兩只眼睛就能開車,那么汽車也可以僅憑圖像信息來實(shí)現(xiàn)自動駕駛,但業(yè)內(nèi)對于純視覺派的擔(dān)心一直是,視覺欺騙,在過去這確實(shí)帶來了不少事故。
比如特斯拉將白色卡車識別為天空、把月亮識別為黃燈,又或者理想將廣告牌上內(nèi)容識別為汽車,導(dǎo)致高速急剎追尾等事故。
這些案例是否意味著,少了深度信息的純視覺方案,存在先天性不足呢?
于振華(前特斯拉AI工程師):
多個(gè)信息流確實(shí)能提供更多的信息,但是你要解答一個(gè)問題,難道攝像頭本身的信息不夠嗎?還是算法挖掘信息的算法能力不足?
比如說緊急剎車、在城市道路的時(shí)候有頓挫感,其實(shí)根源就是它對周圍物體的速度估計(jì)、它的角度估計(jì)不足,如果是這個(gè)原因,那確實(shí)激光雷達(dá)要比攝像頭好很多,因?yàn)樗軌蚪o你提供更直接的信息,就是攝像頭本身其實(shí)也給你信息了,只不過我們的算法不足夠好,能夠挖掘出這樣的信息。
于振華不認(rèn)為視覺欺騙的根本原因是攝像頭的信息不足夠,而是算法不足以處理或挖掘攝像頭給的信息。他認(rèn)為,特別是在特斯拉FSD V12算法的推出后,更證明了當(dāng)算法得到了巨大優(yōu)化,攝像頭信息的挖掘和處理就得到了顯著進(jìn)步。
于振華(前特斯拉AI工程師):
今天的FSD V12它不是完美的,有很多的問題,但是我到目前為止沒有發(fā)現(xiàn),哪一個(gè)問題是由于傳感器不足。當(dāng)然在V12之前確實(shí)很多是由于傳感器不足,但是今天V12是沒有這個(gè)問題。
但是,L4的從業(yè)人員就有不同的觀點(diǎn)了。他們認(rèn)為攝像頭就是有天然劣勢的。
張航(Cruise 高級主任科學(xué)家):
我個(gè)人覺得是有難度的,我覺得不一定是算法本身的問題。
首先這個(gè)攝像頭本身不像人眼這么復(fù)雜,每個(gè)攝像頭它有一些參數(shù),它有它的局限性。
然后就是算法本身的話,人不需要知道200米范圍內(nèi)所有的車的動向都在哪里,我只需要知道哪幾輛車、哪幾個(gè)行人可能影響到我的車的行為,我只關(guān)注在這幾個(gè)點(diǎn)上就夠了,我也不需要很大的算力,可能短期不能夠通過算法來達(dá)到這個(gè)高度,我覺得激光雷達(dá)才作為是一個(gè)方式的補(bǔ)充吧。
從事L4研究的張航認(rèn)為攝像頭無法與人眼媲美,主要原因在于攝像頭的焦距和像素是固定的,而人眼的精度非常高而且可以自動變焦。同時(shí)人類跳躍式的思考模式,短期內(nèi)無法應(yīng)用在計(jì)算機(jī)上,所以使用激光雷達(dá)才能補(bǔ)充攝像頭的缺陷。
但市面上也有其他的看法,認(rèn)為除了視覺信息,其他傳感器也會帶來干擾信息。
比如說,激光雷達(dá)也存在自己的缺陷,由于是通過激光測距,在面對一些反射物體、雨雪天氣,或者其他車發(fā)射的激光時(shí),會對激光雷達(dá)帶來干擾,最終造成幻覺效應(yīng)。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我是非常堅(jiān)定的純視覺派,這個(gè)世界的道路都是給人和視覺設(shè)計(jì)的,也就是說除了視覺之外,你采集的信息你可以認(rèn)為都是干擾,當(dāng)然你可以采集,但是那些信息提供的干擾,和它提供的真正價(jià)值,到底是什么樣的分布?我覺得在視覺越做越好的情況下,可能是完全相反的。
如果能做好多傳感器融合算法,讓激光雷達(dá)與圖像信息互相驗(yàn)證,或許會讓系統(tǒng)的安全性進(jìn)一步提升。
侯曉迪提出了一個(gè)形象的比喻:兩個(gè)同等水平的學(xué)霸在考試時(shí),最終一定是使用計(jì)算器的學(xué)霸更輕松,只是經(jīng)濟(jì)基礎(chǔ)決定了買不買得起計(jì)算器而已。
選擇純視覺還是以激光雷達(dá)為主的多模態(tài)融合方案,這個(gè)辯論已經(jīng)持續(xù)了數(shù)年,并且似乎短期內(nèi)不會有答案。或者對一些創(chuàng)業(yè)公司來說,什么路線根本也沒那么重要,而成本和經(jīng)濟(jì)賬才是最重要的。
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我曾經(jīng)被認(rèn)為是視覺派的,是因?yàn)楫?dāng)時(shí)買不到激光雷達(dá),所以逼著我們不得不去在視覺上多去找解決方案。
我也不反對激光雷達(dá),激光雷達(dá)什么時(shí)候便宜了,我第一個(gè)去排隊(duì)。現(xiàn)在激光雷達(dá)確實(shí)便宜了,所以我也在排隊(duì)買激光雷達(dá),對我來講就是,抓住耗子的都是好貓。只要這個(gè)設(shè)備的成本足夠低,只要這個(gè)設(shè)備能從信息論意義上,給我們提供足夠有價(jià)值的信息,我們就該去用它。
大衛(wèi)(《大小馬聊科技》主播):
中國的自動駕駛?cè)芸斓鼐桶堰@些硬件,比如說激光雷達(dá)、毫米波雷達(dá),做成了白菜價(jià)。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺?其實(shí)很多公司現(xiàn)在就在猶豫了,那我是1000多塊錢買一個(gè)固態(tài)激光雷達(dá),還是我用純視覺,但是對算力上會造成很大的浪費(fèi)。
于振華(前特斯拉AI工程師):
我覺得?1000塊錢太貴了,特斯拉連雨量傳感器都不舍得用。
王辰晟(前特斯拉采購總監(jiān)):
但是我覺得隨著供應(yīng)鏈的規(guī)模的上升,成本的大幅下降,在激光雷達(dá)能做到和攝像頭相似的價(jià)格的時(shí)候,特別是在端到端的這樣一個(gè)應(yīng)用場景下,是不是純視覺還是一個(gè)唯一的路徑?
3. 幡然悔悟?
有意思的是,隨著激光雷達(dá)價(jià)格大幅下降,業(yè)內(nèi)開始對特斯拉即將發(fā)布的無人駕駛出租車,是否會用上激光雷達(dá)產(chǎn)生了分歧。
比如張航就認(rèn)為,由于Robotaxi沒有人類干預(yù),而且出了事需要企業(yè)負(fù)責(zé),特斯拉可能會選擇更保守的路線,會用上曾經(jīng)瞧不起的激光雷達(dá)。
張航(Cruise 高級主任科學(xué)家):
特別是它需要去為企業(yè)事故負(fù)責(zé)的時(shí)候,它需要更加保守,我覺得可能需要一個(gè)額外的傳感器。從這個(gè)角度看的話,Tesla可能會采取一些它之前鄙視的技術(shù),只要這個(gè)東西有用,能達(dá)到它L4的目的,它會逐漸去采用的。
最近我們也發(fā)現(xiàn)特斯拉在做這個(gè)L4、L5的一些方面也在考慮,他也在跟這個(gè)激光雷達(dá)的一些廠商也在聊一些合作,所以說可能就是大家殊途同歸。
今年激光雷達(dá)制造商Luminar發(fā)布了第一季度的財(cái)報(bào),顯示特斯拉的訂單達(dá)到了10%,成為了其最大客戶。而于振華卻不以為然,認(rèn)為這并不是什么新鮮事。
于振華(前特斯拉AI工程師):
首先它肯定不是為了以后量產(chǎn)車上使用激光雷達(dá),因?yàn)長uminar第一季度總收入好像是2000萬美元,10%就是200萬,也不夠裝幾個(gè)激光雷達(dá)。其實(shí)特斯拉的工程車、測試車上裝激光雷達(dá),也不是什么秘密了,那個(gè)激光雷達(dá)就是用來采集訓(xùn)練神經(jīng)網(wǎng)絡(luò)的ground truth(真值數(shù)據(jù)),因?yàn)槿斯o法標(biāo)注那個(gè)物體距離你有幾米,必須要用專門的傳感器來標(biāo)注。
但是Lumina為什么在第一季度披露這件事,我其實(shí)也非常疑惑,因?yàn)轳R斯克也當(dāng)時(shí)就回應(yīng)了,說我們在V12了之后,我們不需要真值數(shù)據(jù)了,因?yàn)槎说蕉肆耍加镁W(wǎng)絡(luò)是V11時(shí)代的事情,我可能是覺得這里面有一些誤解,就是從財(cái)報(bào)上或者財(cái)務(wù)規(guī)則上。
雖然目前不確定特斯拉即將推出的Robotaxi是否會搭載激光雷達(dá),但有一點(diǎn)可以確定的是,以目前特斯拉的感知配置,安全性還不足以達(dá)到L4或者能運(yùn)營Robotaxi的程度。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),就是視覺不可達(dá)的盲區(qū),而這個(gè)盲區(qū)就造成,如果他想實(shí)現(xiàn)最終的,不管是L4、L5的自動駕駛,他的下一款車一定需要解決這個(gè)盲區(qū)問題。
特斯拉最新的端到端技術(shù)更新,以及10月將公布的Robotaxi細(xì)節(jié)猜測,我們會在第三和第四章節(jié)再詳細(xì)拆解。接下來我們先探討感知上的另外一個(gè)重要的技術(shù):高精地圖。
4. 歷久彌新?
除了激光雷達(dá)外,高精地圖也是自動駕駛感知端中的成本大頭。
高精地圖就是提前采集道路信息,降低感知模塊繪制3D地圖的壓力,并提高準(zhǔn)確性。
說來也巧,最早推行高精地圖的人,正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個(gè)頭頂了5臺激光雷達(dá)的車主,Sebastian Thrun。
在2004年DARPA挑戰(zhàn)賽時(shí),谷歌正在籌備“街景”項(xiàng)目,谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場去物色人才,在2005年比賽結(jié)束后,Page找上了Sebastian Thrun,邀請他加入谷歌,并將繪制地圖的工作交給了他。
在這個(gè)過程中,Thrun和Page突然意識到,如果有一種能精確記錄所有車道線、路標(biāo)、信號燈等道路信息的地圖,那將對無人駕駛帶來巨大的幫助,這也奠定了高精地圖在無人駕駛項(xiàng)目中的重要地位。
但是,制作高精地圖非常昂貴,自動駕駛公司采集高精地圖的平均成本大約為每公里5000美元,如果要覆蓋全美660萬公里的道路,光是采集成本都達(dá)到了33億美元。
再加上地圖頻繁的維護(hù)成本,最終消耗將是無法想象的天文數(shù)字。
現(xiàn)在已經(jīng)有不少車企,紛紛宣傳舍棄高精地圖的無圖方案,轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。
我們匿名采訪的一位自動駕駛工程師對此表示,這些對比宣傳更多的是出于商業(yè)模式的考量,對于做Robotaxi生意的企業(yè),用上高精地圖能增加安全性,而對于車企來說,舍棄高精地圖能有效降低成本,所以并不意味著舍棄高精地圖技術(shù)水平就會更高。
匿名受訪者(L4工程師):
華為還有理想,他們的解決方案是量產(chǎn)車,客戶可能是來自各種城市,你要在任何城市都能開。
那現(xiàn)在主流的這個(gè)高精地圖,它的這個(gè)主要的門檻在于,它需要有一個(gè)地圖采集的過程,這個(gè)地圖采集的過程實(shí)際上是相對來說比較花時(shí)間、人力成本的,然后他也需要專業(yè)的這個(gè)地圖采集設(shè)備。
所以如果是做這個(gè)量產(chǎn)車的生意的話,你不可能說我專門有一個(gè)地圖采集車,我把全中國都給你跑遍了,這個(gè)是不現(xiàn)實(shí)的。
像特斯拉、華為、理想等L2的公司拋棄高精地圖,是因?yàn)闊o法覆蓋每一條大街小巷。
而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖,因?yàn)樗麄儼l(fā)現(xiàn),只需要覆蓋一些關(guān)鍵的城市,就能拿下足夠的市場了。
所以,是否使用高精地圖成為了Robotaxi公司的經(jīng)濟(jì)賬問題,而不是技術(shù)問題。
Minfa Wang(前Waymo高級機(jī)器學(xué)習(xí)工程師):
如果你單看Robotaxi的商業(yè)模式,把美國Robotaxi的需求來劃分,你會發(fā)現(xiàn)前五大的城市,它已經(jīng)占有了全美一半的商業(yè)體量,你不需要讓它在全美任何一個(gè)地方都能跑,其實(shí)你就已經(jīng)有一個(gè)相當(dāng)大的一個(gè)市場了。
類似地,我們采訪的另一位做L4自動駕駛卡車的嘉賓也分享到,他們?nèi)绻獢U(kuò)大運(yùn)營線路,也就是擴(kuò)充高精地圖的覆蓋范圍,得先衡量這條線路是否賺錢,否則只是賠本賺吆喝。
這么一圈聊下來,在感知端上,業(yè)內(nèi)也沒有統(tǒng)一的看法,就像侯曉迪說的一樣,抓到耗子就是好貓。
接下來,我們重點(diǎn)聊聊大家最近非常關(guān)注的自動駕駛算法層面的最近進(jìn)展,特別是特斯拉近來大肆宣揚(yáng)的“端到端”,到底是什么技術(shù)呢?它真會改變自動駕駛的行業(yè)方向嗎?
三、算法篇:端到端是自動駕駛的未來嗎?
1. 何為傳統(tǒng)?
傳統(tǒng)的自動駕駛的運(yùn)行鏈路是先感知、預(yù)測,再規(guī)劃,最后控制。
感知模塊要先通過攝像頭、雷達(dá)等傳感器,識別道路,把這些信息翻譯成機(jī)器能看到的語言,傳遞給預(yù)測模塊。
預(yù)測模型就會判斷其他車輛、行人的行駛軌跡,再把這些信息傳遞給規(guī)劃模塊,去找出風(fēng)險(xiǎn)最低的一條路,最后再將控制信號傳遞給操控系統(tǒng)。
這時(shí)的算法主要靠“規(guī)則庫”(Rule base)來驅(qū)動,工程師需要不斷寫入各種規(guī)則,比如遇到行人得減速、遇到紅燈要停車等,為了考慮到各種情況,規(guī)則庫就得盡可能覆蓋到各種可能,相應(yīng)地,代碼也非常非常長了。
這樣的算法有哪些難點(diǎn)呢?
最大的問題就在于,系統(tǒng)被劃分成了不同的模塊,但模塊之間的信息傳輸會有所損失,如果下游無法拿到全面的信息,預(yù)測和規(guī)劃的難度就會增加。
舉個(gè)淺顯易懂的例子,大家都聽過多人傳話游戲吧?10個(gè)人,從頭到尾傳遞一句話,但經(jīng)常這段話經(jīng)過多人傳遞的過程,細(xì)節(jié)就會被丟失或篡改,以至于到達(dá)最后一個(gè)人那里的時(shí)候意思就大相徑庭了。
類似地,在傳統(tǒng)的Rule-based模式下,如果上一層模塊做得不夠好,會影響到下一層的表現(xiàn)。
另一個(gè)缺點(diǎn)是,規(guī)則都是由人工設(shè)計(jì)定義的,但有限的規(guī)則無法覆蓋無限可能的現(xiàn)實(shí)情況,一些不常見且容易被忽略的問題,機(jī)器難以拿出對應(yīng)的解決方法,這被稱為“長尾問題”(long tail case),也叫“極端情況”(corner case),這就會導(dǎo)致規(guī)?;涞氐某杀痉浅8?。
于振華(前特斯拉AI工程師):
還有一個(gè)就是,在分兩個(gè)模塊的時(shí)候,我認(rèn)為這個(gè)技術(shù)是很難規(guī)?;?,為什么呢?你每次要在一個(gè)現(xiàn)實(shí)的復(fù)雜場景中新加一個(gè)任務(wù),那么你就要新加一些接口,你就要去改變感知、改變控制規(guī)劃。
比如說特斯拉,前幾年NHTSA(美國交通安全管理局)要求特斯拉能夠檢測到緊急車輛,比如說消防車、救護(hù)車之類的,在感知上你就要求要檢測這個(gè),然后控制規(guī)劃也要做這個(gè),這只是一個(gè)任務(wù),可能會成百上千這樣的任務(wù),你要去規(guī)?;?,所以說在華為你們知道有幾千個(gè)工程師?大概是6000個(gè)工程師,因?yàn)槟銜羞@么多不斷涌現(xiàn)的新的任務(wù)出現(xiàn),環(huán)境越復(fù)雜任務(wù)越多,我認(rèn)為這不是一個(gè)可規(guī)?;哪J?。
大衛(wèi)(《大小馬聊科技》主播):
那這種方法還是比較老套,雖然說看起來,如果做Robotaxi行業(yè)是比較靈的一個(gè)方法論,但是它不能滿足乘用車、幾百上千萬臺車將來在全世界的路面上行駛。
那有什么辦法能解決這些問題呢?這時(shí)候就得聊聊“端到端”(End To End)了。
2. 新超級明星
在自動駕駛領(lǐng)域內(nèi),目前主流的“端到端”定義是:傳感器收集到的信息,不加任何處理傳遞給基于神經(jīng)網(wǎng)絡(luò)的大模型,并直接輸出控制結(jié)果。
也就是說,不再需要人為編寫各種規(guī)則,讓算法跟著投喂的數(shù)據(jù),自己學(xué)會如何開車。
于振華(前特斯拉AI工程師):
因?yàn)槲覀內(nèi)祟愰_車,我們腦子里并不是去判斷某輛車的速度和角度的,你就是通過一個(gè)復(fù)雜環(huán)境來下意識地來做出你的決策。
“讓算法更像人,因?yàn)槿司褪沁@樣運(yùn)轉(zhuǎn)的”這樣的思考邏輯,正是馬斯克帶領(lǐng)特斯拉的前進(jìn)方針,也不奇怪,為什么“端到端”技術(shù)在自動駕駛里并不新,卻是被特斯拉第一個(gè)做出來的。
雖然2023年底,特斯拉才第一次將用上了“端到端”的FSD V12推出,但在自動駕駛界,“端到端”并不是什么新鮮事。其實(shí)早在2016年,英偉達(dá)就有論文提出了“端到端”。
而現(xiàn)在,“端到端”也分為兩種,一種是把部分模塊替換成神經(jīng)網(wǎng)絡(luò),這種分模塊的“端到端”,只是一種過度形式,并不是完全體,因?yàn)楦鱾€(gè)模塊之間要傳遞信息,依然要定義各種接口,造成數(shù)據(jù)損失。
在主流觀點(diǎn)中,只有將多個(gè)模塊融為了一個(gè)整體,去掉了感知層、預(yù)測層、規(guī)劃層這樣的定義,才算純正的“端到端”。
2023年,CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出,過去的“端到端”要么只運(yùn)行在部分模塊上,要么需要在系統(tǒng)中插入一些組件。
而這篇論文提出了UniAD的模型架構(gòu),是首次將所有的感知、預(yù)測、規(guī)劃模塊,都整合到了一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下。
相比傳統(tǒng)Rule-based(規(guī)則驅(qū)動)的執(zhí)行鏈路,“端到端”不再需要算法工程師去反復(fù)完善規(guī)則庫,所以才有了馬斯克發(fā)布FSD V12時(shí),宣稱“其代碼從30萬行縮減到了2000行”。
雖然自動駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的,但特斯拉確實(shí)是第一家公司把神經(jīng)網(wǎng)絡(luò)“端到端”技術(shù)做出來并推向主流市場的。
3. “端到端”優(yōu)勢
2023年11月,特斯拉發(fā)布了FSD V12第一個(gè)測試版本,但僅向選定的員工開放。到了2024年初,特斯拉開始將FSD V12版本開放給美國所有特斯拉車主,每位車主都有1個(gè)月的免費(fèi)試用權(quán)限。
FSD V12推出后,一時(shí)間掀起了軒然大波,從用戶體驗(yàn)上,我們看到大部分的輿論都認(rèn)為比之前的特斯拉FSD功能進(jìn)步非常大,甚至很多人都認(rèn)為,這是自動駕駛界的“ChatGPT Moment”。
大衛(wèi)(《大小馬聊科技》主播):
真正讓我覺得進(jìn)步的就是規(guī)劃,比如說過環(huán)島,因?yàn)檫@個(gè)過環(huán)島其實(shí)是在傳統(tǒng)的 planning方向上面是挺難做的,因?yàn)槟闱懊娴能囈尤?,你還要出環(huán)島,這中間如何設(shè)置這種優(yōu)先級?
你即使設(shè)置優(yōu)先級,那你跟前車和旁邊的車保持多少的距離才能出去,這是一個(gè)其實(shí)挺復(fù)雜的邏輯,但是這個(gè)在新版的FSD上表現(xiàn)確實(shí)讓我覺得很驚艷,這是給我一個(gè)很大的驚喜。
不少體驗(yàn)過FSD V12的人表示,這個(gè)通過人類駕駛數(shù)據(jù)來學(xué)習(xí)的系統(tǒng),駕駛風(fēng)格非常像人,不再有機(jī)械式算法帶來的頓挫感。
但與此同時(shí),也有嘉賓在體驗(yàn)后認(rèn)為,FSD V12還沒有好到讓人非用不可,與L4之間還存在一定差距。
莫傑麟(Justin)(某家族辦公室首席投資官):
但是它沒有好到GPT4的那個(gè)時(shí)刻,就沒有好到說這個(gè)東西讓我必須得用,或者說我立馬就要用,能夠適合在我的很多的場景里面去用。
Minfa Wang(前Waymo高級機(jī)器學(xué)習(xí)工程師):
高速路相對它的表現(xiàn)還是比較好的,但在街道上,我覺得基本上每開5英里左右就需要人工接管一次。
尤其是在那種我們叫unprotected left turn(無保護(hù)左轉(zhuǎn)),它還是比較容易做一些,讓我覺得不是很安全的行為,如果你MPI(接管里程數(shù))只有5的話,那么顯然離L4的自動駕駛還有一定的距離。
我自己也體驗(yàn)了一下FSD 12.4.4的版本,和Waymo這類L4的車輛比起來,目前的特斯拉FSD依然在某些時(shí)候會嚇我一跳,或者有時(shí)候表現(xiàn)出莫名其妙的行為。
比如在一個(gè)右轉(zhuǎn)彎時(shí),由于它的轉(zhuǎn)彎半徑太大,差點(diǎn)撞到對向來車,我不得不手動接管。
從表現(xiàn)上來看,“端到端”的FSD V12依然還有進(jìn)步的空間,而從工程、運(yùn)營和管理角度來看,“端到端”的優(yōu)勢有三點(diǎn):
第一,能讓系統(tǒng)整體更簡潔。去掉規(guī)則庫后,只需要不斷補(bǔ)充訓(xùn)練案例,即可進(jìn)一步提升模型表現(xiàn),維護(hù)和升級成本也將大幅降低。
第二,節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫,因此不必配備龐大的開發(fā)團(tuán)隊(duì),甚至不再依賴專家。
第三,能實(shí)現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運(yùn)行,拋開法規(guī)牌照的限制,是因?yàn)榉恰岸说蕉恕狈桨?,需要針對具體地區(qū)做優(yōu)化,而“端到端”各路況都能應(yīng)對,更像一個(gè)“通用”的司機(jī),這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。
既然“端到端”有如此多的優(yōu)勢,它能解決目前自動駕駛面臨的技術(shù)問題嗎?
4. 黑盒模型
我們采訪的不少嘉賓認(rèn)為,在現(xiàn)階段,進(jìn)一步發(fā)展端到端的路線是自動駕駛領(lǐng)域內(nèi)公認(rèn)的趨勢,但依然存在不少問題。
張航(Cruise 高級主任科學(xué)家):
這個(gè)方向我覺得是一個(gè)正確的方向,我們不可能通過一直在以打補(bǔ)丁的方式,來做出一個(gè)規(guī)?;腖4方案,只不過是目前我覺得要快速地達(dá)到一個(gè)L4的方案,也不可能完全通過端到端的方案,所以現(xiàn)在是一個(gè)矛盾的一個(gè)時(shí)間點(diǎn)。
為什么目前的端到端距離L4還有一定差距,這就要從它的不確定性說起了。
端到端就像一個(gè)黑盒子,會帶來較多的不確定性。
比如工程師無法驗(yàn)證,輸入的數(shù)據(jù)案例是否已經(jīng)被模型學(xué)會;或者遇到bug時(shí),無法定位到底是哪個(gè)環(huán)節(jié)出了問題;又或者新加入的數(shù)據(jù),是否會導(dǎo)致已學(xué)到的知識被遺忘或覆蓋,這種情況被稱為Catastrophic Forgetting(災(zāi)難性遺忘)。
比如特斯拉FSD 12.4.2的版本,內(nèi)部早就做出來了,結(jié)果大規(guī)模推送卻花了很長時(shí)間,馬斯克就解釋道,因?yàn)橥段沟臄?shù)據(jù)中有很多人工接管的視頻,反而讓模型的水平出現(xiàn)了倒退。
由于端到端的本質(zhì)是模仿,如果遇到的情況恰好在訓(xùn)練數(shù)據(jù)中有相似的案例,那就會表現(xiàn)得非常好,但如果超出了已有的參考案例,則會表現(xiàn)更差,也就是說,端到端對訓(xùn)練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。
張航(Cruise高級主任科學(xué)家):
就是在交通路口紅燈的時(shí)候,一定不闖紅燈,就這么一個(gè)簡單的規(guī)則,如果是heuristic-based(啟發(fā)式的算法),我們可以很簡單的就是一條 if else,就可以達(dá)到這樣一個(gè)效果。
但是如果是一個(gè)完全端到端的模型,它是完全靠學(xué)習(xí)的,最后他要學(xué)的這樣一條路的話其實(shí)是非常難的。所以我覺得短時(shí)間內(nèi)端到端對L4,還是有很大的差距,我覺得這個(gè)算法是不成熟。
劉冰雁(Kargo軟件負(fù)責(zé)人):
你沒有一些硬性規(guī)則,就是所有的、你設(shè)置的這種不能做的事情,他都可以嘗試去做一下。于是會在模擬里邊出現(xiàn)很多一頭撞過去的現(xiàn)象。
同時(shí),端到端帶來的不可解釋性,也是一些人擔(dān)心的問題。
所謂的不可解釋性,就是改變其算法模型中的任意一個(gè)權(quán)重、節(jié)點(diǎn)或?qū)訑?shù),都會讓模型的表現(xiàn)產(chǎn)生難以預(yù)測的影響,即使是模型的設(shè)計(jì)者和訓(xùn)練者,也無法知道中間的推理過程。
與之相對的是可解釋性,比如在Rule-based的模式下,工程師已經(jīng)寫入了“當(dāng)檢測到塑料袋飄過時(shí)可以繼續(xù)行駛”的規(guī)則,那我們就不用擔(dān)心遇到這種情況會突然來個(gè)急剎車。
劉冰雁(Kargo軟件負(fù)責(zé)人):
大家看到V12里,他在屏幕上的顯示也好了很多,但他所謂的端到端,這個(gè)顯示從哪兒來的?如果這個(gè)顯示來自原來的這個(gè)模型,那牽扯的一個(gè)問題就是,我們實(shí)際上在這個(gè)模型里邊已經(jīng)加了一層,人為定義的接口,使得你可以從這個(gè)模型中的某一個(gè)位置,提取出這個(gè)信息。
另一種我覺得是更恐怖的事情,就是這個(gè)顯示是完全走了另外的一個(gè)路徑,那也意味著車上顯示前面有一輛卡車,不代表控制的模型真的認(rèn)為前面有一輛卡車,如果這一點(diǎn)被破壞了,那將是非常非??植赖模憧吹斤@示它前面有一輛車,但你不確定它不會撞上去。
他是否是真正的端到端,我實(shí)際有點(diǎn)懷疑,或者說我也許不是懷疑,但是這里邊可能有別的危險(xiǎn)性。
王辰晟(前特斯拉采購總監(jiān)):
那對于像自動駕駛這個(gè),對于安全系數(shù)要求這么高的行業(yè)來說,端到端模型帶來的這個(gè)不可解釋性,是不是硬幣的另外一面?
由于目前特斯拉還未公布FSD V12的技術(shù),我們并不知道FSD是否采用了多模塊的策略,但我們發(fā)現(xiàn),已經(jīng)有車主遇到了畫面顯示與實(shí)際行為不符的案例。
比如車輛構(gòu)建的鳥瞰圖顯示前方有人,卻沒有表現(xiàn)出任何剎車的痕跡,而是繼續(xù)行駛過去,所幸只是感知端的誤檢,沒有發(fā)生事故。
這個(gè)案例雖然可以看出,在端到端算法下,上層錯誤不會影響下層決策的優(yōu)勢,但也表現(xiàn)了規(guī)劃層偶爾會不認(rèn)可感知層的結(jié)果,印證了劉冰雁的擔(dān)憂。
不可解釋性是否會成為阻礙端到端發(fā)展的一大難題呢?接下來就是我們看到的第三個(gè)沖突。
于振華(前特斯拉AI工程師):
我認(rèn)為是這樣的,AI一個(gè)很嚴(yán)重的問題,就是它的理論性是遠(yuǎn)遠(yuǎn)滯后的。
AI沒有告訴你這個(gè)一定行、一定不行。所以說它是一個(gè)實(shí)驗(yàn)性的學(xué)科,它不算科學(xué),就需要一個(gè)大量的驗(yàn)證。
V12是全面碾壓V11,所以這是結(jié)果說話的一個(gè)問題。那難道你會想,端到端有這個(gè)不可解釋性那一頓什么什么,因?yàn)樗婺雺海蔷褪且粋€(gè)非常無腦的,你就應(yīng)該往下走。
于振華認(rèn)為,AI作為實(shí)驗(yàn)性的學(xué)科,只要結(jié)果達(dá)到了預(yù)期,就能證明方向正確,應(yīng)該繼續(xù)推進(jìn)。而侯曉迪表示,V12表現(xiàn)大幅領(lǐng)先于V11,只是因?yàn)閂11的基礎(chǔ)太差,其表現(xiàn)距離真正的無人駕駛還比較遠(yuǎn)。
王辰晟(前特斯拉采購總監(jiān)):
如果真的是Full Self Driving,以L5來去限制的話,它一定要過監(jiān)管部門,他們需要有一個(gè)可解釋性或者可預(yù)測性。
再加上,世界上有這么多的城市,就在美國來說,每個(gè)城市可能都會有不一樣的法律法規(guī)。這個(gè)車無論從硬件軟件上,需不需要去適應(yīng)當(dāng)?shù)氐姆煞ㄒ?guī),變成了這個(gè)能不能規(guī)?;囊粋€(gè)很大的問題。
端到端不能通過人為定義規(guī)則,來對模型進(jìn)行微調(diào),所以能否適應(yīng)不同法規(guī),成了端到端規(guī)?;奶魬?zhàn)。
同樣影響規(guī)?;囊蛩?,在于端到端對數(shù)據(jù)量和傳感器更敏感。
5. 前途未卜
劉冰雁(Kargo軟件負(fù)責(zé)人):
端到端有一個(gè)非常嚴(yán)酷的問題,就是它對傳感器會更敏感,也就是說當(dāng)你換了傳感器或者換了傳感器的分布的時(shí)候,你這個(gè)模型可以說得完全重頭訓(xùn)。
從另一個(gè)角度來說,工程上不可接受,或者說我們無法想象之后全世界路上跑的都是同一款車。
一旦更改了傳感器分布,會讓模型失效,得重新開始訓(xùn)練,為了訓(xùn)練又得采集大量數(shù)據(jù),必然會帶來巨大的成本。
美國財(cái)經(jīng)媒體CNBC報(bào)道稱,到2023年初,為了訓(xùn)練FSD,特斯拉就用到了1000多萬段特斯拉車主的駕駛視頻。
而且這1000多萬段訓(xùn)練數(shù)據(jù)可不是隨便用的,必須是駕駛水平比較高的人類司機(jī),否則只會讓模型的水平越來越差。
所以訓(xùn)練端到端模型不光要求數(shù)據(jù)多,還得經(jīng)過復(fù)雜的篩選,這個(gè)過程中又得消耗大量人力。對于賣車多的特斯拉可能不在話下,但對于其他公司來說,數(shù)據(jù)來源卻成了大問題。
大衛(wèi)(《大小馬聊科技》主播):
很多主機(jī)廠因?yàn)槊つ孔非筇厮估翘追椒ㄕ摚缓髮?dǎo)致有點(diǎn)被忽悠瘸了,就是這套東西確實(shí)不適合90%的主機(jī)廠。
那是否意味著,其他廠商真的無法進(jìn)入端到端的領(lǐng)域呢?
雖然英偉達(dá)和特斯拉都是通過純視覺來驅(qū)動端到端算法運(yùn)行,但端到端實(shí)際上也可以接受多模態(tài)輸入。
目前常用的毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等傳感器,在車輛上的位置相對固定,特別是激光雷達(dá),基本都在車頂上,所以采用多模態(tài)接入的端到端,就能利用不同車型采集的數(shù)據(jù),來訓(xùn)練模型,而且留給主機(jī)廠的設(shè)計(jì)空間也會更大。
又這么一圈聊下來,每種算法都各有千秋,哪種方式能帶我們徹底走向全無人駕駛的未來依然不明朗。
張航(Cruise高級主任科學(xué)家):
我不覺得在當(dāng)下有任何一個(gè)算法能,又簡單又規(guī)?;?,然后又能達(dá)到L4標(biāo)準(zhǔn),我覺得這個(gè)算法本身是不存在的,這個(gè)領(lǐng)域是一個(gè)大家一起去推動的。我是非常樂觀,大家會殊途同歸,雖然大家會稍稍有一點(diǎn)點(diǎn)不同的偏差。
6. 無計(jì)可施
不論是哪種算法,最終都要面對長尾問題。
在傳統(tǒng)Rule-based(規(guī)則驅(qū)動)模型下,編寫規(guī)則庫(rule base)需要龐大的團(tuán)隊(duì)耗費(fèi)大量精力,還很難做到面面俱到,那有了端到端后,長尾問題能得到解決嗎?
Minfa Wang(前Waymo高級機(jī)器學(xué)習(xí)工程師):
他解決了常規(guī)的案例,但是長尾的問題我覺得依舊會存在。
Minfa認(rèn)為,自動駕駛系統(tǒng)的容錯率很低,如果要將一個(gè)黑盒系統(tǒng)用在L4上,必須引入其他安全機(jī)制,但這樣又回到了Rule-based模式下的成本問題。
自動駕駛算法會先到仿真系統(tǒng)里練習(xí),那仿真訓(xùn)練可以解決一定的長尾問題嗎?
張航(Cruise高級主任科學(xué)家):
目前還沒有一個(gè)很好的方案能通過生成的模擬數(shù)據(jù),對我們的現(xiàn)實(shí)中的道路表現(xiàn)有真正有很大的幫助。
Minfa Wang(前Waymo高級機(jī)器學(xué)習(xí)工程師):
像自動駕駛或者機(jī)器人的領(lǐng)域里邊,環(huán)境是非常非常復(fù)雜的,你要仿真的話,仿真的不只是你自己,這個(gè)車會未來怎么動,主要困難的是,當(dāng)你自己的車的軌跡發(fā)生變化的時(shí)候,你會影響周圍的所有的車和人的行為也發(fā)生變化。
如何能夠很好地仿真,然后并且能夠不出現(xiàn) distribution shift(分布偏移),我覺得依舊是一個(gè)開放性話題。
既然虛擬的場景無法完全模擬出現(xiàn)實(shí)的種種可能,那是否意味著,目前業(yè)內(nèi)沒有辦法解決長尾問題,只能靠漫長地積累經(jīng)驗(yàn)?zāi)兀?/p>
匿名受訪者(L4工程師):
某種程度上是吧,但你也不用做到,就是特別完美,對吧?人類也不完美,你只要做得比人好就行。人也有他的事故率,你只要做得比這個(gè)好就夠了。
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我覺得長尾問題其實(shí)也是一個(gè)偽命題,就這個(gè)很高興你們提出來這個(gè)事情。
在我看來長尾問題,比如說我見到鱷魚怎么處理?我見著大象怎么處理?我見著一個(gè)固定翼飛機(jī)停在高速公路上,我怎么處理?
實(shí)際上對于很多長尾問題,我們是讓它包裹成一大類問題的,見到我沒見過的物體,怎么處理?如果你把它包裹成了一個(gè)更總體的一類問題的話,它是很好處理的。
比如說我們曾經(jīng)就見到有固定翼飛機(jī)停在高速公路上,那我們的處理方案很簡單,停車呀對吧?
長尾問題到底是不是偽命題,或者它是不是需要解決的問題?這個(gè)話題可能大家都有自己的答案。而長尾問題對應(yīng)的是,L4甚至L5何時(shí)才能大范圍鋪開,所以接下來,我們就來看看L2與L4的激烈沖突。
四、特斯拉Robotaxi能成嗎:L2與L4的沖突
1. “成不了”
我們在馬斯克宣布推遲發(fā)布Robotaxi之前就詢問了各位嘉賓的看法,大家對此的看法非常統(tǒng)一,那就是今年特斯拉的無人出租車是不可能上線的。
大家觀點(diǎn)如此統(tǒng)一的最大原因,就在于目前特斯拉已有的車型,達(dá)不到L4標(biāo)準(zhǔn)的無人出租車。
劉冰雁(Kargo軟件負(fù)責(zé)人):
我非常確定現(xiàn)有的特斯拉的這幾個(gè)車型,都有非常明確的盲區(qū),如果他想實(shí)現(xiàn)最終的,不管是L4、 L5的自動駕駛,他的下一款車,一定需要解決這個(gè)盲區(qū)問題。而解決這盲區(qū)問題又回到我們現(xiàn)剛才說的,它一定要調(diào)整相機(jī)傳感器的位置,而傳調(diào)整這些位置立刻帶來的結(jié)果就是,就是之前這個(gè)模型會完全失效。
就是現(xiàn)有的車從視覺攝像頭架構(gòu)的角度來說,是不可能達(dá)到,可以完全無人接管的FSD的。從這個(gè)角度來說,它必須有一款新的硬件出現(xiàn)。
張航(Cruise高級主任科學(xué)家):
從傳感器角度,它需要引入一些冗余,這個(gè)可能之前L2是不需要的。
在業(yè)內(nèi)人士不看好的情況下,是什么原因讓馬斯克對推出Robotaxi如此有信心呢?
于振華(前特斯拉AI工程師):
我認(rèn)為主要還是這個(gè)FSD V12的幾個(gè)技術(shù)突破,作為馬斯克他的這個(gè)性格,他看到FSD V12今天這一刻,在他的這個(gè)計(jì)劃里面,他就覺得Robotaxi應(yīng)該必須擺上日程了。
所以,F(xiàn)SD V12能讓特斯拉走向L4,承擔(dān)起Robotaxi的重任嗎?和目前已有的Waymo或Cruise比起來差距有多大呢?
在采訪侯曉迪這個(gè)問題時(shí),他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點(diǎn):那就是L2和L4的差距非常遠(yuǎn)。
2. “差很遠(yuǎn)”
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
首先特斯拉做的不是無人駕駛,我們今天談的是去掉人,并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案,才叫無人駕駛,咱們不要虛假宣傳, FSD叫輔助駕駛,它不是無人駕駛,所以做的不是一個(gè)東西。
目前被廣泛應(yīng)用在車企上的都是L2輔助駕駛,比如特斯拉、小米、華為、小鵬等等,而像Waymo、Cruise、百度等做無人出租車的企業(yè),則采用的是L4高度自動駕駛,拋開書面的概念定義,這兩者之間的本質(zhì)區(qū)別就在于,誰來承擔(dān)責(zé)任。
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
去掉人并且由軟件開發(fā)公司承擔(dān)責(zé)任的方案才叫無人駕駛。講一笑話,如果特斯拉撞死人了怎么辦?對Elon Musk來講,its not their business(這不關(guān)他的事)。
所以,如果特斯拉想做無人出租車,就必須做到自己承擔(dān)責(zé)任。那輔助駕駛和自動駕駛之間,從技術(shù)上又有哪些區(qū)別呢?
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
L4無人駕駛要解決的核心問題是什么?是安全性,是冗余,是當(dāng)一個(gè)系統(tǒng)的每一個(gè)模塊都有可能會失效的時(shí)候,這個(gè)系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關(guān)鍵的部分。在掙錢之前它要先解決安全性的問題,但是這件事情根本不是特斯拉的設(shè)計(jì)宗旨。
另外一位L4自動駕駛研究員也分別從硬件與軟件的角度,分析了L2和L4之間的區(qū)別。
張航(Cruise高級主任科學(xué)家):
L4的解決方案,首先是我們有比較強(qiáng)的傳感器,這個(gè)可能很難在L2場景里面去用,起碼不會用這么高精度的激光雷達(dá)。
從算法角度可能L2公司更注重的是一些,更有效能把成本降得很低,然后不需要特別昂貴的傳感器,然后可能更少的計(jì)算就可以達(dá)到這樣一個(gè)效果。這些L2其實(shí)不需要考慮這種百萬分之一的案例。
那我們L4追求的是,一百萬英里以上才需要引入一次的人類遠(yuǎn)程協(xié)助,追求的就是這種百萬分之一的案例。
總結(jié)一下:L4的方案,采用的傳感器精度更高,芯片的算力會更充足,能應(yīng)對的場景也更全面。
但L2的方案中,首要考慮的是成本問題,所以硬件水平會稍低一些,同時(shí)算法為了適應(yīng)水平稍低的硬件,會更注重效率而非安全,這樣L2的接管頻率會比L4高很多。
那么,像特斯拉這樣做L2的公司,能否通過提升硬件與軟件,來達(dá)到L4的效果呢?
3. “兩碼事”
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
我不支持L2緩慢進(jìn)化到L4、L5的路線,我覺得這件事情又是一個(gè)帶有很強(qiáng)這種外推屬性的偽命題。
假以時(shí)日,海豚能不能進(jìn)化出文明來?我覺得有可能,但是我們要知道地球文明已經(jīng)容不下海豚去進(jìn)化了,因?yàn)橐呀?jīng)有公司做出來了,我這個(gè)公司就是為了能夠最快速的把L4落地。我落了地以后就沒你什么事兒了,對吧?智人拿起標(biāo)槍的時(shí)候就沒有海豚去產(chǎn)生文明什么事兒了。
在侯曉迪看來,目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘,激烈競爭下,不會給到L2進(jìn)化的機(jī)會,同時(shí),也有人認(rèn)為,這并不意味著L4的技術(shù)比L2更高級,只是大家針對的場景不同。
于振華(前特斯拉AI工程師):
如果說,真的L4比L2像大家所想象的,在技術(shù)上是絕對的高級、絕對的領(lǐng)先。那么我想請問為什么L4技術(shù)不能夠直接降級成了L2?
事實(shí)上是在過去的很多年里面,L4公司由于收入的壓力,都在幫車廠去做L2,但是他不能夠簡單地降級,他基本上都要重新開發(fā)。
那我們也知道在美國,GM(通用汽車)是擁有Cruise L4公司,福特是擁有Argo AI,也是個(gè)L4公司,為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上?為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上?所以說L4并不是比L2絕對高級,在技術(shù)難度上,我不認(rèn)為你做L4了,你就顯得非常高級。
為什么L4的技術(shù)不能直接降級成L2使用呢?張航對此解釋道,由于L4所采用的硬件規(guī)格更高,而L2的算法必須適應(yīng)規(guī)格更低的傳感器和算力較少的處理器,才導(dǎo)致兩者的技術(shù)無法直接遷移。
就像一位建筑設(shè)計(jì)師,被沒收了電腦,只給他精度不高的尺子和紙筆,他也得重新適應(yīng)新的畫圖方式。
張航(Cruise高級主任科學(xué)家):
就是你前面說的就是這個(gè)計(jì)算量的問題,L2的解決方案,不可能去支持,我們在一個(gè)車的后備箱里面放一個(gè)超級計(jì)算機(jī),這是一個(gè)不現(xiàn)實(shí)的一個(gè)解決方案。
同時(shí),張航對L2與L4的技術(shù)比較,也表現(xiàn)出了更開放的心態(tài),L2鋪設(shè)的范圍更廣,需要面對的場景更多,只需要解決基本問題即可。而L4的覆蓋范圍有限,但更關(guān)注各種細(xì)節(jié)。所以兩者之間各有優(yōu)劣。
張航(Cruise高級主任科學(xué)家):
L4本身不能通過簡單地去把已有的系統(tǒng)做簡化,去掉冗余,去作為一個(gè)L2的解決方案,但反之亦然。L2做想做到L4的標(biāo)準(zhǔn),這是一個(gè)很長的時(shí)間去磨練,你需要很長時(shí)間的數(shù)據(jù)收集,然后去積累經(jīng)驗(yàn)。
但我覺得并不是說,我們的技術(shù)路線,或者技術(shù)深度會比L2高,我覺得這個(gè)不一定,L4可能很多并不是說很尖端的一些算法,但是就是通過一些,很細(xì)心地去設(shè)計(jì)去解決這些很細(xì)節(jié)的一些長尾問題。
你會支持哪個(gè)觀點(diǎn)呢?可以留言告訴我們。在我們的采訪中,這個(gè)問題在不同的人眼里,都會有自己的答案。
于振華(前特斯拉L2工程師):
我覺得就是在普通的大眾,甚至一些L4公司會給大家灌輸一個(gè)概念,就是L4技術(shù)優(yōu)于L3,然后優(yōu)于L2。我覺得這個(gè)是一個(gè)脫開它的限制場景,來誤導(dǎo)大眾,因?yàn)長4 的現(xiàn)在的Robotaxi,它是有很大限制場景的,必須在特定的這個(gè)地區(qū),比如Waymo,它只能在一個(gè)地區(qū)一個(gè)地區(qū)的運(yùn)行。
邵旭輝(Foothill Ventures管理合伙投資人):
我個(gè)人還是會看好L4的公司,因?yàn)榫瓦@個(gè)邏輯上來說,L4是可以降維打擊的,而L2的話,如果你只做這個(gè),你是升不上去的,或者說非常非常難升上去。
匿名受訪者(L4工程師):
其實(shí)在技術(shù)棧上我覺得沒有特別難的一個(gè)門檻,就比如說某家公司,他今天可以宣稱,做L2的公司,那也許明天他加了一些新的技術(shù),也可以去做L4,對吧?這完全看他應(yīng)用采用什么技術(shù),或者說有一些什么新的科技突破,對吧?
侯曉迪(前圖森未來創(chuàng)始人兼CEO,Bot.auto創(chuàng)始人):
輔助駕駛跟無人駕駛是兩個(gè)東西。