對(duì)于全自動(dòng)駕駛汽車需要哪些技術(shù)堆棧支持,不同企業(yè)和研究人員對(duì)這個(gè)問(wèn)題有著不同的答案。事實(shí)上,實(shí)現(xiàn)自動(dòng)駕駛的方法不一而足,有的只需要攝像頭和計(jì)算機(jī)視覺(jué)系統(tǒng),有的則需要計(jì)算機(jī)視覺(jué)與先進(jìn)傳感器相結(jié)合。其中,特斯拉始終是純視覺(jué)自動(dòng)駕駛技術(shù)的倡導(dǎo)者,在今年的計(jì)算機(jī)視覺(jué)和模式識(shí)別(CVPR)大會(huì)上,該公司首席AI科學(xué)家安德烈·卡帕西(Andrej Karpathy)解釋了原因。

過(guò)去幾年,卡帕西始終負(fù)責(zé)領(lǐng)導(dǎo)特斯拉的自動(dòng)駕駛系統(tǒng)研發(fā)工作。在2021年CVPR自動(dòng)駕駛研討會(huì)上,卡帕西詳細(xì)介紹了該公司是如何開(kāi)發(fā)深度學(xué)習(xí)系統(tǒng)的,該系統(tǒng)只需要視頻輸入就可以了解汽車周圍的環(huán)境。同時(shí),卡帕西還解釋了為何特斯拉最有可能幫助基于視覺(jué)的自動(dòng)駕駛成為現(xiàn)實(shí)的原因。

通用計(jì)算機(jī)視覺(jué)系統(tǒng)

深度神經(jīng)網(wǎng)絡(luò)是自動(dòng)駕駛技術(shù)堆棧的主要組成部分之一,它主要對(duì)車載攝像頭所拍攝視頻中的道路、標(biāo)志、汽車、障礙物和行人進(jìn)行分析。不過(guò),深度學(xué)習(xí)在檢測(cè)圖像中的目標(biāo)時(shí)也會(huì)出錯(cuò)。為此,包括Alphabet子公司W(wǎng)aymo在內(nèi)的大多數(shù)自動(dòng)駕駛汽車公司,都使用激光雷達(dá)。這種設(shè)備通過(guò)向各個(gè)方向發(fā)射激光束,生成汽車周圍的3D地圖。激光雷達(dá)提供了更多的信息,可以填補(bǔ)神經(jīng)網(wǎng)絡(luò)留下的空白。

然而,在自動(dòng)駕駛堆棧中加入激光雷達(dá)也有其復(fù)雜之處??ㄅ廖髡f(shuō):“你必須用激光雷達(dá)預(yù)先測(cè)繪環(huán)境地圖,然后借此創(chuàng)建高清地圖,你必須插入所有的車道,搞清楚它們?nèi)绾芜B接,以及了解所有的交通燈。在測(cè)試階段,你只需要依據(jù)地圖駕車四處移動(dòng)。”與此同時(shí),要為自動(dòng)駕駛汽車將要行駛的每個(gè)地點(diǎn)創(chuàng)建精確的地圖是極其困難的??ㄅ廖鞅硎荆?ldquo;收集、構(gòu)建和維護(hù)這些高清激光雷達(dá)地圖是不可擴(kuò)展的。要保持基礎(chǔ)設(shè)施的持續(xù)更新也極其困難。”

特斯拉的自動(dòng)駕駛汽車沒(méi)有使用激光雷達(dá)和高清地圖??ㄅ廖鞣Q:“根據(jù)汽車周圍8個(gè)攝像頭拍攝的視頻,所有發(fā)生的事情都是第一次發(fā)生在車?yán)铩?rdquo;

自動(dòng)駕駛技術(shù)必須弄清楚車道在哪里,交通燈在哪里,它們所處狀態(tài)如何,以及哪些與車輛相關(guān)。而且它必須在沒(méi)有任何預(yù)先確定的道路導(dǎo)航信息的情況下完成所有這些工作??ㄅ廖鞒姓J(rèn),基于視覺(jué)的自動(dòng)駕駛方法在技術(shù)上更難實(shí)現(xiàn),因?yàn)樗枰獌H靠視頻反饋就能運(yùn)轉(zhuǎn)良好的神經(jīng)網(wǎng)絡(luò)。但他稱:“一旦這種系統(tǒng)投入使用,它就會(huì)成為通用計(jì)算機(jī)視覺(jué)系統(tǒng),可以部署在地球上的任何地方。”

有了通用計(jì)算機(jī)視覺(jué)系統(tǒng),汽車將不再需要其他輔助駕駛功能??ㄅ廖鞅硎荆厮估呀?jīng)在朝這個(gè)方向發(fā)展。此前,該公司使用雷達(dá)和攝像頭相結(jié)合的方式支持自動(dòng)駕駛系統(tǒng),但其最近開(kāi)始推出不再配備雷達(dá)的汽車??ㄅ廖鞅硎荆?ldquo;我們移除了雷達(dá),這些車只靠視覺(jué)行駛。這是因?yàn)?,特斯拉的深度學(xué)習(xí)系統(tǒng)已經(jīng)達(dá)到了臨界點(diǎn),現(xiàn)在比雷達(dá)的表現(xiàn)好100倍,而雷達(dá)開(kāi)始成為阻礙。”

監(jiān)督式學(xué)習(xí)

反對(duì)純計(jì)算機(jī)視覺(jué)自動(dòng)駕駛方法的主要論點(diǎn)是,神經(jīng)網(wǎng)絡(luò)是否可以在沒(méi)有激光雷達(dá)深度地圖的幫助下,進(jìn)行測(cè)距和估計(jì)存在的不確定性。卡帕西對(duì)此表示:“顯然,人類開(kāi)車時(shí)依賴視覺(jué),所以我們的神經(jīng)網(wǎng)絡(luò)能夠處理視覺(jué)輸入,以了解我們周圍物體的深度和速度。但最大的問(wèn)題是,合成神經(jīng)網(wǎng)絡(luò)能做到同樣的事情嗎?在過(guò)去幾個(gè)月里,我們的努力證明,這是有可能實(shí)現(xiàn)的。”

特斯拉的工程師們想要?jiǎng)?chuàng)建一個(gè)深度學(xué)習(xí)系統(tǒng),可以在深度、速度和加速度方面對(duì)物體進(jìn)行檢測(cè)。他們決定將這一挑戰(zhàn)視為一個(gè)監(jiān)督式學(xué)習(xí)問(wèn)題來(lái)對(duì)待,即神經(jīng)網(wǎng)絡(luò)在經(jīng)過(guò)注釋數(shù)據(jù)訓(xùn)練后,學(xué)會(huì)檢測(cè)目標(biāo)及其相關(guān)屬性。

為了訓(xùn)練他們的深度學(xué)習(xí)架構(gòu),特斯拉團(tuán)隊(duì)需要一個(gè)包含數(shù)百萬(wàn)個(gè)視頻的海量數(shù)據(jù)集,并仔細(xì)地對(duì)視頻所包含的對(duì)象及其屬性進(jìn)行注釋。為自動(dòng)駕駛汽車創(chuàng)建數(shù)據(jù)集尤其棘手,工程師們必須確保包括各種不同的道路設(shè)置和不經(jīng)常發(fā)生的邊緣情況??ㄅ廖髡f(shuō):“當(dāng)你有一個(gè)龐大、干凈、多樣化的數(shù)據(jù)集,然后用它訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)時(shí),我在實(shí)踐中看到的是,成功可以得到保證。”

自動(dòng)標(biāo)記數(shù)據(jù)集

特斯拉在全球售出了數(shù)百萬(wàn)輛配有攝像頭的汽車,并據(jù)此在收集訓(xùn)練汽車視覺(jué)深度學(xué)習(xí)模型所需的數(shù)據(jù)方面處于有利地位。特斯拉的自動(dòng)駕駛團(tuán)隊(duì)積累了1.5PB的數(shù)據(jù),包括100萬(wàn)段10秒長(zhǎng)的視頻和60億個(gè)標(biāo)注了邊框、深度和速度的物體。但是給這樣龐大的數(shù)據(jù)集貼上標(biāo)簽是個(gè)巨大的挑戰(zhàn)。一種方法是通過(guò)數(shù)據(jù)標(biāo)簽公司或在線平臺(tái)(如Amazon Turk)手動(dòng)標(biāo)注。但這將需要大量的手工工作,可能會(huì)花費(fèi)一大筆錢,而且進(jìn)展緩慢。

與之相比,特斯拉團(tuán)隊(duì)使用了自動(dòng)標(biāo)記技術(shù),它結(jié)合了神經(jīng)網(wǎng)絡(luò)、雷達(dá)數(shù)據(jù)和人工審核。由于數(shù)據(jù)集是離線標(biāo)注的,神經(jīng)網(wǎng)絡(luò)可以回播視頻,將它們的預(yù)測(cè)與實(shí)際情況進(jìn)行比較,并調(diào)整它們的參數(shù)。這與所謂的“測(cè)試推理”相反,后者所有事情都是實(shí)時(shí)發(fā)生的,深度學(xué)習(xí)模型無(wú)法進(jìn)行追溯。

離線標(biāo)記還使工程師能夠應(yīng)用非常強(qiáng)大的、計(jì)算密集型的目標(biāo)檢測(cè)網(wǎng)絡(luò),這些網(wǎng)絡(luò)無(wú)法部署在汽車上,可以用于實(shí)時(shí)、低延遲的應(yīng)用程序。他們利用雷達(dá)傳感器數(shù)據(jù)進(jìn)一步驗(yàn)證神經(jīng)網(wǎng)絡(luò)的推斷。所有這些都提高了標(biāo)記網(wǎng)絡(luò)的精度。卡帕西說(shuō):“如果你處于離線狀態(tài),你就會(huì)獲得后續(xù)好處,可以更好地融合不同的傳感器數(shù)據(jù)。此外,你可以讓人類參與進(jìn)來(lái),他們可以進(jìn)行清理、驗(yàn)證、編輯等工作。”

不過(guò),卡帕西沒(méi)有透露對(duì)自動(dòng)標(biāo)簽系統(tǒng)進(jìn)行最終修改需要多少人力,但人類的認(rèn)知在引導(dǎo)自動(dòng)標(biāo)簽系統(tǒng)向正確方向發(fā)展方面發(fā)揮了關(guān)鍵作用。

在開(kāi)發(fā)數(shù)據(jù)集的過(guò)程中,特斯拉團(tuán)隊(duì)發(fā)現(xiàn)了超過(guò)200個(gè)觸發(fā)點(diǎn),表明目標(biāo)檢測(cè)需要調(diào)整。這些問(wèn)題包括不同攝像頭之間或攝像頭與雷達(dá)之間的檢測(cè)結(jié)果不一致。他們還確定了可能需要特別注意的情況,比如隧道入口和出口,以及頂部有物體的汽車。特斯拉用了四個(gè)月的時(shí)間來(lái)開(kāi)發(fā)和掌握所有這些觸發(fā)器。隨著標(biāo)簽網(wǎng)絡(luò)的改進(jìn),它以“影子模式”部署。這意味著它被安裝在消費(fèi)者的汽車上,靜默運(yùn)行,而不向汽車發(fā)出命令,并將該網(wǎng)絡(luò)的輸出與傳統(tǒng)網(wǎng)絡(luò)、雷達(dá)和司機(jī)的行為進(jìn)行比較。

特斯拉團(tuán)隊(duì)經(jīng)歷了七次數(shù)據(jù)工程迭代。他們從一個(gè)初始數(shù)據(jù)集開(kāi)始,在這個(gè)數(shù)據(jù)集上訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。然后,他們?cè)谡鎸?shí)汽車上部署“影子模式”的深度學(xué)習(xí),并使用觸發(fā)器來(lái)檢測(cè)不一致性、錯(cuò)誤和特殊場(chǎng)景。然后對(duì)錯(cuò)誤進(jìn)行修正,如果需要,還會(huì)向數(shù)據(jù)集添加新數(shù)據(jù)??ㄅ廖髡f(shuō):“我們一遍又一遍地重復(fù)這個(gè)循環(huán),直到神經(jīng)網(wǎng)絡(luò)變得足夠好。”

因此,該體系結(jié)構(gòu)可以更好地描述為具有巧妙分工的半自動(dòng)標(biāo)注系統(tǒng),其中神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)重復(fù)性工作,人類負(fù)責(zé)解決高級(jí)認(rèn)知問(wèn)題和罕見(jiàn)情況。

有趣的是,當(dāng)被問(wèn)及觸發(fā)器的生成是否可以自動(dòng)化時(shí),卡帕西回答說(shuō):“觸發(fā)器的自動(dòng)化是個(gè)非常棘手的問(wèn)題,因?yàn)槟憧梢杂型ㄓ糜|發(fā)器,但它們不能正確地代表錯(cuò)誤模式。例如,很難自動(dòng)生成具有觸發(fā)進(jìn)入和退出隧道功能的觸發(fā)器,這是人類通過(guò)直覺(jué)獲得的能力,目前還不清楚其具體原理。”

分層深度學(xué)習(xí)體系結(jié)構(gòu)

特斯拉的自動(dòng)駕駛團(tuán)隊(duì)需要高效和精心設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò),以最大限度地利用他們收集的高質(zhì)量數(shù)據(jù)集。該公司創(chuàng)建了一個(gè)由不同神經(jīng)網(wǎng)絡(luò)組成的分層深度學(xué)習(xí)體系結(jié)構(gòu),這些神經(jīng)網(wǎng)絡(luò)處理信息,并將其輸出給下一組網(wǎng)絡(luò)。

深度學(xué)習(xí)模型使用卷積神經(jīng)網(wǎng)絡(luò)從安裝在汽車周圍的8個(gè)攝像頭的視頻中提取特征,并使用變換神經(jīng)網(wǎng)絡(luò)將它們?nèi)诤显谝黄稹H缓?,它?huì)隨著時(shí)間的推移融合這些信息,這對(duì)于軌跡預(yù)測(cè)和消除推理不一致等任務(wù)來(lái)說(shuō)非常重要。然后,空間和時(shí)間特征被輸入神經(jīng)網(wǎng)絡(luò)的分層結(jié)構(gòu)中,卡帕西將其描述為頭部、軀干和神經(jīng)。他說(shuō):“你之所以想要這種分層結(jié)構(gòu),是因?yàn)槟銓?duì)大量的輸出感興趣,但你負(fù)擔(dān)不起每個(gè)輸出都有對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)的代價(jià)。”

分層結(jié)構(gòu)使得可以為不同的任務(wù)重用組件,并支持不同推理路徑之間的特性共享。網(wǎng)絡(luò)的模塊化體系結(jié)構(gòu)的另一個(gè)好處是進(jìn)行分布式開(kāi)發(fā)的可能性。特斯拉目前聘用了一個(gè)龐大的機(jī)器學(xué)習(xí)工程師團(tuán)隊(duì),致力于自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)的研究。他們每個(gè)人都在網(wǎng)絡(luò)的單個(gè)小組件上工作,然后把他們的結(jié)果插入到更大的網(wǎng)絡(luò)中。卡帕西稱:“我們有個(gè)大約20人的團(tuán)隊(duì),他們?cè)谌氂?xùn)練神經(jīng)網(wǎng)絡(luò)。它們都在同一個(gè)神經(jīng)網(wǎng)絡(luò)上合作。”

垂直整合

在CVPR的演講中,卡帕西分享了特斯拉用來(lái)訓(xùn)練和微調(diào)其深度學(xué)習(xí)模型的超級(jí)計(jì)算機(jī)的更多細(xì)節(jié)。整個(gè)計(jì)算集群由80個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)包含8個(gè)英偉達(dá)A100圖形處理器和80 GB顯存,總計(jì)5760個(gè)GPU和超過(guò)450 TB的VRAM。這臺(tái)超級(jí)計(jì)算機(jī)還擁有10PB的NVME超高速存儲(chǔ)和640 Tbps的網(wǎng)絡(luò)容量來(lái)連接所有節(jié)點(diǎn),并允許對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行高效的分布式訓(xùn)練。

特斯拉還擁有并制造安裝在其汽車內(nèi)的AI芯片??ㄅ廖鞅硎荆?ldquo;這些芯片是專門為我們希望在完全自動(dòng)駕駛應(yīng)用中運(yùn)行的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的。”

特斯拉的最大優(yōu)勢(shì)是它的垂直整合能力。該公司擁有整個(gè)自動(dòng)駕駛汽車堆棧,自己生產(chǎn)汽車和自動(dòng)駕駛功能硬件,同時(shí)通過(guò)從售出的數(shù)百萬(wàn)輛汽車中收集各種各樣的遙測(cè)和視頻數(shù)據(jù)占據(jù)獨(dú)特的位置。特斯拉還利用其專有數(shù)據(jù)集創(chuàng)建并訓(xùn)練其神經(jīng)網(wǎng)絡(luò),并通過(guò)在其汽車上進(jìn)行影子測(cè)試來(lái)驗(yàn)證和微調(diào)這些網(wǎng)絡(luò)。當(dāng)然,特斯拉擁有杰出的團(tuán)隊(duì),由機(jī)器學(xué)習(xí)工程師、研究人員和硬件設(shè)計(jì)師組成,他們把所有的東西組裝在一起。

卡帕西說(shuō):“你可以在所有層面進(jìn)行協(xié)同設(shè)計(jì)和攻堅(jiān),沒(méi)有第三方在阻礙你。你完全掌控了自己的命運(yùn),我認(rèn)為這是不可思議的。”

這種垂直整合以及創(chuàng)建數(shù)據(jù)、調(diào)整機(jī)器學(xué)習(xí)模型并將其部署到許多汽車上的能力,使特斯拉在實(shí)現(xiàn)僅基于視覺(jué)的自動(dòng)駕駛汽車能力方面獲得了優(yōu)勢(shì)。在他的演講中,卡帕西展示了幾個(gè)例子,顯示新的神經(jīng)網(wǎng)絡(luò)勝過(guò)了與雷達(dá)信息結(jié)合工作的傳統(tǒng)ML模型??ㄅ廖髡f(shuō),如果該系統(tǒng)繼續(xù)改進(jìn),特斯拉可能會(huì)淘汰激光雷達(dá),并認(rèn)為沒(méi)有其他公司能夠復(fù)制特斯拉的方法。

未解決問(wèn)題

但問(wèn)題仍然存在,比如深度學(xué)習(xí)目前的進(jìn)步狀態(tài)是否足以克服自動(dòng)駕駛面臨的所有挑戰(zhàn)。當(dāng)然,目標(biāo)檢測(cè)、速度和距離估計(jì)在駕駛中起著重要作用。但是人類的視覺(jué)還有許多其他復(fù)雜的功能,科學(xué)家們稱之為視覺(jué)的“暗物質(zhì)”。這些都是意識(shí)和潛意識(shí)分析視覺(jué)輸入和不同環(huán)境導(dǎo)航的重要組成部分。

深度學(xué)習(xí)模型也很難做出因果推理,當(dāng)模型面對(duì)他們以前沒(méi)有見(jiàn)過(guò)的新情況時(shí),這可能是個(gè)巨大的障礙。因此,雖然特斯拉成功地創(chuàng)建了龐大而多樣化的數(shù)據(jù)集,但開(kāi)放道路上的實(shí)際環(huán)境卻非常復(fù)雜,那里隨時(shí)都可能發(fā)生新的、不可預(yù)測(cè)的事情。

AI社區(qū)存在的分歧在于,是否需要明確地將因果關(guān)系和推理整合到深度神經(jīng)網(wǎng)絡(luò)中,或者是否可以通過(guò)“直接擬合”克服因果關(guān)系障礙。特斯拉以視覺(jué)為基礎(chǔ)的自動(dòng)駕駛團(tuán)隊(duì)似乎更喜歡后者,但這項(xiàng)技術(shù)顯然需要接受時(shí)間的考驗(yàn)。

標(biāo)簽: 自動(dòng)駕駛 汽車 雷達(dá) 特斯拉