在自動(dòng)駕駛系統(tǒng)的感知架構(gòu)中,攝像頭始終扮演著“眼睛”的角色,它以直觀的方式捕捉車外環(huán)境,將光學(xué)信號(hào)轉(zhuǎn)化為圖像數(shù)據(jù),供后端算法進(jìn)行物體檢測(cè)、分割、跟蹤與深度估計(jì)。隨著自動(dòng)駕駛技術(shù)從輔助駕駛(Level?1/2)向中高階自動(dòng)駕駛(Level?3?及以上)演進(jìn),對(duì)環(huán)境感知的精度、可靠性和冗余度也提出了更苛刻的要求。與此同時(shí),行業(yè)內(nèi)主流的視覺(jué)方案也在不斷豐富,從早期的單目攝像頭,到雙目立體視覺(jué),再到近年來(lái)開(kāi)始探索的三目甚至多目的多視角布局,自動(dòng)駕駛純視覺(jué)解決方案也更加豐富。
單目攝像頭
單目攝像頭因其硬件結(jié)構(gòu)最為簡(jiǎn)單、成本最低廉、布置最為靈活而成為自動(dòng)駕駛感知系統(tǒng)的基礎(chǔ)配置。一臺(tái)普通攝像頭即可安裝于擋風(fēng)玻璃后方或車前格柵處,便可獲得寬視角的彩色圖像序列。單目深度估計(jì)主要依賴于圖像中的透視幾何線索(如遠(yuǎn)近關(guān)系產(chǎn)生的尺寸變化)、運(yùn)動(dòng)線索(雙幀或多幀光流)、以及深度學(xué)習(xí)模型對(duì)場(chǎng)景先驗(yàn)的學(xué)習(xí)。
基于單目圖像的深度估計(jì)方法可以分為監(jiān)督式與自監(jiān)督式。監(jiān)督式借助激光雷達(dá)(LiDAR)或結(jié)構(gòu)光相機(jī)標(biāo)定出的真深度進(jìn)行網(wǎng)絡(luò)訓(xùn)練,精度較高但對(duì)大規(guī)模標(biāo)注數(shù)據(jù)依賴嚴(yán)重;自監(jiān)督式則通過(guò)視差一致性、光度一致性約束和多視角幾何投影建立損失函數(shù),擺脫了稠密標(biāo)注的束縛,但在紋理匱乏和動(dòng)態(tài)遮擋場(chǎng)景下精度波動(dòng)明顯。單目攝像頭在弱光、強(qiáng)逆光條件下表現(xiàn)較好,且與毫米波雷達(dá)結(jié)合時(shí)能夠形成較為完善的檢測(cè)與跟蹤管線;但由于其固有的“視差盲區(qū)”,在深度估計(jì)誤差(數(shù)米級(jí))與目標(biāo)尺寸估計(jì)偏差(百分之十以內(nèi))的情況下,難以獨(dú)立支撐高階自動(dòng)駕駛對(duì)亞米級(jí)、甚至亞米級(jí)以下的深度精度需求。
雙目攝像頭
雙目視覺(jué)系統(tǒng)通過(guò)兩臺(tái)同步標(biāo)定、具有固定基線的攝像機(jī)獲取左右兩路圖像,以視差(disparity)為橋梁直接計(jì)算場(chǎng)景深度,雙目視覺(jué)系統(tǒng)也更加近似于人眼。同一物點(diǎn)在左右圖像中的橫向偏移量與基線長(zhǎng)度和焦距共同決定了其絕對(duì)距離。經(jīng)典雙目深度重建分為四大步驟:立體校正(stereo rectification)、視差匹配(disparity estimation)、視差濾波與優(yōu)化(filtering & refinement)、以及點(diǎn)云重建(point cloud generation)。當(dāng)前主流的視差匹配算法既包括基于局部窗口的代價(jià)聚合方法(如SAD、SSD與Census Transform),也包括全局能量最小化方法(如Graph Cuts、Semi-Global Matching),以及最近幾年興起的端到端深度學(xué)習(xí)方法(如GC-Net、PSMNet)。
雙目視覺(jué)能夠在中短距離(0.5?米至50?米)內(nèi)提供亞米級(jí)的深度精度,并在靜態(tài)與高紋理場(chǎng)景中表現(xiàn)卓越;但當(dāng)面對(duì)低紋理、重復(fù)紋理、強(qiáng)光照不均或半透明遮擋時(shí),視差匹配的正確率會(huì)顯著下降,導(dǎo)致深度估計(jì)失真。此外,雙目系統(tǒng)對(duì)攝像頭外參(相對(duì)位置與姿態(tài))的標(biāo)定精度和時(shí)間同步提出了高要求,一旦標(biāo)定誤差超過(guò)千分之一(基線與焦距之比),就可能帶來(lái)數(shù)毫米至數(shù)厘米的深度偏離。雙目系統(tǒng)在算力消耗與數(shù)據(jù)帶寬方面也高于單目,兩路高分辨率圖像的拼接與匹配、對(duì)稱的圖像預(yù)處理與后處理,都需要更強(qiáng)的視覺(jué)處理單元(VPU)或GPU支持。
三目攝像頭
三目布局一般采用共面而非共線的設(shè)計(jì),三臺(tái)攝像頭按一定幾何形狀(如等邊三角形基線)分布,以獲得更豐富的視差信息。相較于雙目,三目系統(tǒng)能夠形成兩組或三組不同基線長(zhǎng)度、不同匹配對(duì)的深度估計(jì),從而在多種距離區(qū)間內(nèi)兼顧近、中、遠(yuǎn)距離的測(cè)量精度。例如,基線較短的一對(duì)攝像頭適合1至10?米范圍的高精度測(cè)距,而基線較長(zhǎng)的一對(duì)則能夠延伸到100?米的目標(biāo)探測(cè)。
在算法層面,三目視差匹配可同時(shí)在多對(duì)圖像間建立代價(jià)體(cost volume),并通過(guò)多視角一致性約束(multiview consistency)剔除錯(cuò)誤匹配,顯著提升了在低紋理與弱光場(chǎng)景下的魯棒性。三目系統(tǒng)還能夠利用不同視角下的遮擋信息(occlusion reasoning)進(jìn)行遮擋補(bǔ)償,彌補(bǔ)雙目在部分遮擋物體(如行人背后夾雜車輛或路牌)時(shí)深度估計(jì)的盲區(qū)。三目系統(tǒng)的一個(gè)挑戰(zhàn)是算法復(fù)雜度,如何高效構(gòu)建三維代價(jià)體、如何在保證實(shí)時(shí)性的前提下完成多對(duì)視差匹配、如何動(dòng)態(tài)選擇最優(yōu)基線對(duì)進(jìn)行深度融合,都是亟需解決的問(wèn)題。在硬件方面,為了減輕時(shí)間同步與數(shù)據(jù)帶寬壓力,通常會(huì)采用板載FPGA或?qū)S?a class="article-link" target="_blank" href="/tag/ISP/">ISP(Image Signal Processor)進(jìn)行初步預(yù)處理與視差計(jì)算,然后再將稀疏或半密集的深度信息傳輸給主算力單元。
技術(shù)方案
在更高階的自動(dòng)駕駛車輛上,為了實(shí)現(xiàn)360°無(wú)死角監(jiān)控與高精度三維重建,廠商往往會(huì)將前向雙目或三目視覺(jué)與側(cè)向、后向、俯瞰等多路攝像頭結(jié)合,構(gòu)成四目、六目甚至八目的多視角網(wǎng)絡(luò)。此時(shí),系統(tǒng)需要解決的關(guān)鍵問(wèn)題不僅僅是單對(duì)深度估計(jì),更包括跨視角的時(shí)空對(duì)齊(temporal-spatial synchronization)、全局標(biāo)定(global extrinsic calibration)、多視角深度融合(multiview depth fusion)與全景拼接(panorama stitching)。在全景感知中,車輛往往需要同時(shí)執(zhí)行多任務(wù),前方車輛與行人的距離測(cè)量、側(cè)向障礙物的實(shí)時(shí)告警、倒車時(shí)的俯視圖生成,以及自動(dòng)泊車中的全景軌跡規(guī)劃。多目布局能夠提供更豐富的冗余信息,即便某一路攝像頭因泥污、強(qiáng)逆光或物理?yè)p壞暫時(shí)失效,系統(tǒng)仍能依靠其它視角的深度信息維持基礎(chǔ)感知能力,從而滿足高安全等級(jí)(ASIL D)對(duì)感知冗余的要求。
單目方案憑借極低的硬件成本與成熟的深度學(xué)習(xí)生態(tài),成為市面上大量量產(chǎn)車型實(shí)現(xiàn)L2?級(jí)別自動(dòng)輔助駕駛的主流選擇;雙目方案在特定場(chǎng)景(如干式公路、高速公路集群貨運(yùn))中能夠提供亞米級(jí)精度,成為部分L3?級(jí)自動(dòng)駕駛示范區(qū)的首選;而三目及多目方案則主要出現(xiàn)在少數(shù)高端概念車與少量具備大量數(shù)據(jù)標(biāo)注與計(jì)算資源支持的示范車隊(duì)中。對(duì)于工程實(shí)現(xiàn)而言,還需考慮視覺(jué)傳感器與整車CAN總線、以太網(wǎng)交換機(jī)的帶寬匹配;車載算力單元(如NVIDIA DRIVE、Mobileye EyeQ)對(duì)并行視覺(jué)算法的部署能力;視覺(jué)算法與其他傳感器(LiDAR、毫米波雷達(dá)、超聲波雷達(dá))的融合策略以及在極端天氣(雨、雪、霧、夜間)下的抗干擾與抗閃爍能力。
當(dāng)前,為提升單目與雙目在復(fù)雜場(chǎng)景下的魯棒性,主流做法是將視覺(jué)深度估計(jì)與雷達(dá)或LiDAR點(diǎn)云進(jìn)行時(shí)空融合,通過(guò)深度校正網(wǎng)絡(luò)(depth correction network)對(duì)單目估計(jì)值進(jìn)行回歸補(bǔ)償,或利用Kalman濾波與圖優(yōu)化(graph optimization)框架將多源深度信息整合到同一幀時(shí)空參照系內(nèi)。對(duì)于三目與多目系統(tǒng),則往往采用多視角神經(jīng)網(wǎng)絡(luò)(multiview neural network),直接在稠密的多目代價(jià)體上進(jìn)行端到端訓(xùn)練,以統(tǒng)一的方式生成更高精度、更少噪聲的稠密深度圖。此外,利用自監(jiān)督式多視角重投影損失(photometric consistency)與幾何一致性約束(geometric consistency),進(jìn)一步優(yōu)化深度估計(jì)的精度和邊緣完整性。
結(jié)語(yǔ)
其實(shí)單目、雙目與三目乃至多目攝像頭方案各有千秋,單目以簡(jiǎn)馭繁、成本友好;雙目以立體、精度可控;三目以多基線、魯棒性更強(qiáng)。隨著算法的精進(jìn)與硬件的升級(jí),三目與多目系統(tǒng)在復(fù)雜場(chǎng)景下的優(yōu)勢(shì)將日益凸顯,但其算力與集成成本也需要工程團(tuán)隊(duì)在量產(chǎn)化中不斷權(quán)衡優(yōu)化。自動(dòng)駕駛視覺(jué)方案的選擇,從來(lái)不只是“目”數(shù)越多越好,而是要在安全冗余、深度精度、實(shí)時(shí)算力與成本之間找到最佳平衡,最終服務(wù)于可持續(xù)、大規(guī)模部署的智能出行愿景。