【觀點(diǎn):全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外,還很難添加輔助模塊,如應(yīng)對(duì)交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無(wú)法適應(yīng)中國(guó)的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國(guó)如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM。】
經(jīng)典VLA流程
輸入前視視頻序列,VLM大模型對(duì)視頻理解、分析、提出駕駛建議,生成waypoint軌跡規(guī)劃,基本上一個(gè)VLM完成了所有任務(wù)。
端到端自動(dòng)駕駛技術(shù)演進(jìn)快速,從最初UniAD的模塊化分段端到端,半年后就演變?yōu)榛赩LA的全局式端到端和快慢雙系統(tǒng)端到端。而近期端到端再演進(jìn),VLA與特征提取模塊結(jié)合,與傳統(tǒng)的LLM而非VLM對(duì)齊,LLM做推理。軌跡規(guī)劃或者說(shuō)路徑規(guī)劃階段采用DiT即擴(kuò)散與Transformer結(jié)合,呈現(xiàn)三段式模塊化端到端。
地平線(xiàn)的SENNA
SENNA是目前開(kāi)環(huán)測(cè)試端到端智能駕駛全球第一名,多模態(tài)大模型即VLM在大規(guī)模駕駛數(shù)據(jù)上微調(diào),以提升其對(duì)駕駛場(chǎng)景的理解能力,并采用自然語(yǔ)言輸出高維決策指令,然后端到端模型基于大模型提供的決策指令,生成具體的規(guī)劃軌跡。VLM消耗運(yùn)算資源驚人,難以做到高頻率響應(yīng),應(yīng)該使用VLM的決策指令,可以最大利用其在語(yǔ)言任務(wù)上預(yù)訓(xùn)練的知識(shí)和常識(shí),生成合理的決策,并且避免預(yù)測(cè)精確數(shù)字效果欠佳的缺陷;另一方面,傳統(tǒng)模塊化端到端和傳統(tǒng)算法模型更擅長(zhǎng)精確的軌跡預(yù)測(cè),將高維決策的任務(wù)解耦,可以降低端到端模型學(xué)習(xí)的難度,提升其軌跡規(guī)劃的精確度。
一般VLA直接將前視圖像token化之后輸入VLA模型,如果是高分辨率圖像的話(huà),token數(shù)量太多,即使用英偉達(dá)H100也難以做到最低10Hz的下限。如果將圖像提取特征,token數(shù)量會(huì)大幅度減少,但這樣會(huì)增加一個(gè)特征提取模塊,通常就是BEVFormer,這樣就又回到了模塊化分段端到端。
世界模型和Diffusion Planner出現(xiàn)了,Diffusion Planner參數(shù)規(guī)模小,結(jié)構(gòu)簡(jiǎn)單能夠做到高頻響應(yīng),與世界模型或者強(qiáng)化學(xué)習(xí)結(jié)合訓(xùn)練也更為容易。目前,單純Diffusion Planner基本上能做到90分,有些強(qiáng)化學(xué)習(xí),如蘋(píng)果的自我博弈接近滿(mǎn)分,于是人們想到結(jié)合LLM和Diffusion Planner或者Diffusion Policy,既有高性能又有高效率,典型代表就是理想汽車(chē)的MindVLA。小米的Orion也類(lèi)似,軌跡規(guī)劃模型用了GRU生成式。
理想汽車(chē)MindVLA
理想汽車(chē)的VLA與傳統(tǒng)意義的VLA完全不同。傳統(tǒng)VLA即Vision Language Action,可以看做是多模態(tài)大模型即VLM的延伸,VLM主要做VQA任務(wù),基本就是看圖分析回答問(wèn)題,加入針對(duì)自動(dòng)駕駛監(jiān)督微調(diào)后增加一個(gè)輸出waypoint的任務(wù),即Action,也就成了VLA,是一個(gè)整體。理想汽車(chē)的MindVLA這里顯然不是,它分為三個(gè)模塊。
第一個(gè)模塊是感知模塊,或者說(shuō)世界建?;蛘哒f(shuō)環(huán)境特征提取。
理想汽車(chē)環(huán)境感知模塊
理想汽車(chē)采用了高斯中心的4D稀疏表示,目前自動(dòng)駕駛感知領(lǐng)域現(xiàn)有方法采用密集表示(例如,BEV鳥(niǎo)瞰圖)或稀疏表示(例如,實(shí)例框instance bounding box)進(jìn)行決策,這些方法在全面性和效率之間存在權(quán)衡。理想汽車(chē)探索了一個(gè)以高斯為中心的端到端自動(dòng)駕駛(GaussianAD)框架,并利用3D語(yǔ)義高斯來(lái)廣泛但稀疏地描述場(chǎng)景,也就是token數(shù)量很少。用均勻的3D高斯初始化場(chǎng)景,并使用周?chē)晥D圖像逐步完善它們以獲得3D高斯場(chǎng)景表示。然后使用稀疏卷積來(lái)高效執(zhí)行3D感知(例如,3D檢測(cè),語(yǔ)義地圖構(gòu)建)。
高斯分布類(lèi)似語(yǔ)言在LLM領(lǐng)域的token分布,兩者可以比較容易對(duì)齊,因此不使用VLM。
小米汽車(chē)用QT-Former取得與理想汽車(chē)近似的效果,引入一個(gè)輕量級(jí)的Querying Transformer(Q-Former),在凍結(jié)的圖像編碼器和LLM語(yǔ)言模型之間架起橋梁,也不需要用VLM。
理想汽車(chē)的Diffusion Planner與RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))聯(lián)合訓(xùn)練,擴(kuò)散模型(Diffusion Model)通過(guò)利用大規(guī)模離線(xiàn)數(shù)據(jù)對(duì)軌跡分布進(jìn)行建模,能夠生成復(fù)雜的軌跡。與傳統(tǒng)的自回歸transformer規(guī)劃方法不同,基于擴(kuò)散的規(guī)劃器通過(guò)一系列去噪步驟可以整體生成完整軌跡,無(wú)需依賴(lài)前向動(dòng)力學(xué)模型,有效解決了前向模型的關(guān)鍵局限性,特別適用于具有自動(dòng)駕駛長(zhǎng)周期或稀疏獎(jiǎng)勵(lì)的規(guī)劃任務(wù)。擴(kuò)散模式最早出現(xiàn)在視頻生成領(lǐng)域,即用文本生成視頻?!?/p>
擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的角色
強(qiáng)化學(xué)習(xí)中的規(guī)劃是指通過(guò)使用動(dòng)態(tài)模型在想象中做決策,再選擇最大化累積獎(jiǎng)勵(lì)的適當(dāng)動(dòng)作。規(guī)劃的過(guò)程通常會(huì)探索各種動(dòng)作和狀態(tài)的序列,從而提升決策的長(zhǎng)期效果。在基于模型的強(qiáng)化學(xué)習(xí)(MBRL,就是世界模型)框架中,規(guī)劃序列通常以自回歸方式進(jìn)行模擬,導(dǎo)致累積誤差。擴(kuò)散模型可以同時(shí)生成多步規(guī)劃序列?,F(xiàn)有論文用擴(kuò)散模型生成的目標(biāo)非常多樣,包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線(xiàn)評(píng)估時(shí)生成高獎(jiǎng)勵(lì)的軌跡,許多工作使用了有分類(lèi)器或無(wú)分類(lèi)器的引導(dǎo)采樣技術(shù)。
在擴(kuò)散策略領(lǐng)域,更類(lèi)似于無(wú)模型強(qiáng)化學(xué)習(xí)。Diffusion-QL 首先將擴(kuò)散策略與 Q 學(xué)習(xí)框架結(jié)合。由于擴(kuò)散模型擬合多模態(tài)分布的能力遠(yuǎn)超傳統(tǒng)模型,擴(kuò)散策略在由多個(gè)行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴(kuò)散策略與普通策略相同,通常以狀態(tài)作為條件生成動(dòng)作,同時(shí)考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴(kuò)散模型訓(xùn)練時(shí)加上加權(quán)的價(jià)值函數(shù)項(xiàng),而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標(biāo),用價(jià)值函數(shù)作為因子,調(diào)整擴(kuò)散模型學(xué)到的動(dòng)作分布。
擴(kuò)散模型的引入有助于離線(xiàn)強(qiáng)化學(xué)習(xí)策略擬合多模態(tài)數(shù)據(jù)分布并擴(kuò)展了策略的表征能力。Diffuser 首先提出了基于分類(lèi)器指導(dǎo)的高獎(jiǎng)勵(lì)軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時(shí),擴(kuò)散模型也能應(yīng)用在多任務(wù)與多智能體Collective Modeling強(qiáng)化學(xué)習(xí)場(chǎng)景。
清華大學(xué)聯(lián)合毫末智行、中科院自動(dòng)化所、港中文、上海交大、上海人工智能實(shí)驗(yàn)室的發(fā)表于ICLR 2025的論文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》,也是diffusion做路徑軌跡規(guī)劃的一個(gè)例子。
Diffusion Planner架構(gòu)
Diffusion Planner架構(gòu)考慮了周?chē)?chē)輛的歷史信息、道路信息和靜態(tài)障礙物,設(shè)計(jì)了簡(jiǎn)潔的編碼器結(jié)構(gòu)用于信息提取,并通過(guò)交叉注意力機(jī)制與加噪后的自車(chē)和周車(chē)軌跡進(jìn)行信息交互。此外還引入了額外的導(dǎo)航信息以及擴(kuò)散模型特有的加噪步數(shù)信息。為了避免模型重復(fù)自車(chē)歷史行為導(dǎo)致閉環(huán)性能下降,僅考慮自車(chē)當(dāng)前時(shí)刻的位置和朝向,并與周車(chē)的當(dāng)前狀態(tài)一起拼接到加噪軌跡中。通過(guò)這種方式,起始狀態(tài)的引導(dǎo)還能進(jìn)一步降低模型對(duì)未來(lái)軌跡生成的難度。
2025年3月,地平線(xiàn)和華中科技大學(xué)聯(lián)合發(fā)表論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》,與清華大學(xué)Diffusion planner思路差不多,地平線(xiàn)還考慮了前端感知。
數(shù)據(jù)來(lái)源:論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》
參數(shù)只有6千萬(wàn),在RTX4090上能夠做到45Hz,用雙Orin的話(huà)估計(jì)可以做到5-10Hz,已基本可以落地了。
英偉達(dá)的機(jī)器人通用VLA大模型GR00T-N1架構(gòu)
和理想的MindVLA類(lèi)似,不過(guò)英偉達(dá)把Action部分單獨(dú)算一個(gè)系統(tǒng),且與VLM是并行的,采用的是DiT模式,即Diffusion,不過(guò)骨干網(wǎng)用Transformer取代了U-NET。英偉達(dá)稱(chēng)其為快慢雙系統(tǒng),快系統(tǒng)就是Diffusion Action,最高可到200Hz,慢系統(tǒng)就是VLM(用阿里的Qwen2.5做基礎(chǔ)模型),用英偉達(dá)的L40顯卡(加上CPU大概5萬(wàn)人民幣),運(yùn)行頻率10Hz。
全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外,還很難添加輔助模塊,如應(yīng)對(duì)交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無(wú)法適應(yīng)中國(guó)的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國(guó)如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM。