• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

理想智駕的VLA模型及其結(jié)構(gòu)

04/25 14:33
563
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

我們之前文章《2025年,自動(dòng)駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享過VLA,現(xiàn)在,不少公司已經(jīng)宣稱會(huì)在2025年下半年都會(huì)推出此類模型結(jié)構(gòu)。

理想算是比較早喊出使用VLA模型做智能駕駛的公司,VLA將感知(3D編碼器)、推理(語言模型)、決策(擴(kuò)散策略)整合為單一可訓(xùn)模型,也就是端到端大模型的一種。同時(shí)理想表示,他的VLA將同時(shí)支持外部多模態(tài)的交互,例如駕駛員的語音交互,周邊指定的視覺輸入,實(shí)現(xiàn)智駕聽得懂,看得見,找得到。

所以,本文將通過理想相關(guān)信息來拆解分享理想智駕VLA算法。理想VLA模型架構(gòu)的四大核心模塊:

    V-Spatial Intelligence,通過汽車傳感器輸入的信息,將感知和自車模態(tài)3D建模,形成開車的環(huán)境和自我的理解,并將這些信息token化。L–Linguistic Intelligence,大語言模型,這個(gè)大語言模型基本上就是目前AI的token everyting,token就是AI的語言,其他外部輸入,例如駕駛員語言控制也token化,統(tǒng)一進(jìn)行類似于語言的推理。A-Action Policy,產(chǎn)生動(dòng)作,類似于人類駕駛員,推理出當(dāng)前環(huán)境和自車情況之后,產(chǎn)出一條駕駛路徑。基于擴(kuò)散模型生成多模態(tài)駕駛軌跡,支持自車與其他交通參與者的交互博弈。

以上,三步就組成了理想VLA的模型結(jié)構(gòu),從感知到,處理,最后到生產(chǎn)運(yùn)動(dòng)軌跡。同時(shí)整合為單一可訓(xùn)模型。如何訓(xùn)練呢?

    Reinforcement Learning,是理想VLA模型訓(xùn)練的方法,模型需要喂人類想要的數(shù)據(jù)和結(jié)論給到模型,模型以后遇到類似的情況才能正確的相應(yīng)。

理想采用世界模型的方式,世界模型也就是英偉達(dá)常說的“結(jié)合3D重建與生成技術(shù),構(gòu)建高保真,熟悉物理世界的虛擬環(huán)境”類似于英偉達(dá)cosmos此類。然后,通過人類給定的好案例用于強(qiáng)化學(xué)習(xí)訓(xùn)練和閉環(huán)驗(yàn)證。

理想VLA模型架構(gòu)的詳細(xì)構(gòu)建:首先是類似于攝像頭等傳感器的輸入。3D空間編碼器:攝像頭以及激光雷達(dá)信息進(jìn)行3D編碼,提煉成3D特征,形成3D空間理解;通過自監(jiān)督學(xué)習(xí)訓(xùn)練3D高斯表征,利用真實(shí)駕駛數(shù)據(jù)中的RGB圖像生成多尺度幾何和語義信息,無需人工標(biāo)注。此外,自車信息例如方位,導(dǎo)航信息進(jìn)行編碼。形成了3D空間理解的token。其實(shí)對于3D空間的理解,當(dāng)前主流的方向都是學(xué)習(xí)特斯拉的采用BEV Transformer以及occupancy的方式,具體可以點(diǎn)擊之前文章《智能駕駛-城市領(lǐng)航輔助必備的BEV以及Occupancy networks》。通過理想發(fā)布的信息,理想的創(chuàng)新是采用了Gaussian-Centric的方式表征多尺度3D幾何與語義信息。

有了這些被token化的感知信息,那么就需要推理模型。語言模型(MindGPT):理想表示,其LLM大語言模型完全從零訓(xùn)練,是理想的專用大語言模型(非開源模型改造),融合駕駛知識、邏輯推理能力和3D空間理解。熟悉大語言模型的都知道,大語言模型參數(shù)量巨大,需要推理的算力和實(shí)時(shí)性都難以實(shí)現(xiàn)自動(dòng)駕駛,所以理想宣稱其MindGPT通過Sparse Attention稀疏注意力機(jī)制和混合專家(MoE)架構(gòu)優(yōu)化推理效率,達(dá)到了10hz的輸出,也就是100ms能夠產(chǎn)生結(jié)論,而且還適應(yīng)車載芯片(如Orin X)的算力限制。Sparse Attention稀疏注意力機(jī)制和混合專家(MoE)都是今年爆火的Deepseek采用的方法,所以,如我之前文章《自動(dòng)駕駛新風(fēng)口:DeepSeek-R1 的“車端革命”》講到,Deepseek此類開源大模型通過專業(yè)化的數(shù)據(jù)訓(xùn)練再通過蒸餾成小模型就可以做成專用的小模型。此外理想還提到利用固定簡短CoT模板,來平衡實(shí)時(shí)性與邏輯深度。

對于此處的大模型應(yīng)用來講,主要的邏輯就是把大模型蒸餾輕量化,專業(yè)化,便于車端的小算力和實(shí)時(shí)化部署。有了推理之后,就是執(zhí)行變成駕駛的運(yùn)動(dòng)軌跡實(shí)現(xiàn)控車。行為生成器(Diffusion Policy):基于擴(kuò)散模型生成多模態(tài)駕駛軌跡,預(yù)測自車與他車軌跡,支持自車與其他交通參與者的交互博弈。通過ODE采樣器加速生成過程,實(shí)現(xiàn)2-3步穩(wěn)定輸出,滿足實(shí)時(shí)性要求。

真實(shí)端到端的魅力,就是以上幾個(gè)部分能夠融合打通,共用一套token,進(jìn)行無損和實(shí)時(shí)的信息傳遞,如何構(gòu)建這些token的參數(shù)parameters例如權(quán)重weight就是訓(xùn)練要干的事情了。對于模型的訓(xùn)練,理想汽車的強(qiáng)化學(xué)習(xí)(RL)框架依賴于一個(gè)高度逼真的世界模型,該模型通過結(jié)合場景重建與生成技術(shù)構(gòu)建,解決了傳統(tǒng)RL在自動(dòng)駕駛中因環(huán)境真實(shí)性不足導(dǎo)致的訓(xùn)練偏差問題。采用自監(jiān)督學(xué)習(xí)方法,通過多視角RGB圖像重建動(dòng)態(tài)3D場景,生成多尺度幾何與語義信息。3D高斯以點(diǎn)云形式表示場景,每個(gè)高斯點(diǎn)包含位置、顏色、透明度和協(xié)方差矩陣,能夠高效渲染復(fù)雜環(huán)境。

這樣VLA模型(端到端+語言模型)的訓(xùn)練可以基于在云端構(gòu)建虛擬3D環(huán)境,進(jìn)行數(shù)百萬公里的駕駛模擬,替代部分實(shí)車測試。寫在最后當(dāng)然,本文的主要信息其實(shí)算是理想汽車的公開而且偏向技術(shù)宣傳類的信息,至于效果怎么樣,還需要實(shí)際體驗(yàn),但本文信息還算能夠大概了解其算法結(jié)構(gòu),思路以及相關(guān)核心技術(shù)。此外,理想這套模型如果跑通,那么應(yīng)用于其他Physical AI 也是同理,例如機(jī)器人。
未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

    理想 2025 GTC 演講 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving

加入我們的知識星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。

理想汽車

理想汽車

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。收起

查看更多

相關(guān)推薦