作者|王飛,郵箱|wf@pingwest.com
當(dāng)ChatGPT在2022年橫空出世,大模型技術(shù)掀起全球科技浪潮時(shí),它開始改變了人工智能,慢慢又改變了語(yǔ)音對(duì)話,它進(jìn)一步地試探進(jìn)入到了交互領(lǐng)域,但很少有人能預(yù)見(jiàn)到,僅僅三年后,這股AI革命浪潮會(huì)深刻地改變汽車行業(yè)。
這場(chǎng)關(guān)乎智能汽車的革命浪潮以一種名為VLA的技術(shù)展開,也是以一種“Agent”的方式。
如果你關(guān)注智能輔助駕駛行業(yè),應(yīng)該了解這兩年的熱詞“端到端”。
關(guān)于VLA,全名則為Vision-Language-Action,作為視覺(jué)-語(yǔ)言-行為三位一體的大模型架構(gòu),不少業(yè)內(nèi)人士將VLA技術(shù)視為當(dāng)下“端到端”方案的進(jìn)階版本——它將空間智能、語(yǔ)言智能和行為智能統(tǒng)一在一個(gè)模型里,由此它也擁有更高的場(chǎng)景推理能力與泛化能力。
簡(jiǎn)而言之,有VLA賦能的車不再只是一個(gè)駕駛工具,而是一個(gè)能與用戶溝通、理解用戶意圖的智能體,通過(guò)語(yǔ)言模型和邏輯推理結(jié)合在一起之后,它能夠成為一個(gè)聽(tīng)得懂、看得見(jiàn)、找得到,真正意義上的“司機(jī)Agent”。
自動(dòng)駕駛技術(shù)正在經(jīng)歷的一場(chǎng)靜悄悄但深刻的范式轉(zhuǎn)移:從規(guī)則驅(qū)動(dòng)向?qū)W習(xí)驅(qū)動(dòng),從分布式感知-決策-控制向端到端一體化架構(gòu),再到今天VLA的多模態(tài)融合統(tǒng)一建模。技術(shù)不再只是模塊疊加的堆棧,也不再滿足于“看得見(jiàn)”和“聽(tīng)得懂”,而是要求AI真正“行動(dòng)起來(lái)”?!八緳C(jī)Agent”也擁有像人類司機(jī)一樣理解環(huán)境、做出判斷并立即執(zhí)行的能力——成為像人一樣在復(fù)雜世界中感知、理解、推理和行動(dòng)的整體智能體。
放眼硅谷到北京,大洋彼岸的Waymo到理想,在這種多模態(tài)模型與機(jī)器人框架的技術(shù)趨勢(shì)中,理想汽車成為了中國(guó)車企中走在最前面的一位踐行者。
在2025理想AI Talk第二季活動(dòng)上,理想汽車董事長(zhǎng)兼CEO李想聚焦理想汽車最新推出的VLA司機(jī)大模型,不僅展示了“司機(jī)Agent”,更通過(guò)他本人對(duì)AI與人性的深度思考,勾勒出了智能汽車發(fā)展的新范式——
AI不應(yīng)該是簡(jiǎn)單地將"汽車智能化",而是真正實(shí)現(xiàn)"人工智能的汽車化"。
從NOA到VLA,理想為何要實(shí)現(xiàn)AI三段跳?
理想并非是突然轉(zhuǎn)向VLA的。在此之前,也經(jīng)歷了充足的技術(shù)積累。
實(shí)話說(shuō),李想此前在第一季AI?Talk上首次提出公司未來(lái)是一家領(lǐng)先的人工智能企業(yè)的時(shí)候,很多人可能并沒(méi)有g(shù)et到他在表達(dá)什么。
但如果你觀摩了理想這連續(xù)的兩季AI Talk活動(dòng),大概能看出這家公司是如何奔向“連接物理世界和數(shù)字世界,成為全球領(lǐng)先的人工智能企業(yè)”企業(yè)愿景的。
在第一季AI Talk活動(dòng)中,理想展示出了技術(shù)路徑其一:將公司汽車的銷量擠到中國(guó)市場(chǎng)的領(lǐng)先地位,賣出年銷量50萬(wàn)輛的汽車,在車上全部部署上端到端技術(shù)、Mind GPT,隨后Mind GPT經(jīng)過(guò)1.0/2.0,然后到3o多模態(tài)智能體的迭代后,理想決定推出理想同學(xué)App,讓這個(gè)語(yǔ)音助手觸及到更多的人。
第二季AI Talk活動(dòng)中,理想回顧了在輔助駕駛領(lǐng)域的發(fā)展歷程,我們也可以清晰地看到一條從量變到質(zhì)變的技術(shù)演進(jìn)路線:2023年年底,全場(chǎng)景NOA的推送標(biāo)志著理想輔助駕駛從高速向城市場(chǎng)景的延展,為用戶帶來(lái)了更全面的智能輔助駕駛體驗(yàn)。而2024年7月15日推送的無(wú)圖NOA功能,則首次實(shí)現(xiàn)了對(duì)先驗(yàn)信息依賴的突破,讓車輛能夠在沒(méi)有高精度地圖的情況下依然保持良好的駕駛表現(xiàn)。
2024年10月23日,理想汽車推送的端到端+VLM功能,真正意義上實(shí)現(xiàn)了One Model一體化端到端模型的大規(guī)模實(shí)踐應(yīng)用,并首次將大模型部署至車端量產(chǎn)芯片。這一突破性進(jìn)展不僅體現(xiàn)了理想在AI算法上的深厚積累,更展示了其在車規(guī)級(jí)硬件與大模型融合方面的獨(dú)特優(yōu)勢(shì)。
2025年3月18日,理想汽車正式發(fā)布下一代自動(dòng)駕駛架構(gòu)VLA。這在業(yè)內(nèi)算是一次質(zhì)的飛躍——當(dāng)眾多汽車品牌仍在為L(zhǎng)2級(jí)輔助駕駛技術(shù)優(yōu)化細(xì)節(jié)時(shí),理想汽車卻完成了一場(chǎng)田徑運(yùn)動(dòng)中的"三級(jí)跳",通過(guò)層層遞進(jìn)取得成績(jī),理想汽車的智能駕駛技術(shù)經(jīng)歷了從規(guī)則算法、到無(wú)圖NOA、再到端到端+VLM,最終邁向VLA司機(jī)大模型的"三段"進(jìn)化。
如果從結(jié)果來(lái)驗(yàn)證這其中的規(guī)律:從無(wú)圖NOA到端到端+VLM,再到VLA司機(jī)大模型,每一步都至關(guān)重要,且每一階段都是不可跨越。
比如NOA這一階段的核心在于感知能力和環(huán)境適應(yīng)性的提升,是連接規(guī)則算法和端到端模型的關(guān)鍵橋梁。
第二階段端到端+VLM功能,標(biāo)志著從規(guī)則驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)的根本轉(zhuǎn)變。
前兩個(gè)階段的技術(shù)沉淀,解決了兩個(gè)問(wèn)題:一是前期沒(méi)有足夠的數(shù)據(jù)支撐模型訓(xùn)練;二是缺乏規(guī)則約束導(dǎo)致的安全風(fēng)險(xiǎn)。
汽車駕駛不同于簡(jiǎn)單的互聯(lián)網(wǎng)應(yīng)用,它直接關(guān)系到用戶的生命安全,需要在實(shí)際道路環(huán)境中反復(fù)驗(yàn)證和迭代。
如果沒(méi)有通過(guò)前期收集的大量實(shí)際道路數(shù)據(jù)和規(guī)則算法的約束,成功訓(xùn)練出了穩(wěn)定可靠的端到端模型,并將其與VLM視覺(jué)語(yǔ)言模型結(jié)合,就無(wú)法初步實(shí)現(xiàn)了系統(tǒng)對(duì)環(huán)境的"理解",只是簡(jiǎn)單的"識(shí)別"。
理想的VLA從“輔助”到“智能體”的躍遷,建立在前三個(gè)階段所有技術(shù)積累的基礎(chǔ)之上。如果沒(méi)有規(guī)則算法打下的基礎(chǔ),系統(tǒng)就無(wú)法理解基本駕駛規(guī)則;如果沒(méi)有無(wú)圖NOA階段鍛造的環(huán)境適應(yīng)能力,系統(tǒng)就無(wú)法應(yīng)對(duì)未知場(chǎng)景;如果沒(méi)有端到端+VLM階段的模型整合經(jīng)驗(yàn),VLA的三位一體架構(gòu)就無(wú)從談起。
從一定程度上來(lái)說(shuō),VLA技術(shù)的成功離不開中國(guó)本土AI市場(chǎng)的崛起。
另外,也正如DeepSeek在大模型領(lǐng)域的發(fā)展路徑所示,從構(gòu)建集群能力到基建、鏈路的優(yōu)化,通過(guò)這些前期的積累,才能實(shí)現(xiàn)低成本和高效率的AI應(yīng)用。DeepSeek不可能一步到位構(gòu)建出強(qiáng)大的大語(yǔ)言模型,而是經(jīng)歷了從基礎(chǔ)算法研究、數(shù)據(jù)收集清洗、模型架構(gòu)優(yōu)化到最終產(chǎn)品落地的完整過(guò)程。
李想也在活動(dòng)上強(qiáng)調(diào):"如果規(guī)則算法都做不好,根本不知道怎么去做端到端;如果端到端沒(méi)有做到一個(gè)極致的水平,那連VLA怎么訓(xùn)練都無(wú)從談起。"這也再次證明,這個(gè)過(guò)程中沒(méi)有捷徑可走,每一步都是通往下一步的必要鋪墊。
司機(jī)Agent,VLA的實(shí)力
說(shuō)了這么多,VLA到底可以實(shí)現(xiàn)什么樣的功能?
前面提到,VLA(Vision-Language-Action)是視覺(jué)-語(yǔ)言-行為大模型,代表著機(jī)器人大模型的新范式。它將空間智能、語(yǔ)言智能和行為智能統(tǒng)一在一個(gè)模型中,賦予了系統(tǒng)強(qiáng)大的3D空間理解能力、邏輯推理能力和行為生成能力,讓自動(dòng)駕駛系統(tǒng)真正具備感知、思考和適應(yīng)環(huán)境的能力。
在理想最新公布的demo視頻里,理想的這個(gè)“司機(jī)Agent”展示了其“能聽(tīng)懂人話”且“直接執(zhí)行”的智能輔助駕駛能力:
比如在通過(guò)高速收費(fèi)站時(shí),可以直接說(shuō)“走人工”,系統(tǒng)就可以從眾多的ETC收費(fèi)通道中轉(zhuǎn)向人工收費(fèi)通道。在日常的駕駛環(huán)節(jié),也可以通過(guò)“前方掉頭”和“靠邊停車”的簡(jiǎn)單指令,調(diào)整行車路線——就像是我們平時(shí)和代駕司機(jī)直接溝通的水準(zhǔn)。
從技術(shù)原理上看,前文提到的端到端+VLM的階段,VLA并非簡(jiǎn)單地將端到端模型和VLM模型結(jié)合在一起,而是所有模塊的全新設(shè)計(jì)與整合。
據(jù)介紹,其工作流程可概括為:3D空間編碼器通過(guò)語(yǔ)言模型處理后,與邏輯推理結(jié)合,給出合理的駕駛決策,并輸出一組action token(動(dòng)作詞元)。這些action token是對(duì)周圍環(huán)境和自車駕駛行為的編碼,隨后通過(guò)diffusion(擴(kuò)散模型)進(jìn)一步優(yōu)化出最佳的駕駛軌跡。整個(gè)推理過(guò)程都發(fā)生在車端,并且實(shí)現(xiàn)了實(shí)時(shí)運(yùn)行,這對(duì)計(jì)算效率和系統(tǒng)響應(yīng)速度提出了極高要求。
我們嘗試簡(jiǎn)單類比解讀一下:
- 視覺(jué)智能(Vision):就像人類駕駛員通過(guò)眼睛觀察道路情況,VLA通過(guò)車載攝像頭和傳感器"看見(jiàn)"周圍環(huán)境。但不同于傳統(tǒng)系統(tǒng)只是識(shí)別物體,VLA能夠理解場(chǎng)景的語(yǔ)義和空間關(guān)系。這就像是從"我看到一個(gè)紅色物體"升級(jí)到"我明白這是一個(gè)紅燈,需要停車,而且它位于前方十米處的十字路口"。語(yǔ)言智能(Language):如果說(shuō)視覺(jué)智能是VLA的"眼睛",那么語(yǔ)言智能就是它的"大腦"。通過(guò)強(qiáng)大的語(yǔ)言理解和推理能力,VLA可以處理復(fù)雜的人類指令,理解上下文,并將視覺(jué)信息與語(yǔ)言知識(shí)融合。比如當(dāng)你說(shuō)"在前面路口掉頭"時(shí),VLA不僅能識(shí)別出"路口"這個(gè)概念,還能將它與視覺(jué)中看到的道路匹配,理解"前面"這個(gè)相對(duì)位置,并執(zhí)行適當(dāng)?shù)耐\嚥僮?。行為智能(Action):這是VLA最與眾不同的部分,它不只是理解,還能采取行動(dòng)。VLA將對(duì)環(huán)境的理解轉(zhuǎn)化為精確的駕駛決策,生成平滑、自然的駕駛軌跡。這就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī),不僅知道何時(shí)轉(zhuǎn)彎,還知道如何以合適的速度和角度完成轉(zhuǎn)彎,使乘客感到舒適。
相對(duì)直觀地理解VLA的工作原理,可以盡可能地將其想象成一個(gè)高效的駕駛決策鏈條。
理想稱,理想輔助駕駛系統(tǒng)從"端到端+VLM雙模型分立"向"VLA三位一體架構(gòu)"的躍遷,本質(zhì)上是突破了多模態(tài)協(xié)同效率與物理世界建模能力的雙重瓶頸。
多模態(tài)協(xié)同效率問(wèn)題可以理解為:之前的雙模型架構(gòu)就像兩個(gè)專家各自獨(dú)立工作——一個(gè)負(fù)責(zé)開車,一個(gè)負(fù)責(zé)理解指令,溝通效率低下。兩個(gè)模型工作頻率不同,聯(lián)合訓(xùn)練和優(yōu)化困難。想象一下兩個(gè)人合開一輛車,一個(gè)人負(fù)責(zé)方向盤,一個(gè)人負(fù)責(zé)油門和剎車,卻無(wú)法流暢溝通,這顯然會(huì)導(dǎo)致駕駛不協(xié)調(diào)。VLA則將這兩位專家的能力整合在一個(gè)大腦中,實(shí)現(xiàn)了無(wú)縫協(xié)作。
物理世界建模能力不足則更像是:基于千問(wèn)等大模型的VLM雖然在互聯(lián)網(wǎng)2D圖文數(shù)據(jù)上訓(xùn)練充分,但對(duì)于3D世界的理解和專業(yè)駕駛知識(shí)存在短板。就像一個(gè)在模擬器上學(xué)習(xí)駕駛的人,缺乏真實(shí)道路的立體感和空間認(rèn)知。VLA通過(guò)專門的3D空間編碼技術(shù)和大量真實(shí)駕駛數(shù)據(jù)訓(xùn)練,彌補(bǔ)了這一不足。
從視頻上的效果來(lái)看,VLA能夠更好的處理人類駕駛行為的多模態(tài)性,可以適應(yīng)更多駕駛風(fēng)格。
這也是前文所提到的,語(yǔ)言模型和邏輯推理結(jié)合在一起之后,它能夠成為一個(gè)聽(tīng)得懂、看得見(jiàn)、找得到,真正意義上的“司機(jī)Agent”。
“類似人和代駕的關(guān)系,人們?cè)趺春痛{說(shuō),就怎么和司機(jī)Agent說(shuō)。”
理想率先駛?cè)霟o(wú)人區(qū)
很明顯,VLA技術(shù)的突破,在汽車座艙和車輛駕駛層面進(jìn)行了結(jié)合,也拉高了智能輔助駕駛系統(tǒng)的上限。
李想將智能輔助駕駛拆解成了三個(gè)發(fā)展階段,用自然界中不同的物種進(jìn)行了形象的比喻:
- 第一階段,昆蟲動(dòng)物智能。通過(guò)機(jī)器學(xué)習(xí)感知配合規(guī)則算法的分段式輔助駕駛解決方案,需要有既定的規(guī)則,同時(shí)依賴高精地圖,類似螞蟻的行動(dòng)和完成任務(wù)的方式。第二階段,哺乳動(dòng)物智能。端到端階段通過(guò)大模型學(xué)習(xí)人類駕駛行為(類似馬戲團(tuán)的動(dòng)物),但其對(duì)物理世界的理解并不充分,此階段通過(guò)三維圖像判斷自身速度和軌跡以及在空間中所處的位置,足以應(yīng)對(duì)大部分泛化場(chǎng)景,但很難解決從未遇到過(guò)或特別復(fù)雜的問(wèn)題,此時(shí)需要配合視覺(jué)語(yǔ)言VLM模型,但現(xiàn)有視覺(jué)語(yǔ)言模型在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)只能起到輔助作用。第三階段,人類智能。VLA階段可以實(shí)現(xiàn)類似人類觀察世界的方式,利用3D視覺(jué)和2D的組合構(gòu)建更真實(shí)的物理世界,VLA擁有自己的腦系統(tǒng),進(jìn)一步理解物理世界,還具備語(yǔ)言和思維鏈系統(tǒng),也就是VLA的司機(jī)大模型。
這同時(shí)也對(duì)應(yīng)著李想本人對(duì)于AI工具的分級(jí)制度——信息工具、輔助工具和生產(chǎn)工具,"我覺(jué)得人工智能變成生產(chǎn)工具,然后才是真正人工智能爆發(fā)的時(shí)刻。"
一定程度上,這也是在強(qiáng)調(diào),司機(jī)Agent——VLA技術(shù)有望成為具備這種生產(chǎn)工具特征的先驅(qū)者。
從人工智能行業(yè)來(lái)看,VLA是“機(jī)器人模型”的一種,是Physical AI的原型。在ChatGPT、Gemini等數(shù)字智能代表主導(dǎo)的軟件智能浪潮之后,AI的下一個(gè)風(fēng)口毫無(wú)疑問(wèn)將是物理智能。汽車,作為最復(fù)雜的物理空間智能終端,是理想選擇的主要切入口。一旦VLA模式在車上跑通,空間智能+語(yǔ)言智能+行為智能三者的融合,一定程度也將為其他領(lǐng)域的機(jī)器人模型打下范式基礎(chǔ)。
OpenAI、DeepSeek等大模型公司雖強(qiáng),但他們并未真正涉足汽車領(lǐng)域的空間智能與行為建模,更沒(méi)有語(yǔ)料、數(shù)據(jù)和場(chǎng)景去覆蓋家庭用戶與真實(shí)路況的多樣性。正因如此,理想選擇了自己下場(chǎng),打造自己的基座模型。實(shí)打?qū)嵉刂v,Language層上借助DeepSeek,但空間智能和行為智能部分也得靠自己一步步打磨,嘗試建立閉環(huán)能力的雛形。
“交通工具”能否能成“空間機(jī)器人”尚未可知,但司機(jī)智能體確實(shí)是人工智能汽車化的無(wú)人區(qū)。
這場(chǎng)變革,不只是理想的突破,更是AI進(jìn)化的必然。
正如手機(jī)并非因通話而被重新定義,而是因其成為“數(shù)字生活中樞”才改變了世界——今天的汽車,也將在VLA的驅(qū)動(dòng)下,從“移動(dòng)交通工具”進(jìn)化為“移動(dòng)智能空間”,成為AI與人的共生載體。
而這條從端到端走向VLA的進(jìn)化之路,或許才剛剛開始。