理想成功,全靠油箱 - 這是理想汽車當(dāng)前最想證明給大家-“這是錯(cuò)誤的”。不得不說(shuō),理想非常精準(zhǔn)的抓住汽車電氣化轉(zhuǎn)型時(shí)候的一個(gè)機(jī)會(huì),找到技術(shù)跨越鴻溝的梯子 - 可油可電而且技術(shù)實(shí)現(xiàn)相對(duì)簡(jiǎn)單的增程式,發(fā)電機(jī)發(fā)電給電池充電,汽車其他所有結(jié)構(gòu)都類似于純電汽車結(jié)構(gòu)。具體可以點(diǎn)擊我們之前文章《理想汽車憑什么獲得新勢(shì)力銷量第一并在港股融資》查看。
理想從當(dāng)時(shí)的三個(gè)新勢(shì)力中脫穎而出,把其他兩個(gè)勢(shì)力甩的遠(yuǎn)遠(yuǎn)的,成為消費(fèi)者和資本都追捧的寵兒。最近理想廣泛推廣的VLA也成了大家追捧的熱門詞,所以本文圍繞以下三個(gè)方面構(gòu)建內(nèi)容,幫助大家全方位理解理想的VLA。
- 理想汽車為什么這個(gè)時(shí)候推出VLA?
- 理想汽車VLA能夠給智能輔助駕駛帶來(lái)哪些產(chǎn)品亮點(diǎn)?
- 理想汽車VLA到底怎么樣?
被圍獵的理想但從2022年開始,問(wèn)界推出增程式并且一年后銷量直逼理想,如果說(shuō)問(wèn)界的銷量給理想造成巨大威脅是有華為加持的話。那么從2023年開始推出增程式的零跑,自此登上了新能源新勢(shì)力的榜單,并且在2025年初就成為繼理想汽車之后的第二家盈利的新勢(shì)力。于是,這兩年增程式一發(fā)不可收拾,不管新勢(shì)力和傳統(tǒng)勢(shì)力,不管中國(guó)品牌還是外資品牌都在這兩年會(huì)上增程式。
所以,理想汽車現(xiàn)在危機(jī)感重重,他急需尋求他的第二曲線?-- 最會(huì)讀懂趨勢(shì)的理想汽車必然找到的是AI人工智能,AI人工智能是怎么發(fā)展的?到了哪個(gè)節(jié)點(diǎn)?利用好它,從產(chǎn)品和營(yíng)銷上狠狠的贏一把,樹立明確的有誘惑力和想象空間的產(chǎn)品標(biāo)簽,讓投資者看到發(fā)展希望,讓消費(fèi)者趨之若鶩。熟悉我們之前文章《2025 CES 英偉達(dá)發(fā)布洞察:Agentic AI/Physical AI 快速落地,未來(lái)已來(lái)》的讀者肯定知道Physical AI/Agentic AI就是當(dāng)前AI的趨勢(shì)和方向。
于是理想找到了新的標(biāo)簽 - 在智能輔助駕駛方面將兩個(gè)熱門AI詞都用上的Physical Agent,落地的技術(shù)是 VLA ,如果還不知道VLA是啥點(diǎn)擊《2025年,自動(dòng)駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》。
VLA落地的產(chǎn)品特點(diǎn)理想將他的VLA稱為MindVLA。并表示MindVLA將為用戶帶來(lái)全新的產(chǎn)品形態(tài)和產(chǎn)品體驗(yàn),由MindVLA賦能的汽車是聽得懂、看得見、找得到的專職司機(jī)。
“聽得懂”是用戶可以通過(guò)語(yǔ)音指令改變車輛的路線和行為,例如用戶在陌生園區(qū)尋找超市,只需要通過(guò)理想同學(xué)對(duì)車輛說(shuō):“帶我去找超市”,車輛將在沒(méi)有導(dǎo)航信息的情況下,自主漫游找到目的地;車輛行駛過(guò)程中,用戶還可以跟理想同學(xué)說(shuō):“開太快了”“應(yīng)該走左邊這條路”等,MindVLA能夠理解并執(zhí)行這些指令。
“看得見”是指MindVLA具備強(qiáng)大的通識(shí)能力,不僅能夠認(rèn)識(shí)星巴克、肯德基等不同的商店招牌,當(dāng)用戶在陌生地點(diǎn)找不到車輛時(shí),可以拍一張附近環(huán)境的照片發(fā)送給車輛,擁有MindVLA賦能的車輛能夠搜尋照片中的位置,并自動(dòng)找到用戶。
“找得到”意味著車輛可以自主地在地庫(kù)、園區(qū)和公共道路上漫游,其中典型應(yīng)用場(chǎng)景是用戶在商場(chǎng)地庫(kù)找不到車位時(shí),可以跟車輛說(shuō):“去找個(gè)車位停好”,車輛就會(huì)利用強(qiáng)大的空間推理能力自主尋找車位,即便遇到死胡同,車輛也會(huì)自如地倒車,重新尋找合適的車位停下,整個(gè)過(guò)程不依賴地圖或?qū)Ш叫畔?,完全依賴MindVLA的空間理解和邏輯推理能力。
總的一句話就是,和人一樣的交互,類似于一個(gè)專職司機(jī),但理想的Physical Agent 和 VLA?到底怎么樣,必須先拆解其技術(shù)原理。VLA?技術(shù)原理具體VLA模型結(jié)構(gòu)以及細(xì)節(jié)可以查看之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》,那么如何實(shí)現(xiàn)從工程上進(jìn)行實(shí)現(xiàn),具體有四個(gè)步驟:
首先,理想在云端訓(xùn)練了一個(gè)基座模型,基座模型訓(xùn)練的數(shù)據(jù)包含了三個(gè)部分?jǐn)?shù)據(jù),分別是vision(視覺(jué))的數(shù)據(jù),language(語(yǔ)言)的數(shù)據(jù)和VL(視覺(jué)和語(yǔ)言)聯(lián)合的數(shù)據(jù)。這個(gè)基座模型參數(shù)量大概是32B(320億),根據(jù)李想AI Talk演講信息,這個(gè)基座模型可能采用Deepseek開源蒸餾形成,最少也是借鑒結(jié)構(gòu)方法理論,例如MoE(混合專家模型),理想表示其模型有8個(gè)專家組成的MoE模型。有了這個(gè)基座模型之后,就將其蒸餾成一個(gè) 3.6B(36億)參數(shù)量的滿足車端部署的車端小模型。
其次,后訓(xùn)練,后訓(xùn)練將蒸餾的小模型變成VLA(司機(jī)大模型)。上一步的模型算是理解環(huán)境,這一步就是將action(行動(dòng))放進(jìn)來(lái),Action就是車輛規(guī)劃控制,將他們組合成一個(gè)VLA(司機(jī)大模型)的端到端,打通從感知到規(guī)控的鏈路,確保輸入感知信息然后輸出轉(zhuǎn)向,電們,剎車等車控。最終這個(gè)車端VLA模型參數(shù)量大概是4B (40億)。
第三步是強(qiáng)化的訓(xùn)練,算是駕駛針對(duì)性教育這個(gè)模型,理想強(qiáng)化訓(xùn)練分為兩個(gè)部分:第一個(gè)部分先做RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),利用理想原來(lái)積累的人類接管數(shù)據(jù)來(lái)訓(xùn)練,讓模型知道什么是好和不好。第二個(gè)部分是純粹的RL(強(qiáng)化學(xué)習(xí)),采用世界模型來(lái)訓(xùn)練,世界模型的概念其實(shí)就是人類世界的物理規(guī)則集合體,他可以用來(lái)教育或者叫訓(xùn)練模型,理想的世界模型包括三類規(guī)則:
- 舒適性規(guī)則 - 主要通過(guò)G 值(加速度數(shù)值)來(lái)判斷它的舒適性,給舒適性的反饋。安全碰撞規(guī)則 - 讓模型知道碰撞是不允許的。交通規(guī)則 - 不能違反交通規(guī)則。
舒適、交通規(guī)則和安全碰撞就是理想世界模型的三大規(guī)則。
以上三個(gè)階段就構(gòu)成了 VLA(司機(jī)大模型)。但怎么讓人和車交互組成所謂的Physical Agent?理想表示搭建一個(gè)司機(jī)的Agent(智能體),也就是語(yǔ)言,圖片的交互體系。他的邏輯是一些通用的短指令,部署在車端的 VLA(司機(jī)大模型)直接就處理了。如果是一些復(fù)雜的指令,其實(shí)先要到云端的 32B 模型那里處理完以后,再下發(fā)車端VLA。其實(shí)這里,可以發(fā)現(xiàn)理想VLA可能在一些特定的指令和環(huán)境能夠做好在這個(gè)類人的交互,但是復(fù)雜場(chǎng)景實(shí)時(shí)性難以得到保證。
以上就是完整的理想VLA方法和結(jié)構(gòu)體系。寫在最后總結(jié)起來(lái),和我們之前文章《自動(dòng)駕駛新風(fēng)口:DeepSeek-R1 的“車端革命”》預(yù)測(cè)的一樣。Deepseek算是AI大模型的Linux時(shí)刻,基于Deepseek開源應(yīng)用或者借鑒在不同行業(yè)中推廣應(yīng)用,理想走在了前列,至少“說(shuō)出來(lái)的”走在前列。理想在云端構(gòu)建了一個(gè)多模態(tài)的類Deepseek大模型,然后將其蒸餾成車端小模型,采用相同Token語(yǔ)言鏈接車輛規(guī)控以及人類交互。
但具體好不好用,通過(guò)公開文字和信息很難識(shí)別,畢竟我們最容易獲得的信息是別人想讓你看到的。不過(guò),理想VLA 確實(shí)從芯片底層交互的編譯進(jìn)行大量的先行工作,促使VLA在雙orin以及英偉達(dá)最新的Thor上都能夠使用,同時(shí)我們之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》講到在智能輔助駕駛算法領(lǐng)域創(chuàng)新性的采用3DGS、Diffusion、MoE、CoT等AI大模型領(lǐng)域技術(shù)。
未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄