從2D+CNN小模型到BEV+Transformer大模型,模型參數(shù)量暴增,存儲成為性能瓶頸
全球汽車存儲芯片市場規(guī)模將從2023年的43億美元左右,到2030年增長至170億美元以上,復合增長率高達22%,汽車存儲芯片在汽車半導體中的價值占比,2023年在8.2%,預計到2030年將上升至17.4%,存儲芯片成本將大幅上升。
2023-2030年全球汽車芯片市場規(guī)模預測
汽車存儲芯片行業(yè)發(fā)展的主要驅動力在于車載LLM大模型快速興起,從過去的2D+CNN小模型到BEV+Transformer大模型,模型參數(shù)量大幅提升,算力需求驟增。CNN模型參數(shù)通常不到1000萬,大模型即LLM的參數(shù)一般在70億至2000億之間,經過蒸餾后的車端模型參數(shù)也已高達幾十億級別。
從計算角度看,BEV+Transformer大模型以LLaMA為代表的解碼器架構中,Softmax算子成為核心,其并行化能力低于傳統(tǒng)卷積(Convolution)算子,導致存儲成為瓶頸,特別是存儲密集型模型如GPT,對存儲帶寬要求高,市面上常見的自動駕駛 SoC 芯片常面臨“存儲墻”問題。
端到端實際上是內嵌了一個小型LLM,隨著喂養(yǎng)數(shù)據(jù)的增加,這個大模型的參數(shù)會越來越大,最初階段的模型大小大概是100億參數(shù),經過不斷迭代最終會達到1000億以上。
2025年4月15日,小鵬汽車在AI分享會上首次對外披露正在研發(fā)720億參數(shù)的超大規(guī)模自動駕駛大模型,即“小鵬世界基座模型”。小鵬的實驗結果表明,在10億、30億、70億、720億參數(shù)的模型上都看到了明顯的規(guī)模法則(Scaling Law)效應:參數(shù)規(guī)模越大,模型的能力越強。同樣的模型大小,訓練數(shù)據(jù)量越大,模型的能力也會越強。
多模態(tài)模型訓練的主要瓶頸不僅是 GPU,也需要解決數(shù)據(jù)訪問的效率問題。小鵬汽車自主開發(fā)了底層的數(shù)據(jù)基礎設施(Data Infra),使數(shù)據(jù)上傳規(guī)模提升22倍、訓練中的數(shù)據(jù)帶寬提升15倍;通過聯(lián)合優(yōu)化 GPU / CPU 以及網絡 I/O,最終使模型訓練速度提升了 5 倍。目前,小鵬汽車用于訓練基座模型的視頻數(shù)據(jù)量高達2000萬clips,這一數(shù)字今年將增加到2億clips。
未來,小鵬將 “小鵬世界基座模型” 通過云端蒸餾小模型的方式將基模部署到車端,車端大模型參數(shù)規(guī)模只能越來越大,對計算芯片和存儲都帶來巨大挑戰(zhàn)?;诖?,小鵬汽車自研了圖靈AI芯片,芯片比通用車規(guī)高算力芯片利用率提升20%,最高能處理30B(300億)參數(shù)的大模型,相較之下,當前理想汽車的VLM(視覺-語言模型)參數(shù)量約為22億。
模型參數(shù)量越大,也往往伴隨著模型推理的較高延遲問題,如何解決時延問題至關重要,預計圖靈AI芯片可能通過多通道設計或先進封裝技術實現(xiàn)存儲帶寬的顯著提升,以支持30B參數(shù)大模型的本地運行。
存儲帶寬決定了推理計算速度的上限,LPDDR5X將被普遍采用,但仍顯不足,GDDR7、HBM或將提上規(guī)劃日程
存儲帶寬決定了推理計算速度的上限。假設一個大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲是7GB,特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s,即每110毫秒生成一個token,幀率不到10Hz,自動駕駛領域一般圖像幀率是30Hz。英偉達的Orin存儲帶寬是204.5GB/s,即每34毫秒生成一個token(7GB除以204.5GB/s=0.0343s,約34ms),勉強可以達到30Hz(幀率=1除以0.0343s=29Hz),注意這只是計算的數(shù)據(jù)搬運所需的時間,數(shù)據(jù)計算的時間都完全忽略了,實際速度要遠低于這個數(shù)據(jù)。
DRAM存儲芯片選擇路徑(1):LPDDR5X將被普遍采用,LPDDR6標準仍在制定中
除了特斯拉,目前所有的車載芯片最高只對應LPDDR5,下一步業(yè)界將主推LPDDR5X,譬如美光已推出車規(guī)級 LPDDR5X+DLEP DRAM方案,已通過 ISO26262 ASIL-D 認證,可以滿足關鍵的汽車FuSa要求。
英偉達Thor-X已支持車規(guī)級 LPDDR5X,內存帶寬增至273GB/s,支持LPDDR5X標準,支持PCIe 5.0接口。Thor-X-Super內存帶寬則達到了驚人的546GB/s,采用了512位寬的LPDDR5X內存,確保了極高的數(shù)據(jù)吞吐量,實際Super和蘋果系列芯片一樣,就是將兩片X放進一個封裝里,但短期內預計不會量產投放。
Thor也有多個版本,目前已知的有5個:①Thor-Super,2000T算力;②Thor-X,1000T 算力;③Thor-S,700T 算力;④Thor-U,500T 算力;⑤Thor-Z,300T 算力。聯(lián)想全球第一個Thor中央計算單元計劃采用雙Thor-X。
美光9600MTPS 的LPDDR5X已經有樣片,主要面向移動端,但還沒車規(guī)級產品。三星的 LPDDR5X 新品K3KL9L90DM-MHCU,可用于PC、服務器、汽車以及新興的端側AI應用,比前代快1.25倍、功耗效率提升25%,最高工作溫度105℃,2025年初量產,單片8GB,x32總線,使用8片,共64GB。
隨著 LPDDR5X 逐步邁入 9600Mbps 甚至 10Gbps 時代,JEDEC 已啟動下一代 LPDDR6 的標準制定。面向 6G 通信、L4 自動駕駛、沉浸式 AR/VR 場景。LPDDR6作為下一代內存技術,預計速率將突破10.7Gbps,甚至最高可能達到14.4Gbps,帶寬和能效均有提升,比現(xiàn)在使用的LPDDR5X提升了50%。然而,大規(guī)模量產LPDDR6內存可能還需要等到2026年,高通的下一代旗艦芯片驍龍8 Elite Gen 2(代號SM8850)將支持LPDDR6。車規(guī)級LPDDR6則可能更為久遠。
DRAM存儲芯片選擇路徑(2):GDDR6雖已上車,但面臨成本與能耗的問題,下一代GDDR7+LPDDR5X的混合存儲架構或有可為
除了LPDDR5X,另一條路徑則是選擇GDDR6或GDDR7,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量為32GB,型號為MT61M512M32KPA-14,頻率1750MHz(LPDDR5最低也是3200MHz之上),由于是第一代GDDR6,速度較低。即使用了GDDR6,要流暢運行百億級別的大模型,還是無法實現(xiàn),不過已經是目前最好的了。
特斯拉的第三代FSD芯片應該正在開發(fā)中,可能2025年底可以完成開發(fā),至少支持GDDR6X。
而再下一代的GDDR7正式標準在2024年3月公布,三星在2023年7月就發(fā)布了全球首款GDDR7,目前SK 海力士和美光也都有GDRR7產品推出。GDDR需要特殊的物理層和控制器,芯片必須內置GDDR的物理層和控制器才能用上GDDR,Rambus和新思科技都有相關IP出售。
未來自動駕駛芯片可能采用混合存儲架構,例如用GDDR7處理高負載AI任務,而LPDDR5X負責低功耗常規(guī)運算,以平衡性能與成本。
DRAM存儲芯片選擇路徑(3):HBM2E已部署到L4 級Robotaxi,但距離量產乘用車仍有較遠距離,存儲芯片廠商正推動HBM從數(shù)據(jù)中心向端側技術遷移
HBM主要用于服務器領域,將SDRAM用TSV工藝堆疊起來,增加的成本不僅僅是內存本身,還有臺積電CoWoS工藝的成本,CoWoS目前產能緊張,價格高昂。HBM存儲價格遠遠高于量產乘用車常用的 LPDDR5X、LPDDR5、LPDDR4X等,不具備經濟性。
SK 海力士的HBM2E正用于Waymo 的L4 級Robotaxi,且是獨家供應商,容量高達8GB,傳輸速度達到3.2Gbps,實現(xiàn)了驚人的410GB/s帶寬,為行業(yè)樹立了新標桿。
SK 海力士是目前市場上唯一一家能提供符合嚴苛AEC-Q車規(guī)標準的HBM芯片制造商。SK 海力士正積極與NVIDIA、Tesla等自動駕駛領域解決方案巨頭的合作,將HBM的應用從AI數(shù)據(jù)中心拓展到智能汽車市場。
SK 海力士和三星都正在將HBM從數(shù)據(jù)中心向手機、汽車等端側應用遷移,HBM在移動設備領域的滲透將圍繞端側AI性能提升和低功耗設計展開,技術創(chuàng)新與產業(yè)鏈協(xié)同是關鍵驅動力,成本與良率仍是短期主要挑戰(zhàn),主要涉及到HBM生產工藝改良。
核心差異:傳統(tǒng)數(shù)據(jù)中心HBM是為高性能計算設計的“大帶寬、高功耗”方案;而端側HBM是為移動端定制的“中帶寬、低功耗”解決方案。
技術路徑:傳統(tǒng)數(shù)據(jù)中心HBM依賴TSV和中介層;而端側HBM則通過封裝創(chuàng)新(如垂直引線鍵合)和低功耗DRAM技術實現(xiàn)性能突破。
以三星為例,采用類似技術的產品LPW DRAM(LP Wide I/O DRAM),其具備低延遲和高達128GB/s的帶寬性能,同時能耗僅為1.2pJ/b,計劃于2025-2026年實現(xiàn)商業(yè)化量產。
LPW DRAM通過堆疊LPDDR DRAM,大幅提升了I/O接口的數(shù)量,以達到提高性能和減少能耗的雙重目標。其帶寬可達200GB/s以上,較現(xiàn)有的LPDDR5X提升了166%;同時其功耗降至1.9pJ/bit,比LPDDR5X低54%。
UFS3.1已大規(guī)模上車,將逐漸迭代至UFS4.0、UFS5.0,同時PCIe SSD將成為L3/L4高級別自動駕駛汽車的首選
目前,高階自動駕駛汽車已將UFS 3.1存儲作為主流選擇,隨著車載傳感器、算力的不斷提升,更高規(guī)格的數(shù)據(jù)傳輸方案勢在必行,UFS 4.0產品將成為未來主流的選擇之一。UFS 3.1版本最高2.9GB/s,與SSD有幾十倍的差距,下一代4.0版本4.2GB/s,UFS 4.0相較于UFS 3.1,在速度上有所提升,功耗降低30%;預計到2027年會有5.0版本,估計達到10GB/s,跟SSD還是差距明顯,但好在成本可控,供應鏈穩(wěn)定。
考慮到大模型無論在座艙還是智能駕駛都有強烈需求,且為了留出足夠的性能余量,更應該采用SSD,目前主流的UFS不夠快,eMMC就更慢了。車規(guī)級SSD采用的是PCIe標準,PCIe的彈性空間極大,潛力巨大。JESD312確定的是PCIe 4.0標準,實際其包含多個速率,4通道是最低的PCIe 4.0標準,16通道雙工可以到64GB/s,而PCIe 5.0標準已于2019年發(fā)布了,PCIe5.0將信號速率翻倍到了32GT/s,x16雙工帶寬更是接近128GB/s。
目前,美光和三星都有車規(guī)級SSD,三星是AM9C1系列,128GB到1TB都有。美光則推出了4150AT系列,4150AT系列有220GB、440GB、900GB和1800GB四種,其中220GB級別用于單獨的座艙或智能駕駛,艙駕一體至少要用440GB。
多端口BGA SSD可以作為汽車中央存儲計算單元,通過各端口與座艙、ADAS、網關等SoC連接,高效處理并存儲不同數(shù)據(jù)到所需區(qū)域。其獨立性優(yōu)勢確保非核心SoC無法未授權訪問核心數(shù)據(jù),避免影響、識別、銷毀核心SoC的數(shù)據(jù),這將最大的保證對數(shù)據(jù)傳輸?shù)淖璨l(fā)性和數(shù)據(jù)獨立性,并降低各個SoC對于車用存儲的硬件成本。
對于再往后的L3/L4級高級別自動駕駛汽車,PCIe 5.0 x4 + NVMe 2.0 將是高性能存儲的首選:
超高速傳輸:讀取速度高達 14.5GB/s,寫入速度達 13.6GB/s,是 UFS 4.0 的 3 倍
低延遲 & 高并發(fā):支持更高隊列深度(QD32+),并行處理多個數(shù)據(jù)流
AI 計算優(yōu)化:與車載 SoC 結合,可加速 AI 推理計算,滿足全自動駕駛需求
在自動駕駛應用中,PCIe NVMe SSD 可用于緩存 AI 計算數(shù)據(jù),減少內存訪問壓力,提高實時處理能力。例如,Tesla FSD 系統(tǒng)就采用高速 NVMe 方案存儲自動駕駛訓練數(shù)據(jù),以提高感知和決策效率。
目前,新思科技(Synopsys)已推出了全球首款汽車級PCIe 5.0 IP解決方案,囊括了PCIe控制器、安全模塊、物理層設備(PHY)以及驗證IP,并遵循ISO 26262和ISO/SAE 21434標準。這意味著PCIe 5.0將很快進入車規(guī)應用。