• 正文
    • 01、從GPU到ASIC,算力經(jīng)濟(jì)學(xué)走向分水嶺
    • 02、ASIC的“手術(shù)刀”:非核心模塊,通通砍掉
    • 03“新地圖”價(jià)值遠(yuǎn)不止1000億美元
    • 04結(jié)語(yǔ)
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

DeepSeek掀起算力革命,英偉達(dá)搖挑戰(zhàn)加劇,ASIC芯片悄然崛起

03/11 10:40
2006
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:由我、蘇揚(yáng),編輯:鄭可君

編者按:芯事重重“算力經(jīng)濟(jì)學(xué)”系列研究,聚焦算力、成本相關(guān)話題的技術(shù)分析、產(chǎn)業(yè)穿透,本期聚焦ASIC芯片自研與產(chǎn)業(yè)鏈研究。本文系基于公開(kāi)資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議。

DeepSeek帶動(dòng)推理需求爆發(fā),英偉達(dá)的“算力霸權(quán)”被撕開(kāi)一道口子,一個(gè)新世界的大門逐漸打開(kāi)——由ASIC芯片主導(dǎo)的算力革命,正從靜默走向喧囂。日前,芯流智庫(kù)援引知情人士的消息,稱DeepSeek正在籌備AI芯片自研。相比這個(gè)后起之秀,國(guó)內(nèi)大廠如阿里、百度、字節(jié)們更早就跨過(guò)了“自研”的大門。大洋彼岸,OpenAI自研芯片的新進(jìn)展也在年初釋出,外媒披露博通為其定制的首款芯片幾個(gè)月內(nèi)將在臺(tái)積電流片。此前更是一度傳出Sam Altman計(jì)劃籌集70000億美元打造“芯片帝國(guó)”,設(shè)計(jì)與制造通吃。此外,谷歌、亞馬遜、微軟、Meta也都先后加入了這場(chǎng)“自研熱潮”。一個(gè)明顯的信號(hào)是——無(wú)論DeepSeek、OpenAI,還是中國(guó)公司和硅谷大廠,誰(shuí)都不希望在算力時(shí)代掉隊(duì)。而ASIC芯片,可能會(huì)成為他們跨越新世界大門的入場(chǎng)券。這會(huì)不會(huì)“殺死”英偉達(dá)?或者,會(huì)不會(huì)“再造”第二個(gè)英偉達(dá)?現(xiàn)在還沒(méi)有答案。不過(guò)可以明確的是,這場(chǎng)轟轟烈烈的“自研浪潮”,其上游的產(chǎn)業(yè)鏈企業(yè)已經(jīng)“春江水暖鴨先知”,例如給各家大廠提供設(shè)計(jì)定制服務(wù)的博通,業(yè)績(jī)已經(jīng)“起飛”:2024年AI業(yè)務(wù)收入同比240%,達(dá)到37億美元;2025Q1AI業(yè)務(wù)營(yíng)收41億美元,同比增77%;其中80%來(lái)自ASIC芯片設(shè)計(jì)。在博通的眼里,ASIC芯片這塊蛋糕,價(jià)值超過(guò)900億美元。

01、從GPU到ASIC,算力經(jīng)濟(jì)學(xué)走向分水嶺

低成本是AI推理爆發(fā)的必要條件,與之相對(duì)的是——通用GPU芯片成了AI爆發(fā)的黃金枷鎖。英偉達(dá)的H100和A100是大模型訓(xùn)練的絕對(duì)王者,甚至連B200、H200也讓科技巨頭們趨之若鶩。金融時(shí)報(bào)此前援引Omdia的數(shù)據(jù),2024年,英偉達(dá)Hopper架構(gòu)芯片的主要客戶包括微軟、Meta、Tesla/xAI等,其中微軟的訂單量達(dá)到50萬(wàn)張。但是,作為通用GPU的絕對(duì)統(tǒng)治者,英偉達(dá)產(chǎn)品方案其“硬幣的另一面”已逐漸顯現(xiàn):高昂的成本與冗余的能耗。

成本方面,單個(gè)H100售價(jià)超3萬(wàn)美元,訓(xùn)練千億參數(shù)模型需上萬(wàn)張GPU,再加上網(wǎng)絡(luò)硬件、存儲(chǔ)和安全等后續(xù)的投入,總計(jì)超5億美元。根據(jù)匯豐的數(shù)據(jù),最新一代的GB200 NVL72方案,單機(jī)柜超過(guò)300萬(wàn)美元,NVL36也在180萬(wàn)美元左右。

可以說(shuō),基于通用GPU的模型訓(xùn)練太貴了,只不過(guò)是算力不受限制的硅谷,仍然偏向于“力大磚飛”的敘事,資本支出并未就此減速。就在日前,馬斯克旗下xAI,不久之前公布的Grok-3,訓(xùn)練的服務(wù)器規(guī)模,已經(jīng)達(dá)到了20萬(wàn)張GPU的規(guī)模。騰訊科技聯(lián)合硅兔賽跑推出的《兩萬(wàn)字詳解最全2025 AI關(guān)鍵洞察》一文提到,超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商預(yù)計(jì)2024年資本支出(CapEx)超過(guò) 2000億美元,到2025年這一數(shù)字預(yù)計(jì)將接近2500億美元,且主要資源都將傾斜給人工智能。

能耗方面,根據(jù)SemiAnalysis的測(cè)算,10萬(wàn)卡H100集群,總功耗為150MW,每年耗費(fèi)1.59TWh的電量,按0.078美元/千瓦時(shí)計(jì)算,每年電費(fèi)高達(dá)1.239億美元。對(duì)照OpenAI公布的數(shù)據(jù),推理階段GPU的算力利用率僅30%-50%,“邊算邊等”現(xiàn)象顯著,如此低效的性能利用率,在推理時(shí)代,確實(shí)是大材小用,浪費(fèi)過(guò)于嚴(yán)重。

谷歌此前公布的TPU V4與A100針對(duì)不同架構(gòu)模型的訓(xùn)練速度性能領(lǐng)先、價(jià)格昂貴,效率不佳,外加生態(tài)壁壘,過(guò)去一年業(yè)內(nèi)都在喊“天下苦英偉達(dá)久矣”——云廠商逐漸喪失硬件自主權(quán),疊加供應(yīng)鏈風(fēng)險(xiǎn),再加上AMD暫時(shí)還“扶不起來(lái)”,諸多因素倒逼巨頭開(kāi)始自研ASIC專用芯片。

自此,AI芯片戰(zhàn)場(chǎng),從技術(shù)競(jìng)賽轉(zhuǎn)向經(jīng)濟(jì)性博弈。正如西南證券的研究結(jié)論,“當(dāng)模型架構(gòu)進(jìn)入收斂期,算力投入的每一美元都必須產(chǎn)出可量化的經(jīng)濟(jì)收益?!睆谋泵涝茝S商最近反饋的進(jìn)展看,ASIC已體現(xiàn)出一定的替代優(yōu)勢(shì):

●?谷歌:博通為谷歌定制的TPU v5芯片在Llama-3推理場(chǎng)景中,單位算力成本較H100降低70%。

●?亞馬遜:3nm制程的AWS Trainium 3,同等算力下能耗僅為通用GPU的1/3,年節(jié)省電費(fèi)超千萬(wàn)美元;據(jù)了解,亞馬遜Trainium芯片2024年出貨量已超50萬(wàn)片。

●?微軟:根據(jù)IDC數(shù)據(jù),微軟Azure自研ASIC后,硬件采購(gòu)成本占比從75%降至58%,擺脫長(zhǎng)期被動(dòng)的議價(jià)困境。

作為北美ASIC鏈的最大受益者,博通這一趨勢(shì)在數(shù)據(jù)中愈發(fā)顯著。博通2024年AI業(yè)務(wù)收入37億美元,同比增240%,其中80%來(lái)自ASIC設(shè)計(jì)服務(wù)。2025Q1,其AI業(yè)務(wù)營(yíng)收41億美元,同比增77%,同時(shí)預(yù)計(jì)第二季度AI營(yíng)收44億美元,同比增44%。

早在年報(bào)期間,博通指引2027年ASIC收入將大爆發(fā),給市場(chǎng)畫(huà)了3年之后ASIC芯片將有望達(dá)到900億美元的市場(chǎng)規(guī)模這個(gè)大餅。Q1電話會(huì)期間,公司再次重申了這一點(diǎn)。憑借這個(gè)大的產(chǎn)業(yè)趨勢(shì),博通也成為全球繼英偉達(dá)、臺(tái)積電之后,第三家市值破1萬(wàn)億美元的半導(dǎo)體公司,同時(shí)也帶動(dòng)了海外對(duì)于Marvell、AIchip等公司的關(guān)注。

不過(guò),有一點(diǎn)需要強(qiáng)調(diào)——“ASIC雖好,但也不會(huì)殺死GPU”。微軟、谷歌、Meta都在下場(chǎng)自研,但同時(shí)又都在搶英偉達(dá)B200的首發(fā),這其實(shí)說(shuō)明了雙方之間不是直接的競(jìng)爭(zhēng)關(guān)系。更客觀的結(jié)論應(yīng)該是,GPU仍將主導(dǎo)高性能的訓(xùn)練市場(chǎng),推理場(chǎng)景中由于GPU的通用性仍將是最主要的芯片,但在未來(lái)接近4000億美元的AI芯片藍(lán)海市場(chǎng)中,ASIC的滲透路徑已清晰可見(jiàn)。

IDC預(yù)測(cè),2024-2026年推理場(chǎng)景中,ASIC占比從15%提升至40%,即最高1600億美元。這場(chǎng)變革的終局或許是:ASIC接管80%的推理市場(chǎng),GPU退守訓(xùn)練和圖形領(lǐng)域。真正的贏家將是那些既懂硅片、又懂場(chǎng)景的“雙棲玩家”,英偉達(dá)顯然是其中一員,看好ASIC斷然不是唱空英偉達(dá)。而新世界的指南,是去尋找除英偉達(dá)之外的雙棲玩家,如何掘金ASIC新紀(jì)元。

02、ASIC的“手術(shù)刀”:非核心模塊,通通砍掉

錦緞在《DeepSeek的隱喻:GPU失其鹿,ASIC、SoC們共逐之》一文中詳解過(guò)SoC,而CPU、GPU用戶早已耳熟能詳,FPGA應(yīng)用市場(chǎng)小眾,最為陌生的當(dāng)屬ASIC。

特性 CPU GPU FPGA ASIC
定制化程度 通用 半通用 半定制化 全定制化
靈活性
成本 較低 較高
功耗 較高 較高
主要優(yōu)點(diǎn) 通用性最強(qiáng) 計(jì)算能力強(qiáng),生態(tài)成熟 靈活強(qiáng)較高 能效最高
主要缺點(diǎn) 并行算力弱 功耗較大,編程難度較大 峰值計(jì)算能力弱,編程難度較難 研發(fā)時(shí)間長(zhǎng),技術(shù)風(fēng)險(xiǎn)高
應(yīng)用場(chǎng)景 較少用于AI 云端訓(xùn)練和推理 云端推理,終端推理 云端訓(xùn)練和推理,終端推理

圖:算力芯片對(duì)比 資料來(lái)源:中泰證券

那么,都說(shuō)ASIC利好AI推理,究竟它是一個(gè)什么樣的芯片?

從架構(gòu)上來(lái)說(shuō), GPU這樣的通用芯片,其局限在于“以一敵百”的設(shè)計(jì)——需要兼顧圖形渲染、科學(xué)計(jì)算、不同的模型架構(gòu)等多元需求,導(dǎo)致大量晶體管資源浪費(fèi)在非核心功能模塊。

英偉達(dá)GPU最大的特點(diǎn),就是有眾多“小核”,這些“小核”可以類比成獵鷹火箭多臺(tái)發(fā)動(dòng)機(jī),開(kāi)發(fā)者可以憑借CUDA多年積累的算子庫(kù),平穩(wěn)、高效且靈活地調(diào)用這些小核用于并行計(jì)算。但如果下游模型相對(duì)確定,計(jì)算任務(wù)就是相對(duì)確定的,不需要那么多小核來(lái)保持靈活性,ASIC最底層的原理正是如此,所以也被稱為全定制化高算力芯片。通過(guò) “手術(shù)刀式”精準(zhǔn)裁剪,僅保留與目標(biāo)場(chǎng)景強(qiáng)相關(guān)的硬件單元,釋放出驚人的效率,這在谷歌、亞馬遜都已經(jīng)在產(chǎn)品上得到了驗(yàn)證。

谷歌TPU v5e AI加速器實(shí)拍對(duì)于GPU來(lái)說(shuō),調(diào)用它們最好的工具是英偉達(dá)的CUDA,而對(duì)于ASIC芯片,調(diào)用它們的是云廠商自研的算法,這對(duì)于軟件起家的大廠來(lái)說(shuō),并不是什么難事:

● 谷歌TPU v4中,95%的晶體管資源用于矩陣乘法單元和向量處理單元,專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化,而GPU中類似單元的占比不足60%。

● 不同于傳統(tǒng)馮·諾依曼架構(gòu)的“計(jì)算-存儲(chǔ)”分離模式,ASIC可圍繞算法特征定制數(shù)據(jù)流。例如在博通為Meta定制的推薦系統(tǒng)芯片中,計(jì)算單元直接嵌入存儲(chǔ)控制器周圍,數(shù)據(jù)移動(dòng)距離縮短70%,延遲降低至GPU的1/8。

● 針對(duì)AI模型中50%-90%的權(quán)重稀疏特性,亞馬遜Trainium2芯片嵌入稀疏計(jì)算引擎,可跳過(guò)零值計(jì)算環(huán)節(jié),理論性能提升300%。當(dāng)算法趨于固定,對(duì)于確定性的垂直場(chǎng)景,ASIC就是具有天然的優(yōu)勢(shì),ASIC設(shè)計(jì)的終極目標(biāo)是讓芯片本身成為算法的“物理化身”。在過(guò)去的歷史和正在發(fā)生的現(xiàn)實(shí)中,我們都能夠找到ASIC成功的力證,比如礦機(jī)芯片。

早期,行業(yè)都是用英偉達(dá)的GPU挖礦,后期隨著挖礦難度提升,電力消耗超過(guò)挖礦收益(非常類似現(xiàn)在的推理需求),挖礦專用ASIC芯片爆發(fā)。雖然通用性遠(yuǎn)不如GPU,但礦機(jī)ASIC將并行度極致化。例如,比特大陸的比特幣礦機(jī)ASIC,同時(shí)部署數(shù)萬(wàn)個(gè)SHA-256哈希計(jì)算單元,實(shí)現(xiàn)單一算法下的超線性加速,算力密度達(dá)到GPU的1000倍以上。不僅專用能力大幅提升,而且能耗實(shí)現(xiàn)了系統(tǒng)級(jí)節(jié)省。此外,使用ASIC可精簡(jiǎn)外圍電路(如不再需要PCIe接口的復(fù)雜協(xié)議棧),主板面積減少40%,整機(jī)成本下降25%。

低成本、高效率,支持硬件與場(chǎng)景深度咬合,這些ASIC技術(shù)內(nèi)核,天然適配AI產(chǎn)業(yè)從“暴力堆算力”到“精細(xì)化效率革命”的轉(zhuǎn)型需求。隨著推理時(shí)代的到來(lái),ASIC成本優(yōu)勢(shì)將重演礦機(jī)的歷史,實(shí)現(xiàn)規(guī)模效應(yīng)下的“死亡交叉”——盡管初期研發(fā)成本高昂(單芯片設(shè)計(jì)費(fèi)用約5000萬(wàn)美元),但其邊際成本下降曲線遠(yuǎn)陡于通用GPU。以谷歌TPU v4為例,當(dāng)出貨量從10萬(wàn)片增至100萬(wàn)片時(shí),單顆成本從3800美元驟降至1200美元,降幅接近70%,而GPU的成本降幅通常不超過(guò)30%。根據(jù)產(chǎn)業(yè)鏈最新信息,谷歌TPU v6預(yù)計(jì)2025年出貨160萬(wàn)片,單片算力較前代提升3倍,ASIC的性價(jià)比,還在快速提升。

這又引申出一個(gè)新的話題,是否所有人都可以涌入自研ASIC大潮中去?這取決于自研成本與需求量。按照7nm工藝的ASIC推理加速卡來(lái)計(jì)算,涉及IP授權(quán)費(fèi)用、人力成本、設(shè)計(jì)工具、掩模板在內(nèi)的一次流片費(fèi)用等,量級(jí)可能就在億元的級(jí)別,還不包括后期的量產(chǎn)成本。在這方面,大廠更具有資金優(yōu)勢(shì)。目前,像谷歌、亞馬遜這樣的云廠商,因?yàn)橛谐墒斓目蛻趔w系,能夠形成研發(fā)、銷售閉環(huán),自研上擁有先天的優(yōu)勢(shì)。Meta這種企業(yè),自研的邏輯則在于內(nèi)部本身就有天量級(jí)的算力需求。今年初,扎克伯格就曾透露,計(jì)劃在2025年上線約1GW的計(jì)算能力,并在年底前擁有超過(guò)130萬(wàn)張GPU。

03“新地圖”價(jià)值遠(yuǎn)不止1000億美元

僅僅是挖礦需求就帶來(lái)了近100億美元的市場(chǎng),所以當(dāng)博通2024年底喊出AI ASIC市場(chǎng)空間700-900億美元的時(shí)候,我們并不意外,甚至認(rèn)為可能這個(gè)數(shù)字都保守了?,F(xiàn)在,ASIC芯片的產(chǎn)業(yè)趨勢(shì)不應(yīng)當(dāng)再被質(zhì)疑,重點(diǎn)應(yīng)該是如何掌握“新地圖”的博弈法則。

近千億美元的AI ASIC市場(chǎng)中,已經(jīng)形成清晰的三大梯隊(duì)——“制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者” 、“產(chǎn)業(yè)鏈配套”、“垂直場(chǎng)景下的Fabless”。第一梯隊(duì),是制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者,他們可以制造單價(jià)超過(guò)1萬(wàn)美元的ASIC芯片,并與下游的云廠商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什么先進(jìn)芯片都會(huì)受益的代工王者——臺(tái)積電。第二梯隊(duì),產(chǎn)業(yè)鏈配套,已經(jīng)被市場(chǎng)關(guān)注到的配套邏輯包括先進(jìn)封裝與更下游的產(chǎn)業(yè)鏈。

● 先進(jìn)封裝:臺(tái)積電CoWoS產(chǎn)能的35%已轉(zhuǎn)向ASIC客戶,國(guó)產(chǎn)對(duì)應(yīng)的中芯國(guó)際、長(zhǎng)電科技、通富微電等。

● 云廠商英偉達(dá)硬件方案解耦帶來(lái)的新硬件機(jī)會(huì):如AEC銅纜,亞馬遜自研單顆ASIC需配3根AEC,若2027年ASIC出貨700萬(wàn)顆,對(duì)應(yīng)市場(chǎng)超50億美元,其他還包括服務(wù)器、PCB均是受益于相似邏輯。第三梯隊(duì),是正在醞釀的垂直場(chǎng)景的Fabless。

ASIC的本質(zhì)是需求驅(qū)動(dòng)型市場(chǎng),誰(shuí)能最先捕捉到場(chǎng)景痛點(diǎn),誰(shuí)就掌握定價(jià)權(quán)。ASIC的基因就是定制化,與垂直場(chǎng)景天然適配。以智駕芯片為例,作為典型的ASIC芯片,隨著比亞迪等All in智駕,這類產(chǎn)品開(kāi)始進(jìn)入爆發(fā)期。

映射全球ASIC產(chǎn)業(yè)鏈三大梯隊(duì)對(duì)應(yīng)的機(jī)會(huì),可以看作是國(guó)產(chǎn)的“三把秘鑰”。受制于禁令的限制,國(guó)產(chǎn)GPU與英偉達(dá)的差距仍然巨大,生態(tài)建設(shè)也是一個(gè)漫長(zhǎng)的路程,但是對(duì)于ASIC,我們甚至與海外在同一起跑線上,再結(jié)合垂直場(chǎng)景,中國(guó)不少Fabless能夠做出更有能效比的產(chǎn)品,前面提及的礦機(jī)ASIC、智駕ASIC以及阿里平頭哥的含光、百度的昆侖芯這些AI ASIC。

與之配套的芯片制造,主要依賴中芯國(guó)際,中興旗下的中興微等則是新入場(chǎng)的“玩家”,不排除未來(lái)他們將與國(guó)內(nèi)廠商合作,上演一場(chǎng)“誰(shuí)將是中國(guó)博通”的戲碼。

銅纜產(chǎn)業(yè)鏈配套部分難度相對(duì)較低,對(duì)應(yīng)的服務(wù)器、光模塊、交換機(jī)、PCB、銅纜,由于技術(shù)難度低,國(guó)內(nèi)企業(yè)本來(lái)競(jìng)爭(zhēng)力就比較強(qiáng)。與此同時(shí),這些產(chǎn)業(yè)鏈企業(yè)與國(guó)產(chǎn)算力屬于“共生”關(guān)系,ASIC芯片產(chǎn)業(yè)鏈也不會(huì)缺席。應(yīng)用場(chǎng)景上,除了反復(fù)提及的智駕芯片和AI推理加速卡,其他國(guó)產(chǎn)設(shè)計(jì)公司的機(jī)會(huì),取決于什么場(chǎng)景能爆發(fā),對(duì)應(yīng)哪些公司又能把握住機(jī)遇。

04結(jié)語(yǔ)

當(dāng)AI從大力出奇跡的訓(xùn)練軍備競(jìng)賽,躍進(jìn)推理追求能效的深水區(qū),算力戰(zhàn)爭(zhēng)的下半場(chǎng)注定屬于那些能將技術(shù)狂想,轉(zhuǎn)化為經(jīng)濟(jì)賬本的公司。ASIC芯片的逆襲,不僅是一場(chǎng)技術(shù)革命,更是一本關(guān)于效率、成本和話語(yǔ)權(quán)的商業(yè)啟示錄。在這場(chǎng)新的牌局中,中國(guó)選手的籌碼正在悄然增加——機(jī)會(huì)永遠(yuǎn)留給準(zhǔn)備好的人。

相關(guān)推薦