前段時間,華為發(fā)布了一款針對AI智算場景的重磅產(chǎn)品——CloudMatrix384,在行業(yè)內(nèi)外引起了不小的震動。
CloudMatrix384是一個超節(jié)點(Super Node),相當于一臺超級“服務器”。它搭載了384顆華為昇騰NPU和192顆鯤鵬CPU,單卡推理吞吐量可以達到2300 Tokens/s。同時,推理的時延也得到了極大降低,原來100ms的增量Token輸出時延,現(xiàn)在降低到了50ms以下。
CloudMatrix384
輿論普遍認為,在目前全球AI算力需求高速增長的背景下,CloudMatrix384的橫空出世,將徹底打破國外對AI算力市場的壟斷,改變中國乃至全球AI產(chǎn)業(yè)的格局。
小棗君一直想寫一篇關于CloudMatrix384的文章,但苦于官方公開的資料太少,遲遲無法下筆。
現(xiàn)在,機會終于來了。
今天,華為開發(fā)者大會2025在東莞正式開幕。在主題演講環(huán)節(jié),華為常務董事、華為云計算 CEO張平安宣布,基于CloudMatrix384的昇騰AI云服務已經(jīng)全面上線,提供澎湃算力,供各行各業(yè)客戶使用。
在演講中,他還透露了更多的產(chǎn)品細節(jié),進一步揭開了CloudMatrix384昇騰AI云服務的神秘面紗。
接下來,小棗君就結合最新信息,給大家做個深入解讀。
█?CloudMatrix384的核心設計理念
如前面所說,CloudMatrix384是一個超節(jié)點,也是一個AI智算集群。
AI智算集群分為兩種模式,一種是Scale Up,另一種是Scale Out。
Scale Up是向上擴展(縱向擴展),增加單節(jié)點內(nèi)的GPU/NPU算卡數(shù)量。Scale Out是向外擴展(橫向擴展),增加節(jié)點的數(shù)量。
擁有16卡以上的Scale Up系統(tǒng),就是超節(jié)點。CloudMatrix384擁有384卡,算是目前超節(jié)點中規(guī)模最大的。
那么,CloudMatrix384是不是簡單地把384個卡“綁定”在一起,進行算力的疊加呢?
答案當然是否定的。
CloudMatrix384發(fā)布之后,很多人都只關心算力的大小,但實際上,這款產(chǎn)品最大的看點,在于它的設計理念。
華為在發(fā)布CloudMatrix384時,反復強調(diào)了三句話,即:“一切可池化”“一切皆對等”“一切可組合”。
這就是CloudMatrix384的核心設計理念??炊诉@三句話,才能真正看懂這款產(chǎn)品。
我先解釋一下這三句話的基本含義:
一切可池化,指的是在CloudMatrix384中,所有的資源都在資源池里。這個資源,不僅包括NPU,也包括CPU、內(nèi)存、網(wǎng)絡。(英偉達僅實現(xiàn)了GPU池化。)
一切皆對等,指的是資源池里的資源不再是主從式關系,而是對等關系。傳統(tǒng)的以CPU為中心的計算范式,已經(jīng)轉變?yōu)楦咝?、更靈活的CPU與NPU等對等架構。
一切可組合,則是指CloudMatrix384中池化的資源,可以根據(jù)不同的任務需求,像搭積木一樣,進行靈活調(diào)配組合。
華為認為,在人工智能大爆發(fā)的時代,單一類型的計算資源,單一節(jié)點的計算能力、存儲能力,以及配比固定、松散協(xié)同的擴展模式,已經(jīng)難以滿足日益復雜且快速變化的應用部署需求。
與其在傳統(tǒng)計算互聯(lián)構架上修修補補,不如創(chuàng)建一個新的架構。
CloudMatrix架構將NPU、CPU、內(nèi)存、網(wǎng)卡等所有資源完全解耦,形成可以獨立擴展的資源池,實現(xiàn)“由單算力轉向混合算力,由單機轉向集群,由傳統(tǒng)應用松散分布轉向多樣應用緊密融合”,是一個真正對等互聯(lián)的超節(jié)點架構。
大家看明白了嗎?我總結一下:
CloudMatrix384,是華為打造的新一代AI云基礎設施,實現(xiàn)了所有資源的邏輯解耦和對等池化,能夠更好地應對不斷增長的AIGC大模型訓推任務需求。它的核心思想,就是用“對等互聯(lián)池化”打造“強整體”,以系統(tǒng)化的思維,應對大模型訓推帶來的算力挑戰(zhàn)。
接下來,我們就根據(jù)具體的計算任務場景,看看CloudMatrix384是如何實現(xiàn)算力效率提升的。
█?Scale Up最強超節(jié)點
CloudMatrix384是一個擁有384個昇騰NPU的超節(jié)點,通過全新高速網(wǎng)絡MatrixLink全對等互聯(lián),變身為一臺超級“服務器”。
這臺“超級服務器”為AI而生,它的架構設計,能夠更好地匹配大模型的訓推任務。
我們舉個分布式推理技術的例子。
現(xiàn)在包括DeepSeek在內(nèi)的很多熱門大模型,都采用了MoE(Mixture of Experts,混合專家)架構。整個模型,包括了多個專門的子模型(“專家”),存在大量的專家并行(EP,Expert Paralelism)計算。
MoE架構
CloudMatrix384基于華為云分布式QingTian等技術,達成了一切可池化。它所提供的超強卡間互聯(lián)能力,能夠讓DeepSeek實現(xiàn)“一個專家一張卡”的模式,大幅提升推理任務的效率。
原因如下:
AIGC大模型推理過程包括了Prefill(預填充)和Decode(解碼)兩個階段,大模型推理要實現(xiàn)Prefill階段的"高吞吐"和Decode階段的的"低時延"。
Prefill階段和Decode階段
DeepSeek有256個固定專家+32個共享專家(288張卡),加上一些冗余卡(應對負載不均衡的情況),一共320張卡,用于Decode。Prefill大概會用到32張卡。加在一起,就是352張卡。
CloudMatrix384的384卡可以“一卡一專家”地完美契合這352張卡的計算任務,基于卡間互聯(lián)能力,能夠實現(xiàn)all to all(Full mesh)通信。值得注意的是,它不是單純疊卡的“大力出奇跡”,而是通過技術調(diào)優(yōu)來達成“高吞吐”和“低時延”的目標。
我們也可以用更簡單的方式來理解——
通過將計算任務在跨節(jié)點的專家間進行分布式處理,使得單次推理的批量大小(batch size)得以大幅增加。更大的批量處理能力可充分釋放并行計算潛力,減少單位計算的調(diào)度開銷,從而實現(xiàn)整體吞吐量的提升。
CloudMatrix384的池化算力資源,還可以更靈活地分工完成這些工作。分工肯定會帶來很多溝通成本(通信開銷),而CloudMatrix384的卡間通信能力,能夠hold得住這些成本。再舉一個池化架構幫助降低系統(tǒng)時延的例子:
大模型推理任務涉及到了一個KV Cache(鍵值緩存)技術。Prefill生成KV Cache,Decode使用和更新KV Cache。KV Cache會不斷增長,占用更多顯存。
KV Cache
前面說了,CloudMatrix384的池化不僅包括算卡,也包括內(nèi)存。它創(chuàng)建的解耦式共享內(nèi)存池(把所有的CPU高速內(nèi)存湊一塊),可以保存KV Cache,讓Prefill和Decode任務更快速、更均衡地訪問KV Cache,降低系統(tǒng)延遲。
根據(jù)上面這些例子,大家可以看出,CloudMatrix384的強大卡間通信能力和池化設計,是它實現(xiàn)高性能、高效率的關鍵因素。
在這些buff的加持下,CloudMatrix384不僅單節(jié)點算力很高(300Pflops),它的單卡計算和通信效率也非常驚人。CloudMatrix384的節(jié)點內(nèi)互聯(lián)帶寬高達2.8Tbps,遠高于英偉達的1.8Tbps。
這里還要補充說明一下:CloudMatrix384的強大卡間通信能力,得益于華為云Matrixlink親和性智能調(diào)度、重構網(wǎng)絡協(xié)議等技術能力,大幅提升了帶寬,降低了時延。
這些技術創(chuàng)新共同發(fā)揮作用,最終能將整體all to all通信效率提升30%。
█?Scale Out最大集群
我們剛才介紹了CloudMatrix384的Scale Up能力。接下來,我們看看Scale Out。
人工智能發(fā)展到現(xiàn)在,已經(jīng)邁入了萬億參數(shù)時代。如此龐大規(guī)模參數(shù)的模型訓練,動輒需要萬卡、十萬卡。
CloudMatrix384的Scale Out能力同樣很強。將432個CloudMatrix384進行級聯(lián),可以形成一個165888卡(384×432)的超級AI集群,提供10萬PFlops的驚人算力。
CloudMatrix384不僅能構建超大集群,還能實現(xiàn)極高的線性度。
線性度,就是1+1要盡量等于2。通常來說,算卡越多,損耗越多,線性度越差,1+1甚至可能只有1.6甚至1.2(舉例)。
線性度
CloudMatrix384的萬卡集群線性度可以做到95%以上,性能提升與資源擴展的比例接近1:1。
之所以能做到這一點,是因為華為云通過一系列算法和軟件調(diào)優(yōu),很好地解決了通信瓶頸和負載不均衡等會對線性度造成嚴重影響的問題。
例如,運用多任務算網(wǎng)存融合負載均衡算法,協(xié)同調(diào)度,實現(xiàn)全網(wǎng)無阻塞;結合集群并行調(diào)度等技術,提升資源的使用效率以及開發(fā)者的開發(fā)效率;在算力請求增加或減少時,系統(tǒng)能夠合理分配計算資源,實現(xiàn)節(jié)點內(nèi)(Scale Up)秒級伸縮,節(jié)點間(Scale Out)毫秒級極速彈性。
█?資源極致優(yōu)化,負載智能感知
前面我們已經(jīng)說過了,CloudMatrix384的所有資源都是池化的。這為資源的優(yōu)化調(diào)度創(chuàng)造了條件。
在大模型推理過程中,有些任務是計算密集型,有些任務是內(nèi)存(顯存)密集型。通過“一切可組合”,可以實現(xiàn)資源的最佳分配。
以前面提到的Prefill(預填充)和Decode(解碼)兩種任務為例。前者屬于典型的計算密集型,后者則是內(nèi)存帶寬密集型。
CloudMatrix384可以根據(jù)NPU資源情況、業(yè)務請求數(shù)據(jù)等多因子,估算負載的態(tài)勢,并結合新的編排模型,實現(xiàn)Prefill/Decode按比例組合,以及Prefill/Decode單獨擴縮容。這提升了計算資源分配的合理性,減少了資源閑置,節(jié)約了成本。
CloudMatrix384還支持訓推算力一體部署,比如白天推理,晚上訓練。訓推的算力可以按卡靈活分配,幫助客戶最優(yōu)使用資源。
這邊要提一下CloudMatrix384的“40天長穩(wěn)訓練、10分鐘快速恢復”能力。
大家都知道,AI大模型訓練經(jīng)常會出錯中斷。中斷后,需要時間進行恢復。這不僅拉長的訓練周期,也增加了大量的訓練成本。
CloudMatrix384借助昇騰云腦,實現(xiàn)了全棧故障感知、診斷與快速自動恢復。在快速恢復方面,CloudMatrix384配合“三層快恢技術”,可以實現(xiàn)萬卡集群故障10分鐘快速恢復。
█?最后的話
前不久,華為任正非在接受人民日報采訪的時候,說了這么一句話:
“我們單芯片還是落后美國一代,我們用數(shù)學補物理、非摩爾補摩爾,用群計算補單芯片,在結果上也能達到實用狀況?!?/p>
這句話,不正是指的CloudMatrix384超節(jié)點嗎?
任老爺子還是很坦誠的,華為昇騰芯片的單芯片算力確實不如英偉達的最新競品,而且,這個差距也不是短時間內(nèi)能夠彌補的。
但是,“單打獨斗”不行,可以“抱團”啊。正所謂“團結就是力量”,通過對等互聯(lián)池化,在底層架構上進行創(chuàng)新,也可以實現(xiàn)計算效率的提升,獲得競爭優(yōu)勢。
對于全球AI產(chǎn)業(yè)來說,摩爾定律逐漸放緩,芯片工藝制程越來越難提升,與其在單點算力上抓耳撓腮,不如學習一下華為,重構計算互聯(lián)架構,才能更好地適應新時代的需求,實現(xiàn)真正的系統(tǒng)最優(yōu)。
目前,CloudMatrix384昇騰AI云服務已經(jīng)在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數(shù)據(jù)中心規(guī)模上線。
新浪基于CloudMatrix384昇騰AI云服務,為“智慧小浪”智能服務體系構建了統(tǒng)一的推理平臺,推理的交付效率提升超過50%,模型上線速度成倍加快。通過軟硬協(xié)同調(diào)優(yōu),NPU利用率提升超過40%,讓每一份資源都得到更高效的使用。
硅基流動在CloudMatrix384昇騰AI云服務上部署DeepSeek-R1時,采納了大規(guī)模專家并行方案,通過多專家負載均衡和極致通信優(yōu)化,實現(xiàn)高吞吐及更高性能,大幅提升了用戶體驗。
總而言之,希望CloudMatrix384能走出一條屬于自己的特色發(fā)展之路,也希望國內(nèi)AI產(chǎn)業(yè)能帶來更多類似的創(chuàng)新產(chǎn)品。
日積月累,我們一定能夠實現(xiàn)彎道超車,打破壟斷,真正在國際舞臺上與巨頭們同臺競技,甚至引領全球AI發(fā)展。