1.?一體機(jī) (All-in-One Machine)
2025年上半年最火的AI產(chǎn)品是什么?
絕對(duì)是DeepSeek一體機(jī)。
沒(méi)有之一。
一體機(jī),顧名思義,就是將計(jì)算、存儲(chǔ)和部分互聯(lián)功能集成在單個(gè)機(jī)箱內(nèi)的智算機(jī)器。
一般配置?1到2顆通用型 CPU,核心數(shù)量適中,主要負(fù)責(zé)操作系統(tǒng)運(yùn)行、任務(wù)調(diào)度以及一些非計(jì)算密集型的工作負(fù)載。
當(dāng)然AI一體機(jī)中少不了GPU,通常配備?1到8塊高性能 GPU。
這些 GPU 通過(guò)?PCIe 總線?直接連接到 CPU,實(shí)現(xiàn)高速數(shù)據(jù)傳輸。
實(shí)際部署在多 GPU 配置中,NVIDIA 的?NVLink?等專有互聯(lián)技術(shù)可能用于 GPU 之間的高帶寬、低延遲通信,這種互聯(lián)雖然僅限于單機(jī)箱內(nèi)部,實(shí)際部署中也比較少見(jiàn)。
所以一體機(jī)的數(shù)據(jù)交互,主要依靠?PCIe 總線?作為 CPU 與 GPU 之間以及 GPU 內(nèi)部的主要互聯(lián)方式。通常不涉及外部高速網(wǎng)絡(luò)互聯(lián),因?yàn)槠湓O(shè)計(jì)初衷是作為獨(dú)立的計(jì)算工作站。
一體機(jī)的架構(gòu)特點(diǎn):?高度集成、部署簡(jiǎn)單、占用空間小。最重要就是便宜。
典型應(yīng)用:?企業(yè)或者個(gè)人 AI 開(kāi)發(fā)工作站、小型深度學(xué)習(xí)模型訓(xùn)練、邊緣 AI 推理、圖形渲染和設(shè)計(jì)等。例如DeepSeek一體機(jī)就是一種典型的產(chǎn)品形態(tài)。
2.?超節(jié)點(diǎn) (Supernode)
一體機(jī)一般最多8張卡,算力有限。
因此更大規(guī)模的智算設(shè)備形態(tài),超節(jié)點(diǎn)就應(yīng)運(yùn)而生。
超節(jié)點(diǎn)是比一體機(jī)更大規(guī)模的AI計(jì)算單元,它由多個(gè)計(jì)算節(jié)點(diǎn)(通常是服務(wù)器)通過(guò)高速網(wǎng)絡(luò)互聯(lián)而成,形成一個(gè)邏輯上的高性能計(jì)算模塊。
一個(gè)超節(jié)點(diǎn)內(nèi)部通常承載著強(qiáng)大的并行計(jì)算能力。
一個(gè)超節(jié)點(diǎn)可能由多臺(tái)服務(wù)器組成,每臺(tái)服務(wù)器通常配置2顆或更多 CPU,因此整個(gè)超節(jié)點(diǎn)可能擁有數(shù)十顆 CPU,提供強(qiáng)大的通用計(jì)算和任務(wù)管理能力。超節(jié)點(diǎn)內(nèi)部集成了?大量 GPU,數(shù)量遠(yuǎn)超一體機(jī)。每臺(tái)服務(wù)器可能配置8塊、16塊甚至更多 GPU,因此一個(gè)超節(jié)點(diǎn)可能包含幾十到上百塊 GPU,為大規(guī)模并行計(jì)算提供核心算力。而超節(jié)點(diǎn)的實(shí)物如下圖所示,看起來(lái)就是一個(gè)平平無(wú)奇的機(jī)柜。
但是超節(jié)點(diǎn)的互聯(lián)方式與一體機(jī)不同。超節(jié)點(diǎn)內(nèi)部GPU之間進(jìn)行級(jí)聯(lián)(scale up),沿用?PCIe 總線?。但是最重要的是通過(guò)?NVLink(對(duì)于 NVIDIA GPU)把GPU連到了一起。當(dāng)然對(duì)于其GPU廠家,也有其他的(類似NVLINK)互聯(lián)方式,實(shí)現(xiàn) CPU 與 GPU 之間以及同一服務(wù)器內(nèi)多 GPU 之間的高速互聯(lián)。上圖可以看到,超節(jié)點(diǎn)GPU和CPU之間,通過(guò)PCIe互聯(lián),而GPU之間通過(guò)NVSwitch實(shí)現(xiàn)NVLINK的互聯(lián),NVLINK的能夠提供幾個(gè)Tbps的互聯(lián)帶寬。這個(gè)比PCIe要快一個(gè)數(shù)量級(jí)。而最近另一個(gè)比較有名的超節(jié)點(diǎn)的例子,就是華為的CLOUDMatrix384,這個(gè)通過(guò)UB Switch實(shí)現(xiàn)了384個(gè)NPU和CPU的互聯(lián)。
類似于NVLINK和UB Switch這些GPU之間scale up的互聯(lián)協(xié)議是實(shí)現(xiàn)超節(jié)點(diǎn)各家的殺手锏。同樣從華為的例子來(lái)看,超節(jié)點(diǎn)的互聯(lián)的帶寬是很高的。例如華為CLOUDMatrix384的一個(gè)GPU的UB接口達(dá)到了196GBX2的吞吐能力。
超節(jié)點(diǎn)典型應(yīng)用:?很多超節(jié)點(diǎn)就是訓(xùn)推一體,既可以推理也可以訓(xùn)練,在訓(xùn)練方面,可以實(shí)現(xiàn)中等規(guī)模 AI 模型訓(xùn)練(如百億參數(shù)級(jí)別)、復(fù)雜科學(xué)模擬、數(shù)據(jù)密集型分析、企業(yè)級(jí)高性能計(jì)算任務(wù)。
3.?智算集群 (Intelligent Computing Cluster)
當(dāng)然,超節(jié)點(diǎn)可以實(shí)現(xiàn)幾百?gòu)圙PU的互聯(lián),如果是LLM大規(guī)模的訓(xùn)練的話,那么就會(huì)使用上萬(wàn)張GPU,那就變成萬(wàn)卡互聯(lián),甚至十萬(wàn)卡互聯(lián)。
這就是智算集群,或者叫做萬(wàn)卡集群或者十萬(wàn)卡集群
這是目前最頂級(jí)的超大規(guī)模計(jì)算基礎(chǔ)設(shè)施。
它由數(shù)千甚至上萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)通過(guò)多層級(jí)、高帶寬的互聯(lián)網(wǎng)絡(luò)組成,旨在提供無(wú)與倫比的計(jì)算能力,以支持超大規(guī)模 AI 模型訓(xùn)練、前沿科學(xué)研究和復(fù)雜工程仿真。
智算集群包含?海量的 CPU。集群中的每個(gè)計(jì)算節(jié)點(diǎn)都配置多顆高性能 CPU,整個(gè)集群的 CPU 數(shù)量可能達(dá)到數(shù)千甚至上萬(wàn)顆。CPU 主要負(fù)責(zé)集群管理、任務(wù)調(diào)度、數(shù)據(jù)預(yù)處理和一些通用計(jì)算任務(wù)。萬(wàn)卡集群的核心是?海量的 GPU,數(shù)量可以從數(shù)千到上萬(wàn)塊。這些 GPU 分布在數(shù)百甚至上千個(gè)計(jì)算節(jié)點(diǎn)中,形成一個(gè)龐大的并行計(jì)算資源池。下圖就是馬斯克同志搞得十萬(wàn)卡集群的部分機(jī)柜。從智算集群的架構(gòu)來(lái)看,智算集群的互聯(lián)是其最復(fù)雜也最關(guān)鍵的部分,旨在確保數(shù)萬(wàn)塊 GPU 之間的高效通信。網(wǎng)卡集群可以看做很多智算節(jié)點(diǎn)的互聯(lián):?在節(jié)點(diǎn)內(nèi)部(專業(yè)術(shù)語(yǔ)scale up)依然采用?PCIe 總線?和?NVLink(對(duì)于 NVIDIA GPU)實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)部 GPU 與 CPU 的高速互聯(lián)。在節(jié)點(diǎn)之間(專業(yè)術(shù)語(yǔ)scale out):這是智算集群的精髓。它采用多層級(jí)、高帶寬、低延遲的 RDMA 網(wǎng)絡(luò),并構(gòu)建高度復(fù)雜的網(wǎng)絡(luò)拓?fù)?/a>結(jié)構(gòu),例如多層 Fat-Tree、Dragonfly+、或定制的環(huán)形/網(wǎng)格拓?fù)洹?img decoding="async" class="aligncenter" src="https://wximg.eefocus.com/forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2F9DPKjVezgib6y9AwwicQI9gMMRy8P8ZCZEH6d8BRg0nypwlLBUkrNXibAfGfZc78sFBcLGo3K9VsibLWhyBIGicTFQA%2F640%3Fwx_fmt%3Dpng%26amp%3Bfrom%3Dappmsg&s=36eec1" />因此,萬(wàn)卡智算集群引入了?高速 RDMA (Remote Direct Memory Access) 網(wǎng)絡(luò),如?InfiniBand?或?RoCE (RDMA over Converged Ethernet),用于超節(jié)點(diǎn)內(nèi)部不同服務(wù)器節(jié)點(diǎn)之間的高帶寬、低延遲通信。上圖就是通過(guò)雙層的交換機(jī),連接不同的智算節(jié)點(diǎn)之間高速網(wǎng)卡(例如400G或者800G的網(wǎng)卡,一般是每塊網(wǎng)卡對(duì)于一塊高速GPU)。
例如上圖,每個(gè)GPU都要配合一張NIC(網(wǎng)卡(紫色所示)),從而在外部交換機(jī)上實(shí)現(xiàn)高速的互聯(lián)。這就是10萬(wàn)卡的集群的特色,不但是有PCIe的Switch,要有GPU之間的NVlink,還要有高速的(400G/800G)的RDMA網(wǎng)卡以及高速的51.2T/102.4T的交換機(jī)(400G*128/800G*128)。這些智算服務(wù)器節(jié)點(diǎn)或者超節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)連接起來(lái),然后通過(guò)軟硬件協(xié)同設(shè)計(jì),并結(jié)合高性能通信庫(kù)(如 NCCL),優(yōu)化集群級(jí)的集體通信操作(All-reduce, All-gather等),確保數(shù)萬(wàn)塊 GPU 能夠像一個(gè)統(tǒng)一的計(jì)算單元一樣協(xié)同工作。這么大的集群,是很容易出問(wèn)題的,一次訓(xùn)練需要幾個(gè)月,但是集群無(wú)故障工作的時(shí)間也就是幾天到幾周。因此龐大的規(guī)模要求集群網(wǎng)絡(luò)具備強(qiáng)大的容錯(cuò)能力、智能的負(fù)載均衡機(jī)制和快速的故障恢復(fù)能力。
典型應(yīng)用:?建造這種萬(wàn)卡或者十萬(wàn)卡的智算集群,其最主要研究就是AI訓(xùn)練,例如可以訓(xùn)練千億甚至萬(wàn)億參數(shù)級(jí)別的超大規(guī)模 AI 模型(如 GPT-4、Llama 3等),而也是最大的AI煉金爐。
總結(jié)一下:
特性/架構(gòu) | 一體機(jī) (All-in-One) | 超節(jié)點(diǎn) (Supernode) |
萬(wàn)卡或者十萬(wàn)卡集群 (Thousands-GPU Cluster) |
CPU 數(shù)量 | 少量 (1-2顆) | 較多 (數(shù)十顆) | 海量 (數(shù)千到上萬(wàn)顆) |
GPU 數(shù)量 | 少量 (1-8塊) | 大量 (幾十到上百塊) | 海量 (數(shù)千到上萬(wàn)塊) |
內(nèi)部互聯(lián) (CPU-GPU/GPU-GPU) | PCIe | PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點(diǎn)內(nèi)) | PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點(diǎn)內(nèi)) |
節(jié)點(diǎn)間網(wǎng)絡(luò)互聯(lián) | 無(wú)(單機(jī)) | 超節(jié)點(diǎn)間使用RDMA協(xié)議 | 多層級(jí)高速 RDMA (InfiniBand/RoCE) + 雙層交換機(jī) |
典型應(yīng)用 | 推理 | 訓(xùn)推一體 | 超大規(guī)模AI模型訓(xùn)練、前沿科學(xué)研究 |
主要特點(diǎn) | 高度集成、單機(jī)性能 | 擴(kuò)展性強(qiáng)、節(jié)點(diǎn)內(nèi)高速協(xié)同 | 極致規(guī)模、復(fù)雜高速網(wǎng)絡(luò)、全局優(yōu)化 |