中国精品久久久,日韩在美女视频在线观看

1.?一體機(jī) (All-in-One Machine)

2025年上半年最火的AI產(chǎn)品是什么？

絕對(duì)是DeepSeek一體機(jī)。

沒(méi)有之一。

一體機(jī)，顧名思義，就是將計(jì)算、存儲(chǔ)和部分互聯(lián)功能集成在單個(gè)機(jī)箱內(nèi)的智算機(jī)器。

一般配置?1到2顆通用型 CPU，核心數(shù)量適中，主要負(fù)責(zé)操作系統(tǒng)運(yùn)行、任務(wù)調(diào)度以及一些非計(jì)算密集型的工作負(fù)載。

當(dāng)然AI一體機(jī)中少不了GPU，通常配備?1到8塊高性能 GPU。

這些 GPU 通過(guò)?PCIe 總線?直接連接到 CPU，實(shí)現(xiàn)高速數(shù)據(jù)傳輸。

實(shí)際部署在多 GPU 配置中，NVIDIA 的?NVLink?等專有互聯(lián)技術(shù)可能用于 GPU 之間的高帶寬、低延遲通信，這種互聯(lián)雖然僅限于單機(jī)箱內(nèi)部，實(shí)際部署中也比較少見(jiàn)。

所以一體機(jī)的數(shù)據(jù)交互，主要依靠?PCIe 總線?作為 CPU 與 GPU 之間以及 GPU 內(nèi)部的主要互聯(lián)方式。通常不涉及外部高速網(wǎng)絡(luò)互聯(lián)，因?yàn)槠湓O(shè)計(jì)初衷是作為獨(dú)立的計(jì)算工作站。

一體機(jī)的架構(gòu)特點(diǎn)：?高度集成、部署簡(jiǎn)單、占用空間小。最重要就是便宜。

典型應(yīng)用：?企業(yè)或者個(gè)人 AI 開(kāi)發(fā)工作站、小型深度學(xué)習(xí)模型訓(xùn)練、邊緣 AI 推理、圖形渲染和設(shè)計(jì)等。例如DeepSeek一體機(jī)就是一種典型的產(chǎn)品形態(tài)。

2.?超節(jié)點(diǎn) (Supernode)

一體機(jī)一般最多8張卡，算力有限。

因此更大規(guī)模的智算設(shè)備形態(tài)，超節(jié)點(diǎn)就應(yīng)運(yùn)而生。

超節(jié)點(diǎn)是比一體機(jī)更大規(guī)模的AI計(jì)算單元，它由多個(gè)計(jì)算節(jié)點(diǎn)（通常是服務(wù)器）通過(guò)高速網(wǎng)絡(luò)互聯(lián)而成，形成一個(gè)邏輯上的高性能計(jì)算模塊。

一個(gè)超節(jié)點(diǎn)內(nèi)部通常承載著強(qiáng)大的并行計(jì)算能力。

一個(gè)超節(jié)點(diǎn)可能由多臺(tái)服務(wù)器組成，每臺(tái)服務(wù)器通常配置2顆或更多 CPU，因此整個(gè)超節(jié)點(diǎn)可能擁有數(shù)十顆 CPU，提供強(qiáng)大的通用計(jì)算和任務(wù)管理能力。超節(jié)點(diǎn)內(nèi)部集成了?大量 GPU，數(shù)量遠(yuǎn)超一體機(jī)。每臺(tái)服務(wù)器可能配置8塊、16塊甚至更多 GPU，因此一個(gè)超節(jié)點(diǎn)可能包含幾十到上百塊 GPU，為大規(guī)模并行計(jì)算提供核心算力。而超節(jié)點(diǎn)的實(shí)物如下圖所示，看起來(lái)就是一個(gè)平平無(wú)奇的機(jī)柜。
但是超節(jié)點(diǎn)的互聯(lián)方式與一體機(jī)不同。超節(jié)點(diǎn)內(nèi)部GPU之間進(jìn)行級(jí)聯(lián)（scale up），沿用?PCIe 總線?。但是最重要的是通過(guò)?NVLink（對(duì)于 NVIDIA GPU）把GPU連到了一起。當(dāng)然對(duì)于其GPU廠家，也有其他的（類似NVLINK）互聯(lián)方式，實(shí)現(xiàn) CPU 與 GPU 之間以及同一服務(wù)器內(nèi)多 GPU 之間的高速互聯(lián)。上圖可以看到，超節(jié)點(diǎn)GPU和CPU之間，通過(guò)PCIe互聯(lián)，而GPU之間通過(guò)NVSwitch實(shí)現(xiàn)NVLINK的互聯(lián)，NVLINK的能夠提供幾個(gè)Tbps的互聯(lián)帶寬。這個(gè)比PCIe要快一個(gè)數(shù)量級(jí)。而最近另一個(gè)比較有名的超節(jié)點(diǎn)的例子，就是華為的CLOUDMatrix384，這個(gè)通過(guò)UB Switch實(shí)現(xiàn)了384個(gè)NPU和CPU的互聯(lián)。類似于NVLINK和UB Switch這些GPU之間scale up的互聯(lián)協(xié)議是實(shí)現(xiàn)超節(jié)點(diǎn)各家的殺手锏。同樣從華為的例子來(lái)看，超節(jié)點(diǎn)的互聯(lián)的帶寬是很高的。例如華為CLOUDMatrix384的一個(gè)GPU的UB接口達(dá)到了196GBX2的吞吐能力。

超節(jié)點(diǎn)典型應(yīng)用：?很多超節(jié)點(diǎn)就是訓(xùn)推一體，既可以推理也可以訓(xùn)練，在訓(xùn)練方面，可以實(shí)現(xiàn)中等規(guī)模 AI 模型訓(xùn)練（如百億參數(shù)級(jí)別）、復(fù)雜科學(xué)模擬、數(shù)據(jù)密集型分析、企業(yè)級(jí)高性能計(jì)算任務(wù)。

3.?智算集群 (Intelligent Computing Cluster)

當(dāng)然，超節(jié)點(diǎn)可以實(shí)現(xiàn)幾百?gòu)圙PU的互聯(lián)，如果是LLM大規(guī)模的訓(xùn)練的話，那么就會(huì)使用上萬(wàn)張GPU，那就變成萬(wàn)卡互聯(lián)，甚至十萬(wàn)卡互聯(lián)。

這就是智算集群，或者叫做萬(wàn)卡集群或者十萬(wàn)卡集群

這是目前最頂級(jí)的超大規(guī)模計(jì)算基礎(chǔ)設(shè)施。

它由數(shù)千甚至上萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)通過(guò)多層級(jí)、高帶寬的互聯(lián)網(wǎng)絡(luò)組成，旨在提供無(wú)與倫比的計(jì)算能力，以支持超大規(guī)模 AI 模型訓(xùn)練、前沿科學(xué)研究和復(fù)雜工程仿真。

智算集群包含?海量的 CPU。集群中的每個(gè)計(jì)算節(jié)點(diǎn)都配置多顆高性能 CPU，整個(gè)集群的 CPU 數(shù)量可能達(dá)到數(shù)千甚至上萬(wàn)顆。CPU 主要負(fù)責(zé)集群管理、任務(wù)調(diào)度、數(shù)據(jù)預(yù)處理和一些通用計(jì)算任務(wù)。萬(wàn)卡集群的核心是?海量的 GPU，數(shù)量可以從數(shù)千到上萬(wàn)塊。這些 GPU 分布在數(shù)百甚至上千個(gè)計(jì)算節(jié)點(diǎn)中，形成一個(gè)龐大的并行計(jì)算資源池。下圖就是馬斯克同志搞得十萬(wàn)卡集群的部分機(jī)柜。從智算集群的架構(gòu)來(lái)看，智算集群的互聯(lián)是其最復(fù)雜也最關(guān)鍵的部分，旨在確保數(shù)萬(wàn)塊 GPU 之間的高效通信。網(wǎng)卡集群可以看做很多智算節(jié)點(diǎn)的互聯(lián)：?在節(jié)點(diǎn)內(nèi)部（專業(yè)術(shù)語(yǔ)scale up）依然采用?PCIe 總線?和?NVLink（對(duì)于 NVIDIA GPU）實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)部 GPU 與 CPU 的高速互聯(lián)。在節(jié)點(diǎn)之間（專業(yè)術(shù)語(yǔ)scale out）：這是智算集群的精髓。它采用多層級(jí)、高帶寬、低延遲的 RDMA 網(wǎng)絡(luò)，并構(gòu)建高度復(fù)雜的網(wǎng)絡(luò)拓?fù)?/a>結(jié)構(gòu)，例如多層 Fat-Tree、Dragonfly+、或定制的環(huán)形/網(wǎng)格拓?fù)洹?img decoding="async" class="aligncenter" src="https://wximg.eefocus.com/forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2F9DPKjVezgib6y9AwwicQI9gMMRy8P8ZCZEH6d8BRg0nypwlLBUkrNXibAfGfZc78sFBcLGo3K9VsibLWhyBIGicTFQA%2F640%3Fwx_fmt%3Dpng%26amp%3Bfrom%3Dappmsg&s=36eec1" />因此，萬(wàn)卡智算集群引入了?高速 RDMA (Remote Direct Memory Access) 網(wǎng)絡(luò)，如?InfiniBand?或?RoCE (RDMA over Converged Ethernet)，用于超節(jié)點(diǎn)內(nèi)部不同服務(wù)器節(jié)點(diǎn)之間的高帶寬、低延遲通信。上圖就是通過(guò)雙層的交換機(jī)，連接不同的智算節(jié)點(diǎn)之間高速網(wǎng)卡（例如400G或者800G的網(wǎng)卡，一般是每塊網(wǎng)卡對(duì)于一塊高速GPU）。例如上圖，每個(gè)GPU都要配合一張NIC（網(wǎng)卡（紫色所示）），從而在外部交換機(jī)上實(shí)現(xiàn)高速的互聯(lián)。這就是10萬(wàn)卡的集群的特色，不但是有PCIe的Switch，要有GPU之間的NVlink，還要有高速的（400G/800G）的RDMA網(wǎng)卡以及高速的51.2T/102.4T的交換機(jī)（400G*128/800G*128）。這些智算服務(wù)器節(jié)點(diǎn)或者超節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)連接起來(lái)，然后通過(guò)軟硬件協(xié)同設(shè)計(jì)，并結(jié)合高性能通信庫(kù)（如 NCCL），優(yōu)化集群級(jí)的集體通信操作（All-reduce, All-gather等），確保數(shù)萬(wàn)塊 GPU 能夠像一個(gè)統(tǒng)一的計(jì)算單元一樣協(xié)同工作。這么大的集群，是很容易出問(wèn)題的，一次訓(xùn)練需要幾個(gè)月，但是集群無(wú)故障工作的時(shí)間也就是幾天到幾周。因此龐大的規(guī)模要求集群網(wǎng)絡(luò)具備強(qiáng)大的容錯(cuò)能力、智能的負(fù)載均衡機(jī)制和快速的故障恢復(fù)能力。

典型應(yīng)用：?建造這種萬(wàn)卡或者十萬(wàn)卡的智算集群，其最主要研究就是AI訓(xùn)練，例如可以訓(xùn)練千億甚至萬(wàn)億參數(shù)級(jí)別的超大規(guī)模 AI 模型（如 GPT-4、Llama 3等），而也是最大的AI煉金爐。

總結(jié)一下：

特性/架構(gòu)	一體機(jī) (All-in-One)	超節(jié)點(diǎn) (Supernode)	萬(wàn)卡或者十萬(wàn)卡集群 (Thousands-GPU Cluster)
CPU 數(shù)量	少量 (1-2顆)	較多 (數(shù)十顆)	海量 (數(shù)千到上萬(wàn)顆)
GPU 數(shù)量	少量 (1-8塊)	大量 (幾十到上百塊)	海量 (數(shù)千到上萬(wàn)塊)
內(nèi)部互聯(lián) (CPU-GPU/GPU-GPU)	PCIe	PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點(diǎn)內(nèi))	PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點(diǎn)內(nèi))
節(jié)點(diǎn)間網(wǎng)絡(luò)互聯(lián)	無(wú)（單機(jī)）	超節(jié)點(diǎn)間使用RDMA協(xié)議	多層級(jí)高速 RDMA (InfiniBand/RoCE) + 雙層交換機(jī)
典型應(yīng)用	推理	訓(xùn)推一體	超大規(guī)模AI模型訓(xùn)練、前沿科學(xué)研究
主要特點(diǎn)	高度集成、單機(jī)性能	擴(kuò)展性強(qiáng)、節(jié)點(diǎn)內(nèi)高速協(xié)同	極致規(guī)模、復(fù)雜高速網(wǎng)絡(luò)、全局優(yōu)化