• 正文
    • 驅(qū)動計算需求的擴展定律
    • 用 Token 重塑產(chǎn)業(yè)與經(jīng)濟
    • 走進 AI 工廠:生產(chǎn)智能的地方
    • 利用全棧 NVIDIA AI 打造 AI 工廠的優(yōu)勢
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

AI 工廠正在重新定義數(shù)據(jù)中心,開啟 AI 新時代

04/11 09:20
280
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

NVIDIA 及其生態(tài)系統(tǒng)合作伙伴正在為 AI 推理時代構(gòu)建大規(guī)模 AI 工廠,而每家企業(yè)都將需要一個這樣的工廠。

AI 正在推動新一輪工業(yè)革命——這是一場由 AI 工廠驅(qū)動的革命。

與傳統(tǒng)數(shù)據(jù)中心不同,AI 工廠不僅僅存儲和處理數(shù)據(jù),它們還大規(guī)模地生產(chǎn)智能,將原始數(shù)據(jù)轉(zhuǎn)化為實時見解。對于全球各地的企業(yè)和各國而言,這意味著價值實現(xiàn)的速度大幅提升,即將 AI 從長期投資轉(zhuǎn)變?yōu)閷崿F(xiàn)競爭優(yōu)勢的直接驅(qū)動力。目前投資于專門建設(shè) AI 工廠的企業(yè)將在創(chuàng)新、效率和市場差異化方面占據(jù)領(lǐng)先地位。

傳統(tǒng)數(shù)據(jù)中心面向通用計算,通常處理各種各樣的工作負載,而 AI 工廠則經(jīng)過優(yōu)化,以便利用 AI 來創(chuàng)造價值。它們涵蓋 AI 的整個生命周期,從數(shù)據(jù)采集到訓(xùn)練、微調(diào),以及最為關(guān)鍵的大規(guī)模推理。

對 AI 工廠來說,智能并非副產(chǎn)品,而是主要產(chǎn)品。這種智能通過 AI token 吞吐量來衡量,也就是那些驅(qū)動決策、自動化和全新服務(wù)的實時預(yù)測。

傳統(tǒng)數(shù)據(jù)中心短期內(nèi)不會消失,但其未來是將演變成 AI 工廠還是連接到 AI 工廠,將取決于企業(yè)的商業(yè)模式。

無論企業(yè)如何選擇,NVIDIA 驅(qū)動的 AI 工廠已經(jīng)在大規(guī)模地生產(chǎn)智能,正在改變 AI 的構(gòu)建、優(yōu)化和部署方式。

點擊視頻,走進 AI 工廠如何創(chuàng)造智能

驅(qū)動計算需求的擴展定律

在過去幾年里,AI 領(lǐng)域的熱點是訓(xùn)練大模型。但隨著近期 AI 推理模型大量涌現(xiàn),推理已經(jīng)成為 AI 經(jīng)濟的主要驅(qū)動力。三條關(guān)鍵的擴展定律(scaling law)揭示了其中的原因:

預(yù)訓(xùn)練擴展:更大的數(shù)據(jù)集和更多的模型參數(shù)能夠帶來可預(yù)見的智能水平提升,但這需要在專業(yè)技術(shù)專家、數(shù)據(jù)整理和計算資源方面進行大量投入。在過去五年中,預(yù)訓(xùn)練擴展使計算需求增長了 5000 萬倍。不過,一旦模型訓(xùn)練完成,就會大幅降低其他人在此基礎(chǔ)上進行開發(fā)的門檻。

后訓(xùn)練擴展:針對特定真實應(yīng)用對 AI 模型進行微調(diào)時,在 AI 推理過程中所需的算力是預(yù)訓(xùn)練的 30 倍。隨著各機構(gòu)根據(jù)自身獨特需求而調(diào)整現(xiàn)有模型,對 AI 基礎(chǔ)設(shè)施的累積需求也會急劇飆升。

測試時擴展(又稱長思考):像代理式 AI 或物理 AI 這類先進的 AI 應(yīng)用需要進行迭代推理,即模型在做出最佳響應(yīng)之前會探索多種可能的答案。這個過程所需的算力比傳統(tǒng)推理多出 100 倍。

傳統(tǒng)數(shù)據(jù)中心并非為 AI 新時代而設(shè)計。AI 工廠則專門進行了優(yōu)化以持續(xù)滿足這種巨大的算力需求,為 AI 推理和部署提供了一條理想的發(fā)展路徑。

用 Token 重塑產(chǎn)業(yè)與經(jīng)濟

全球范圍內(nèi),各國政府與企業(yè)都在競相建設(shè) AI 工廠,以刺激經(jīng)濟增長、促進創(chuàng)新并提升效率。

歐洲高性能計算聯(lián)合體(EuroHPC JU)近期宣布,計劃與 17 個歐盟成員國攜手打造 7 座 AI 工廠。

在此之前,全球已掀起 AI 工廠投資熱潮,各個企業(yè)和國家都在加速利用 AI 驅(qū)動各行業(yè)、各地區(qū)的經(jīng)濟增長:

印度:Yotta Data Services 與 NVIDIA 合作推出了 Shakti 云平臺,致力于讓更多人能夠獲得先進的 GPU 資源。通過集成 NVIDIA AI Enterprise 軟件開源工具,Yotta 為 AI 開發(fā)與部署打造了一個無縫的環(huán)境。

日本:包括 GMO Internet、Highreso、KDDI、Rutilea 和 SAKURA internet 在內(nèi)的多家日本領(lǐng)先的云服務(wù)提供商,正在構(gòu)建 NVIDIA 驅(qū)動的 AI 基礎(chǔ)設(shè)施,以推動機器人、汽車、醫(yī)療和電信等行業(yè)的變革。

挪威:Telenor 集團推出了一座基于 NVIDIA 打造的 AI 工廠,目的是在北歐地區(qū)加快 AI 應(yīng)用,重點關(guān)注勞動力技能提升與可持續(xù)發(fā)展。

這些行動充分表明,AI 工廠正在全球范圍內(nèi)迅速成為與電信、能源同樣重要的國家基礎(chǔ)設(shè)施。

走進 AI 工廠:生產(chǎn)智能的地方

基礎(chǔ)模型、安全的客戶數(shù)據(jù)以及 AI 工具就是 AI 工廠的原材料。在 AI 工廠中,推理服務(wù)、原型設(shè)計和微調(diào)塑造出強大的定制化模型,可以隨時投入實際應(yīng)用。

當這些模型被部署到真實的應(yīng)用場景中時,它們會不斷地從新數(shù)據(jù)中學(xué)習(xí)。這些新數(shù)據(jù)通過數(shù)據(jù)飛輪進行存儲、優(yōu)化,然后再反饋到系統(tǒng)中。這種優(yōu)化循環(huán)確保了 AI 能夠持續(xù)地適應(yīng)變化、保持高效并不斷改進,以前所未有的規(guī)模推動企業(yè)智能化發(fā)展。

利用全棧 NVIDIA AI 打造 AI 工廠的優(yōu)勢

NVIDIA 提供完整、集成的 AI 工廠堆棧,從芯片到軟件的每一層都針對大規(guī)模訓(xùn)練、微調(diào)及推理進行了優(yōu)化。這種全棧式方法確保企業(yè)能夠部署經(jīng)濟高效、高性能且面向未來的 AI 工廠,以應(yīng)對 AI 的指數(shù)級增長。

通過生態(tài)系統(tǒng)合作伙伴,NVIDIA 打造了全棧 AI 工廠的構(gòu)建模塊,這一全棧方案包括以下模塊:

強大的計算性能

先進的網(wǎng)絡(luò)

基礎(chǔ)設(shè)施管理和工作負載編排

最龐大的 AI 推理生態(tài)系統(tǒng)

存儲和數(shù)據(jù)平臺

設(shè)計與優(yōu)化的各種藍圖

參考架構(gòu)

適用于各類企業(yè)的靈活部署方案

強大的計算性能

任何 AI 工廠的核心都在于其算力。從 NVIDIA Hopper 到 NVIDIA Blackwell,NVIDIA 為這場新的工業(yè)革命提供全球最強大的加速計算。借助基于 NVIDIA Blackwell Ultra 的 NVIDIA Grace Blackwell 機架式解決方案,AI 工廠的 AI 推理輸出最高可提升 50 倍,樹立了效率和規(guī)模的新標桿。

NVIDIA DGX SuperPOD 是交鑰匙式企業(yè) AI 工廠的典范,聚合了 NVIDIA 加速計算的優(yōu)勢。NVIDIA DGX Cloud 提供的 AI 工廠能在云端提供高性能的 NVIDIA 加速計算。

全球各地的系統(tǒng)合作伙伴正利用 NVIDIA 加速計算技術(shù),為其客戶打造全棧 AI 工廠。目前的加速計算平臺包括了基于 Blackwell 和 Blackwell Ultra 的 NVIDIA Grace Blackwell 機架式解決方案。

先進的網(wǎng)絡(luò)

大規(guī)模地傳輸智能需要在整個 AI 工廠堆棧中實現(xiàn)高性能的無縫連接。NVIDIA NVLink 和 NVLink Switch 支持高速的多 GPU 通信,加速節(jié)點內(nèi)部和節(jié)點之間的數(shù)據(jù)傳輸

AI 工廠還需要強大的網(wǎng)絡(luò)骨干。NVIDIA Quantum InfiniBand、NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺和 NVIDIA BlueField 網(wǎng)絡(luò)平臺可減少瓶頸,確保在大規(guī)模 GPU 集群上實現(xiàn)高效、高吞吐量的數(shù)據(jù)交換。這種端到端的集成對于將 AI 工作負載擴展到百萬 GPU 級別至關(guān)重要,實現(xiàn)了突破性的訓(xùn)練和推理性能。

基礎(chǔ)設(shè)施管理和工作負載編排

企業(yè)需要既能利用超大規(guī)模云服務(wù)提供商那樣敏捷、高效且大規(guī)模的 AI 基礎(chǔ)設(shè)施,又無需承擔(dān)高昂成本、復(fù)雜性且具備 IT 專業(yè)知識等的負擔(dān)。

借助 NVIDIA Run:ai,企業(yè)能夠無縫實現(xiàn) AI 工作負載編排和 GPU 管理,在加速 AI 實驗進程和擴展工作負載的同時,還可以優(yōu)化資源利用率。NVIDIA Mission Control 軟件集成了 NVIDIA Run:ai 技術(shù),優(yōu)化了從工作負載到基礎(chǔ)設(shè)施的 AI 工廠運營流程,通過全棧智能實現(xiàn)業(yè)界領(lǐng)先的基礎(chǔ)設(shè)施韌性。

最龐大的 AI 推理生態(tài)系統(tǒng)

AI 工廠需要合適的工具才能將數(shù)據(jù)轉(zhuǎn)化為智能。NVIDIA AI 推理平臺(涵蓋了 NVIDIA TensorRT 生態(tài)系統(tǒng))、NVIDIA Dynamo 以及 NVIDIA NIM 微服務(wù)——這些均已成為或即將成為 NVIDIA AI Enterprise 軟件平臺的一部分,可提供行業(yè)內(nèi)最全面的 AI 加速庫和經(jīng)過優(yōu)化的軟件套件,同時提供非凡的推理性能、超低延遲以及高吞吐量。

存儲和數(shù)據(jù)平臺

數(shù)據(jù)是 AI 應(yīng)用的驅(qū)動力,但企業(yè)數(shù)據(jù)迅速增長且越來越復(fù)雜,常常使得有效利用這些數(shù)據(jù)的成本過高且耗時過長。為了在 AI 時代蓬勃發(fā)展,企業(yè)必須充分釋放其數(shù)據(jù)的全部潛力。

NVIDIA AI 數(shù)據(jù)平臺是一個可定制的參考設(shè)計,用于為要求苛刻的 AI 推理工作負載構(gòu)建新型 AI 基礎(chǔ)設(shè)施。NVIDIA 認證存儲合作伙伴正與 NVIDIA 合作,開發(fā)定制化的 AI 數(shù)據(jù)平臺,這些平臺能夠充分利用企業(yè)數(shù)據(jù),針對復(fù)雜的查詢進行推理并提供答案。

設(shè)計與優(yōu)化藍圖

為了設(shè)計和優(yōu)化 AI 工廠,團隊可以使用用于 AI 工廠設(shè)計和運營的 NVIDIA Omniverse Blueprint。它讓工程師能夠在部署前利用數(shù)字孿生技術(shù)對 AI 工廠基礎(chǔ)設(shè)施進行設(shè)計、測試和優(yōu)化。通過降低風(fēng)險和不確定性,它有助于避免代價高昂的停機,這對于 AI 工廠的運營者來說是一個關(guān)鍵因素。

對于規(guī)模達到 1 吉瓦的 AI 工廠而言,停機一天造成的損失可能超過 1 億美元。通過提前消除復(fù)雜性并讓 IT、機械、電氣、電力和網(wǎng)絡(luò)工程等團隊能夠并行工作,用于 AI 工廠設(shè)計和運營的 NVIDIA Omniverse Blueprint 加快了部署速度,并確保了運營的韌性。

參考架構(gòu)

NVIDIA 企業(yè)參考架構(gòu)和 NVIDIA 云合作伙伴參考架構(gòu)為設(shè)計和部署 AI 工廠的合作伙伴提供了路線圖。借助包含 NVIDIA AI 軟件堆棧的 NVIDIA 認證系統(tǒng)以及合作伙伴生態(tài)系統(tǒng),企業(yè)和云服務(wù)提供商將能夠構(gòu)建可擴展、高性能且安全的 AI 基礎(chǔ)設(shè)施。

AI 工廠堆棧的每一層都依賴高效的計算來滿足不斷增長的 AI 需求。NVIDIA 加速計算是整個堆棧的基礎(chǔ),它提供最高的每瓦性能,確保 AI 工廠保持最高的能效。借助節(jié)能的架構(gòu)和液冷技術(shù),企業(yè)在擴展 AI 規(guī)模的同時,還能控制能源成本。

適用于各類企業(yè)的靈活部署方案

借助 NVIDIA 的全棧技術(shù),企業(yè)能夠輕松地構(gòu)建和部署 AI 工廠,使之契合客戶偏好的 IT 使用模式和運營需求。

一些機構(gòu)選擇搭建本地 AI 工廠,以便完全掌控數(shù)據(jù)和性能,而另一些機構(gòu)則采用云端解決方案,以實現(xiàn)可擴展性和靈活性。許多企業(yè)還會從其信賴的全球系統(tǒng)合作伙伴那里購買預(yù)集成解決方案,以加快部署進程。

采用 NVIDIA Grace Blackwell Ultra 超級芯片的 NVIDIA DGX 系統(tǒng)是性能最高、規(guī)模最大的 AI 工廠基礎(chǔ)設(shè)施,它適用于企業(yè),專為 AI 推理時代而打造。

本地部署

NVIDIA DGX SuperPOD 是交鑰匙式 AI 工廠基礎(chǔ)設(shè)施解決方案,為要求最嚴苛的 AI 訓(xùn)練和推理工作負載提供具有可擴展性能的加速基礎(chǔ)設(shè)施。它的特點是將 AI 計算、網(wǎng)絡(luò)架構(gòu)、存儲和 NVIDIA Mission Control 軟件進行了優(yōu)化設(shè)計組合,使企業(yè)能夠在幾周內(nèi)(而非數(shù)月)讓 AI 工廠投入使用,并且具備一流的正常運行時間、韌性和利用率。

通過 NVIDIA 的全球企業(yè)技術(shù)合作伙伴生態(tài)系統(tǒng),AI 工廠解決方案也以 NVIDIA 認證系統(tǒng)的形式提供。這些合作伙伴提供領(lǐng)先的硬件和軟件技術(shù),結(jié)合數(shù)據(jù)中心系統(tǒng)專業(yè)知識和液冷創(chuàng)新技術(shù),幫助企業(yè)降低 AI 項目的風(fēng)險,并更快地從 AI 工廠投資中獲得回報。

這些全球系統(tǒng)合作伙伴正在基于 NVIDIA 參考架構(gòu)提供全棧解決方案,將 NVIDIA 加速計算、高性能網(wǎng)絡(luò)和 AI 軟件集成在一起,幫助其客戶成功地部署 AI 工廠并大規(guī)模地生產(chǎn)智能。

云端部署

對于希望采用云端 AI 工廠解決方案的企業(yè),NVIDIA DGX Cloud 在領(lǐng)先的云上提供了一個統(tǒng)一的平臺,用于構(gòu)建、定制和部署 AI 應(yīng)用。DGX Cloud 的每一層都進行了優(yōu)化并由 NVIDIA 全面管理,它具備 NVIDIA AI 在云端的優(yōu)勢,并依托領(lǐng)先的云服務(wù)提供商構(gòu)提供企業(yè)級軟件和構(gòu)建大規(guī)模的連續(xù)集群,尤其適合為要求最嚴苛的 AI 訓(xùn)練工作負載提供可擴展的計算資源。

DGX Cloud 還包括一個動態(tài)、可擴展的無服務(wù)器推理平臺,該平臺在混合云和多云環(huán)境中提供極高的 AI token 吞吐量,顯著降低了基礎(chǔ)設(shè)施的復(fù)雜性和運營開銷。

通過提供一個集成了硬件、軟件、生態(tài)系統(tǒng)合作伙伴和參考架構(gòu)的全棧平臺,NVIDIA 正在幫助企業(yè)構(gòu)建經(jīng)濟高效、可擴展、高性能的 AI 工廠,使其有能力迎接下一次工業(yè)革命。

 

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

自1993年成立以來,NVIDIA一直在視覺計算的藝術(shù)與科學(xué)發(fā)展中勇當先鋒. NVIDIA公司的諸多技術(shù)正在徹底改變顯示世界的面貌,在高級渲染、高性能計算,乃至遠端云服務(wù),你都將看到NVIDIA的身影.