• 正文
    • AI“運力”變革—— 生成式AI發(fā)展的關(guān)鍵
    • 專為生成式AI而生的Spectrum-X
    • 迅速崛起的AI以太網(wǎng)生態(tài)
    • GPU之后,下一個“Zero-Billion-Dollar Markets”?
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

數(shù)十億美元增長背后——NVIDIA重塑全球AI網(wǎng)絡格局

原創(chuàng)
2024/10/23
3593
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在驚嘆于AI算力的迅猛增長時,我們不禁會想到那個經(jīng)典的哲學問題:是先有雞還是先有蛋?換句話說,是AI的崛起成就了NVIDIA,還是NVIDIA的創(chuàng)新推動了AI市場的蓬勃發(fā)展?

這個問題的答案,或許可以從NVIDIA創(chuàng)始人黃仁勛的理念中找到線索。他曾說過最喜歡的是“Zero-Billion-Dollar Markets”——那些尚未被滿足的需求、有待解決的問題,都具備成為這一市場的潛力,而這也會促使他去思考,如何以全新的方式去創(chuàng)造市場而不是在已有的市場中簡單迭代。事實證明,NVIDIA正是通過革命性的GPU,將AI應用從概念落地,并轉(zhuǎn)變?yōu)榉睒s且潛力無限的產(chǎn)業(yè),從而證明了技術(shù)創(chuàng)新對塑造市場的關(guān)鍵作用。

當前,生成式AI的興起帶來了新的挑戰(zhàn)和機遇。隨著AI大模型參數(shù)規(guī)模的不斷擴大,GPU集群的急劇擴張對網(wǎng)絡通信提出了更高要求。面對傳統(tǒng)以太網(wǎng)在大規(guī)模AI算力集群中的捉襟見肘,NVIDIA率先推出了專門面向AI的以太網(wǎng),不僅提升了算力集群的性能和效率,更是在AI算力網(wǎng)絡市場開辟了新的戰(zhàn)場。

AI的爆發(fā)驅(qū)動了以太網(wǎng)的變革,是否預示著又一個“Zero-Billion-Dollar Markets”的誕生?日前,NVIDIA網(wǎng)絡高級副總裁Gilad Shainer接受了<與非網(wǎng)>采訪,分享了他對AI以太網(wǎng)變革的洞見,以及NVIDIA在這一領(lǐng)域的戰(zhàn)略布局和未來愿景。

NVIDIA網(wǎng)絡高級副總裁? Gilad Shainer

AI“運力”變革—— 生成式AI發(fā)展的關(guān)鍵

在生成式AI的迅猛增長下,行業(yè)面臨著一個關(guān)鍵轉(zhuǎn)折點:網(wǎng)絡技術(shù)的變革。這是因為在超大規(guī)模GPU集群中,網(wǎng)絡“運力”和GPU“算力”共同構(gòu)成了集群的整體性能,只有二者都達到高性能時,才能實現(xiàn)計算性能和效率的最大化,AI集群才能發(fā)揮出最大的效力,實現(xiàn)高效的數(shù)據(jù)處理和智能計算。這也意味著,這場變革不僅關(guān)乎技術(shù)進步,更關(guān)乎整個行業(yè)如何重新定義網(wǎng)絡在推動業(yè)務創(chuàng)新和數(shù)字化轉(zhuǎn)型中的作用。

隨著AI工作負載的增長,特別是大語言模型和其他基礎(chǔ)AI模型的發(fā)展,數(shù)據(jù)中心網(wǎng)絡技術(shù)正經(jīng)歷著革命性變化。以AI工廠和AI云為代表的新型數(shù)據(jù)中心逐漸成為主流,它們專為AI工作負載量身定制,加速計算和高性能網(wǎng)絡在這里至關(guān)重要。

從所面向的應用場景來看,AI工廠是NVIDIA面向大規(guī)模、大算力、高性能AI場景下,基于其NVLink+InfiniBand無損網(wǎng)絡架構(gòu)所實現(xiàn)的新型AI數(shù)據(jù)中心,一些成功的大語言模型都基于這一網(wǎng)絡架構(gòu);而AI云則需要響應客戶在云環(huán)境中構(gòu)建其生成式AI或AI工作負載的需求,這一場景具有典型的多租戶、工作負載多樣性等特點。

據(jù)Gilad Shainer分享,近一半已經(jīng)部署的AI云,在計算網(wǎng)絡上采用的是傳統(tǒng)以太網(wǎng)。另據(jù)IDC數(shù)據(jù)顯示,目前面向數(shù)據(jù)中心的網(wǎng)絡交換機市場中,85%以上的產(chǎn)品依然采用以太網(wǎng)技術(shù)。

過去數(shù)十年以來,傳統(tǒng)以太網(wǎng)憑借兼容性、成本效益、靈活性和多租戶場景支持等優(yōu)勢,已經(jīng)成為各行業(yè)網(wǎng)絡基礎(chǔ)設施的核心,廣泛應用于數(shù)據(jù)中心和企業(yè)網(wǎng)絡。

然而,隨著AI應用的快速發(fā)展,生成式AI對低延遲、高帶寬、無限可擴展和高可靠性等根本需求,恰恰是傳統(tǒng)以太網(wǎng)難以滿足的。它作為有損網(wǎng)絡,固有的短板包括:更高的交換機延遲;分割緩沖交換機架構(gòu),而這可能會導致帶寬分配不公平;針對AI工作負載生成的大象流,基于傳統(tǒng)ECMP的負載均衡策略面臨優(yōu)化挑戰(zhàn);此外還有性能隔離和多業(yè)務噪聲問題等等。

在實際的AI工作負載中,這會引起一系列性能和效率問題,例如:如果出現(xiàn)鏈路故障,可能會導致集群的AI性能減半;交換機帶寬分配不均導致有些業(yè)務的延遲增加,最終導致性能瓶頸,進而阻礙業(yè)務決策,特別是在金融行業(yè)中的高頻交易和風險管理,以及醫(yī)療領(lǐng)域的遠程診斷和緊急響應等應用場景中;此外,在應對計算密集型任務時,傳統(tǒng)以太網(wǎng)制約了數(shù)據(jù)中心的擴展和服務效率;并且,AI應用的多樣化和多租戶環(huán)境,也要求網(wǎng)絡提供更靈活的配置和性能隔離。

面對傳統(tǒng)以太網(wǎng)的種種掣肘,NVIDIA率先對其發(fā)起變革,這也正是NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺的誕生背景。

作為全球首個專為AI打造的以太網(wǎng)架構(gòu),Spectrum-X可以提供端到端400Gb/s帶寬,將生成式AI網(wǎng)絡性能提升至傳統(tǒng)以太網(wǎng)的1.6倍,并提供一致且可預測的結(jié)果。這一創(chuàng)新不僅擴展了NVIDIA業(yè)務的觸及范圍,更重要的是,它為企業(yè)客戶解鎖了分布式AI加速計算的更大潛能,推動業(yè)務向更高效率和更廣闊的可能性邁進。

目前,NVIDIA在網(wǎng)絡領(lǐng)域的戰(zhàn)略布局正在收獲顯著成效。據(jù)其2025財年Q2財報,網(wǎng)絡收入環(huán)比增長16%,其中,AI以太網(wǎng)收入(包括Spectrum-X 端到端以太網(wǎng)平臺)環(huán)比翻一番。并且,Spectrum-X平臺獲得了OEM和ODM的廣泛支持,并被云服務商、GPU云提供商和企業(yè)廣泛采用。

Gilad Shainer透露,Spectrum-X正在批量交付中,有望在一年內(nèi)成為一個價值數(shù)十億美元的產(chǎn)品線。同時,NVIDIA正在不斷優(yōu)化供應鏈策略,以滿足市場的旺盛需求。未來,NVIDIA計劃每年推出新一代Spectrum-X產(chǎn)品,通過提供更高的帶寬、更多的端口以及增強的軟件功能集和可編程性,來推動AI以太網(wǎng)網(wǎng)絡性能的持續(xù)領(lǐng)先。

專為生成式AI而生的Spectrum-X

Spectrum-X以Spectrum SN5600交換機和BlueField-3 SuperNIC為核心,通過無損網(wǎng)絡與RDMA、動態(tài)路由、擁塞控制等創(chuàng)新,不僅實現(xiàn)了最大帶寬和業(yè)務噪聲隔離,更為數(shù)千個并發(fā)的AI任務提供了可預測的結(jié)果。以下是Spectrum-X面向AI應用的核心技術(shù):

  • 無損網(wǎng)絡技術(shù)和RDMA(遠程直接內(nèi)存訪問)革新了數(shù)據(jù)傳輸,為AI負載提供了快速、直接的數(shù)據(jù)訪問能力,提高了傳輸效率。這一技術(shù)特別適合對性能要求極高的AI應用。
  • 動態(tài)路由和基于包的負載分擔技術(shù),有效解決了AI工作負載產(chǎn)生的大象型數(shù)據(jù)流的負載均衡問題,這些數(shù)據(jù)流容易導致網(wǎng)絡擁塞和延遲。Spectrum-X通過端到端的動態(tài)路由和基于數(shù)據(jù)包的負載均衡,為AI和數(shù)據(jù)密集型應用提供了高性能、低延遲和無限可擴展的網(wǎng)絡環(huán)境。
  • 擁塞控制為多租戶AI云環(huán)境提供了高效、低延遲的網(wǎng)絡控制策略。通過硬件遙測技術(shù),Spectrum-X端到端解決方案能夠快速響應網(wǎng)絡擁塞,實現(xiàn)實時流量控制,避免了傳統(tǒng)方法中可能出現(xiàn)的高延遲和數(shù)據(jù)包丟失問題。
  • 在性能隔離和安全方面,Spectrum-X平臺的Spectrum-4在交換網(wǎng)絡上和BlueField-3 SuperNIC和DPU端側(cè)提供了全面的解決方案。具備了硬件級的安全功能,BlueField-3 DPU在端側(cè)能夠?qū)崿F(xiàn)全線速的數(shù)據(jù)處理和加解密,同時保持業(yè)務的高性能。BlueField-3 SuperNIC和Spectrum-4交換機的配合在以太網(wǎng)上率先實現(xiàn)了多任務性能隔離,確保了多用戶和多應用環(huán)境下的可預測性能,這對于AI云服務的穩(wěn)定性和安全性至關(guān)重要。

除了平臺本身的性能和效率提升,Spectrum-X還提供 NVIDIA 加速軟件和軟件開發(fā)套件(SDK),使開發(fā)人員能夠構(gòu)建軟件定義的云原生AI應用。這種端到端的功能交付,可以減少基于transformer的大規(guī)模生成式AI模型的調(diào)試和運行時間,助力網(wǎng)絡工程師、AI數(shù)據(jù)科學家和云服務商及時取得更好的結(jié)果,并更快做出決策。

對于Spectrum-X的突破,Gilad Shainer指出,“如果沒有端到端的全棧式創(chuàng)新,Spectrum-X的能力將無從談起。”

不僅如此,NVIDIA Spectrum-X 網(wǎng)絡平臺具有高度的通用性,確保了Spectrum-X能夠無縫集成到現(xiàn)有網(wǎng)絡基礎(chǔ)設施中,這不僅降低了部署成本和復雜性,也為未來在AI場景中大規(guī)模使用以太網(wǎng)解決方案奠定了基礎(chǔ),為AI網(wǎng)絡解決方案市場的爆發(fā)提供了動力。

迅速崛起的AI以太網(wǎng)生態(tài)

考慮到基于以太網(wǎng)部署是生成式AI的趨勢之一,NVIDIA將會持續(xù)推進服務器節(jié)點內(nèi)外的網(wǎng)絡優(yōu)化和創(chuàng)新。

現(xiàn)有AI大模型系統(tǒng)的網(wǎng)絡互連技術(shù)主要分為兩類,一類是縱向擴展(Scale-up),主要是一個計算節(jié)點內(nèi)部不同加速卡之間的互連或者一定量的加速卡組成一個超高性能的共享內(nèi)存的系統(tǒng);一類是橫向擴展(Scale-out),主要指不同計算節(jié)點之間的互連或者多個Scale-up組之間的互連。

NVIDIA的縱向擴展網(wǎng)絡目標正是利用超快NVLink網(wǎng)絡使數(shù)個直至數(shù)百個 GPU 之間實現(xiàn)算力和內(nèi)存的池化,成為一個“巨大的GPU”。如果在此基礎(chǔ)上繼續(xù)擴展到更大規(guī)模,就需要進行橫向擴展,可以采用NVIDIA Quantum-X800 InfiniBand和Spectrum-X以太網(wǎng)等高性能網(wǎng)絡。

“這種將 NVLink 與 InfiniBand或Spectrum-X相結(jié)合的方法,對基于領(lǐng)先的NVIDIA計算架構(gòu)的系統(tǒng)部署、實現(xiàn)前所未有的GPU規(guī)模至關(guān)重要”,Gilad Shainer強調(diào)。他以法國云服務提供商 Scaleway為例,介紹了NVIDIA如何通過高性能GPU和網(wǎng)絡平臺幫助其應對生成式AI的挑戰(zhàn)。

具體而言,Scaleway將HGX Hopper GPU服務器納入其GPU集群陣容,利用大規(guī)模GPU集群的速度和效率來加速AI分布式工作負載;在橫向擴展的AI網(wǎng)絡方面,Scaleway部署了Spectrum-X 網(wǎng)絡平臺。也正是通過采用NVIDIA的綜合解決方案,Scaleway有效增強了AI計算能力并縮短了AI模型訓練時間,同時加速了AI解決方案的開發(fā)、部署和上市時間。

目前,Coreweave、GMO Internet Group、Lambda Labs、Scaleway、STPX Global 和 Yotta 等云服務提供商和企業(yè)正在采用 Spectrum-X 平臺,為其 AI 基礎(chǔ)設施帶來更高的網(wǎng)絡性能。此外,NVIDIA OEM合作伙伴正在提供基于Spectrum-X的全棧解決方案,ODM合作伙伴正在將BlueField-3 SuperNIC集成到他們的系統(tǒng)中,并通過NVIDIA的參考架構(gòu)提供 Spectrum-X解決方案。

為了應對云服務提供商在構(gòu)建AI云、使用加速計算技術(shù)和高性能網(wǎng)絡支持AI業(yè)務方面的挑戰(zhàn),NVIDIA正在通過持續(xù)的生態(tài)系統(tǒng)建設來推動Spectrum-X平臺部署,支持更廣泛的生成式AI應用落地。

GPU之后,下一個“Zero-Billion-Dollar Markets”?

根據(jù)IDC預測,生成式AI數(shù)據(jù)中心以太網(wǎng)交換機市場將以70%的年復合增長率增長,從2023年的6.4億美元增長到2028年的90.7億美元。這一預測不僅進一步證明了Spectrum-X平臺的前瞻性,也彰顯了它在未來市場中巨大的商業(yè)潛力。

如今,從金融到醫(yī)療,從工業(yè)到媒體娛樂,各行業(yè)都在尋求通過AI技術(shù)提升業(yè)務效率和創(chuàng)新能力。NVIDIA Spectrum-X平臺不僅突破了傳統(tǒng)以太網(wǎng)的瓶頸,顯著提升了網(wǎng)絡性能和效率,更重要的是,它引領(lǐng)了行業(yè)對網(wǎng)絡技術(shù)的重新思考,確保以太網(wǎng)在生成式AI時代仍然是一種可靠且面向未來的技術(shù),為AI基礎(chǔ)設施的未來發(fā)展奠定基礎(chǔ)。

根據(jù)NVIDIA今年的預測,全球數(shù)據(jù)中心基礎(chǔ)設施的安裝基數(shù)在未來五年內(nèi)有望翻一番,這將帶來每年數(shù)千億美元的市場機會。

生成式AI帶來的深遠影響才剛剛開始,越來越多的行業(yè)在加入生成式AI的陣營。正如開篇所討論,NVIDIA總是希望通過技術(shù)創(chuàng)新塑造市場,Spectrum-X已經(jīng)展現(xiàn)出了這一潛力,而這也將助推NVIDIA站上一個新的萬億美元市場的臺階,引領(lǐng)AI技術(shù)的又一次飛躍發(fā)展。

英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術(shù)與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術(shù)與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄