• 正文
    • 智算場景需求旺盛,對廣域網提出全新挑戰(zhàn)
    • 精準匹配供需,運營商加速智算廣域網創(chuàng)新實踐
    • 產業(yè)協作,智算廣域網發(fā)展步入快車道
  • 相關推薦
申請入駐 產業(yè)圖譜

精準匹配智算供需:智算IP廣域網發(fā)展步入快車道

01/15 10:30
1091
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

隨著AI技術和應用迅猛發(fā)展,行業(yè)正面臨日趨加劇的智算供需對接挑戰(zhàn)。一方面,國內已建設很多智算資源池,尤其運營商已在全國范圍內落地多級算力資源池,迫切需要充分發(fā)揮這些智算資源的作用;另一方面,行業(yè)對人工智能技術的投入持續(xù)增加,產生了海量樣本數據上傳和日益復雜的模型訓練需求。

如何精準對接智算資源供給與行業(yè)需求?智算廣域網成為業(yè)界關注的焦點,其不僅是智算中心與各行各業(yè)之間智算數據傳輸的橋梁,更是實現“網效”與“算效”雙提升的關鍵基礎設施。

正是在這樣的背景下,中國信息通信研究院于12月23日在京舉辦了以“打造超彈性無損智算IP廣域網,加速邁向智能時代”為主題的“智算IP廣域網產業(yè)交流會”。會上,行業(yè)專家們圍繞技術創(chuàng)新、應用實踐和產業(yè)標準等方面進行了深入探討,并聯合發(fā)布了“智算廣域網發(fā)展倡議”和首批創(chuàng)新成果,充分展示智算IP廣域網實用性與廣闊的應用前景。

智算場景需求旺盛,對廣域網提出全新挑戰(zhàn)

技術的發(fā)展離不開需求的驅動。對于智算廣域網的創(chuàng)新發(fā)展,在會上,中國工程院鄔賀銓院士和中國通信標準化協會聞庫理事長均建議行業(yè)從場景需求和痛點入手,深入探索與創(chuàng)新技術路徑和業(yè)務模式。

當前智算業(yè)務具體有哪些場景需求和痛點?“海量樣本入算、存算分離拉遠訓練、跨數據中心協同訓練和業(yè)務推理等典型業(yè)務需求給傳統網絡帶來了全新的挑戰(zhàn),為提升網效與算效,行業(yè)需要通過廣域超寬、網絡高吞吐、RDMA長距無損、任務式服務和差異化體驗保障等關鍵技術創(chuàng)新推動智算廣域網快速發(fā)展?!敝袊畔⑼ㄐ叛芯吭杭夹g與標準研究所互聯網中心高巍主任對智算廣域網典型業(yè)務需求和挑戰(zhàn)進行了深入分析。

海量樣本入算,指企業(yè)需要將海量樣本數據實時上傳到智算中心。傳統廣域網主要針對數據量較小的“螞蟻流”設計負載均衡,而樣本入算以GB級的“大象流”為主,流數少但單流數據量大,且具有強突發(fā)性,若仍采用傳統網絡的負載均衡方案,容易引發(fā)鏈路擁塞和負載不均而造成整網吞吐嚴重下降。同時,樣本上傳通常需要短時高帶寬支持,若企業(yè)采用傳統固定帶寬連接方式,會面臨“低帶寬等不起、高帶寬用不起”的問題。因此,海量樣本入算場景要求智算廣域網具備彈性高帶寬和更有效的均衡調度能力。

存算分離拉遠訓練,指行業(yè)對敏感數據的安全性要求較高,需通過RDMA協議直接將樣本數據送到智算服務器的內存中進行訓練,使樣本數據不落盤存儲于第三方算力資源中。然而,RDMA技術對丟包極為敏感,千分之一的丟包會導致計算效率下降50%以上。因此,智算廣域網需部署RDMA無損傳輸技術,以確保樣本數據遠距離高吞吐無損傳輸,算效不下降。

跨數據中心協同訓練,指利用網絡實現多智算中心協同計算,以提升整體算力效率,滿足更大規(guī)模的算力需求。單體智算中心因受制于機房空間、電力資源等限制,越來越難滿足呈指數級增長的算力需求,因此跨數據中心協同訓練成為了新趨勢。但該場景面臨RDMA長距離傳輸對丟包十分敏感、網絡傳輸時延增加等挑戰(zhàn),要求網絡具備廣域無損調度、精準擁塞控制等能力,以確保跨智算中心算效不下降。

業(yè)務推理場景是利用數據和模型為特定業(yè)務需求提供智能分析和決策支持的實際應用場景。推理業(yè)務需要網絡來實現數據的高效傳輸和模型結果的實時交付,從而支持智能應用的快速響應。這要求網絡具備高帶寬、差異化時延保障、高等級的安全隔離等能力,以及具備邊緣節(jié)點東西向連接能力。

精準匹配供需,運營商加速智算廣域網創(chuàng)新實踐

需求的滿足離不開技術的創(chuàng)新與突破。當前,中國移動、中國電信和中國聯通三大運營商正加快完善算力布局,建起了覆蓋全國的多層級算力中心。為了將這些算力資源充分轉化為各行業(yè)可用的智算服務,精準匹配算力供給與行業(yè)需求,三大運營商已聚焦場景需求和痛點,積極推動智算IP廣域網技術創(chuàng)新與試點,并已取得初步成果。

面對上海全市300多家企業(yè)、40多所高校和研究所以及11個信息化園區(qū)的用算訴求,上海電信已試點建設一張端到端400GE IP彈性無損智算廣域試驗網絡,為企業(yè)提供海量樣本高效入算、存算分離拉遠訓練等智算服務。

上海電信副總工程師張堅平表示,該網絡通過網絡高吞吐使能“算得多”,RDMA廣域無損保障“算得快”,任務式彈性服務做到“用得起”,全面匹配智算時代下新供需關系帶來的網絡訴求。其中,400GE彈性算網通過端到端部署400GE大帶寬接口技術,將網絡傳輸能力提升至4倍,并通過在企業(yè)側部署智算CPE,可構建100Mbps到100Gbps的IP彈性專線,滿足企業(yè)通過一條專線同時訪問多種異構算力資源池的需求;長距RDMA無損傳輸技術使網絡吞吐率逼近400GE線路帶寬,支持廣域超百公里RDMA遠距離、高吞吐無損傳輸,算效不下降;結合網絡控制器智能調度和秒級調優(yōu)技術,可實現算力業(yè)務傳輸質量實時可視,保障智算業(yè)務傳輸時延,有效滿足推理業(yè)務流量毫秒級傳輸。

浙江聯通建設發(fā)展部總經理湯瀅琪分享到,在中國聯通服裝制造軍團“衣瞳行業(yè)模型”訓練場景中,面對很多服裝廠家有明確的數據敏感性要求,希望數據不出園區(qū),浙江聯通通過IP廣域無損方案,實現了杭州存、金華訓的“數據不落盤”拉遠訓練。該方案在業(yè)界首次實現30TB樣本數據跨200公里存算分離拉遠訓練,計算拉遠效率大于97%,充分驗證了存算分離拉遠訓練技術的可行性。

存算分離拉遠訓練不僅能確保數據外部“不落盤”,還能大幅提升算力資源利用率。重慶移動計劃部副總經理劉輕舟在會上介紹,在重慶,某車企的全球數據中心設在重慶,并在多個城市部署智算中心,這種跨區(qū)域的布局面臨兩大痛點和需求:一是傳統“先傳后訓”模式導致算力資源利用率低下,約30%的時間處于閑置狀態(tài);二是敏感數據傳輸涉及安全性需求。為此,重慶移動聯合華為創(chuàng)新提出“存算拉遠”解決方案,利用廣域RDMA無損網絡技術將敏感數據直接傳輸到算力卡內存,以“邊傳邊訓”的方式不僅確保了數據訓練后即清理,而且極大降低了算卡閑置率和訓練耗時,將傳輸效率提升超過90%,從而有效解決了大模型訓練中的算效與安全性問題,為智算IP廣域網賦能智能網聯汽車產業(yè)升級樹立了標桿。

此外,在算間協同場景,面對單體智算中心難以滿足超過10萬卡的建設需求,北京電信正在探索通過智算廣域網整合京津冀三地算力中心資源,創(chuàng)新多算力中心協同的多點共算模式,以支持超大模型訓練。北京電信云網發(fā)展部規(guī)劃總監(jiān)姚凌分享到,北京電信通過配置新一代智算路由器,采用新型流級擁塞控制技術,實現了網絡擁塞或故障快速精準識別,確保了擁塞不擴散到全網;并通過采用路由器廣域無損調度和負載均衡技術,保障了業(yè)務吞吐率達到95%以上,實現了跨100公里長距離算效僅下降1%。這些實踐成果為實現京津冀算力資源一體化協同提供了可能性。

產業(yè)協作,智算廣域網發(fā)展步入快車道

有明確的需求牽引,也有技術創(chuàng)新支撐,更有顯著的實踐效果,無疑彰顯了智算IP廣域網的可行性與廣闊前景。然而,要跟上AI應用飛速發(fā)展的步伐,加速智算IP廣域網規(guī)模化落地,前方仍面臨不少挑戰(zhàn),這迫切需要產業(yè)界凝聚共識、攜手合作,持續(xù)推動技術創(chuàng)新和標準制定,并積極探索新模式、新場景。

為此,在會上,中國信通院、中國通信標準化協會、中國電信、中國移動、中國聯通和華為聯合發(fā)起了“凝心聚力,攜手并進,共同繪制智算IP廣域網產業(yè)宏偉藍圖”的倡議,旨在聚力產業(yè)各方資源,更好推進智算IP廣域網技術創(chuàng)新和產業(yè)發(fā)展。

近年來,隨著算力需求呈指數級增長,如何通過算網協同保障智算高效供給,最大化發(fā)揮算力價值,已成為全社會關注的重點。國家相關部門從頂層設計角度已緊密發(fā)布一系列政策。2023年10月,工信部等六個部門聯合發(fā)布《算力基礎設施高質量發(fā)展行動計劃》,提出通過優(yōu)化算力高效運載質量、強化算力接入網絡能力、提升樞紐網絡傳輸效率、探索算力協調調度機制四個方面提升算力高效運載能力。12月,國家發(fā)展改革委、國家數據局等部門聯合印發(fā)《關于深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見》,明確提出算力網是支撐數字經濟高質量發(fā)展的關鍵基礎設施,可通過網絡連接多源異構、海量泛在算力,實現資源高效調度、設施綠色低碳、算力靈活供給、服務智能隨需。

在政策和市場雙向驅動下,運營商正加速布局一體化算力網。比如,中國聯通推出了全新的算力智聯網AINet,依托“網絡+平臺”兩大基礎底座,實現高通量、高性能、高智能的“三高”核心能力,提供高效入算、靈活聯算、數據快遞、數據高鐵、算網一體等領先的算網產品與服務,為各行各業(yè)智能升級和智算業(yè)務發(fā)展鋪平廣闊道路。中國移動已形成“四縱一橫”一體化發(fā)展的算力網絡架構,系統性構建了“九州”算力互聯網,圍繞多元承載、敏捷感知、超寬聯接、穩(wěn)定可靠、AI智能、彈性服務這八大核心能力打造“MATRIXES”技術體系。

智算廣域網作為支撐智算數據高效流通和智算資源高效調度的新型網絡底座,是算網一體化布局的關鍵一環(huán)。從頂層設計領航,到運營商整體布局,都將為智算IP廣域網的快速高質量發(fā)展再添動力。因此,從本次大會可以看出,在政策引導、市場需求、技術創(chuàng)新、產業(yè)協作等多重因素的推動下,智算IP廣域網創(chuàng)新發(fā)展正步入快車道。

相關推薦