當(dāng)前,國內(nèi)算力市場的發(fā)展態(tài)勢備受關(guān)注,萬卡集群稀缺與算力閑置浪費并存的矛盾現(xiàn)象,引發(fā)了行業(yè)內(nèi)外的廣泛探討。
“中國算力市場從發(fā)展初期就陷入了過度碎片化的困境?!?長期關(guān)注算力產(chǎn)業(yè)的分析師李博士指出,“企業(yè)和地方政府盲目采購GPU的現(xiàn)象屢見不鮮。許多企業(yè)在未充分評估自身實際需求、應(yīng)用場景以及后續(xù)運營能力的情況下,便跟風(fēng)大規(guī)模采購GPU;一些地方政府為推動當(dāng)?shù)?a class="article-link" target="_blank" href="/tag/%E6%95%B0%E5%AD%97%E7%BB%8F%E6%B5%8E/">數(shù)字經(jīng)濟發(fā)展,在缺乏科學(xué)規(guī)劃和產(chǎn)業(yè)調(diào)研的基礎(chǔ)上,倉促上馬算力基礎(chǔ)設(shè)施建設(shè)項目,大量購置GPU設(shè)備。這種盲目行為使得算力資源在市場上呈現(xiàn)出分散布局的態(tài)勢,難以形成規(guī)模效應(yīng)和協(xié)同效應(yīng)?!?/p>
算力基礎(chǔ)設(shè)施的物理分布也很不合理,和當(dāng)年的新能源汽車行業(yè)一樣,目的就是要去拿補貼,然而當(dāng)?shù)馗揪蜎]有使用算力需求的企業(yè)。截止到2024年10月,國內(nèi)通過官方已經(jīng)備案的188個大模型中,超過30%后續(xù)已經(jīng)沒有進任何進展;約10%仍然堅持序列,其中一半以上已經(jīng)轉(zhuǎn)向了AI的應(yīng)用開發(fā),這對國內(nèi)算力中心的需求又是雪上加霜。如果算力閑置問題繼續(xù)持續(xù)下去,有可能出現(xiàn)賣卡求生的現(xiàn)象了,這可能就意味著前期的算力配套建設(shè)的投資基本上就打了水漂。
談及算力基礎(chǔ)設(shè)施物理分布不合理的問題,某大型云計算企業(yè)的技術(shù)負(fù)責(zé)人王總表示:“從區(qū)域分布來看,東部沿海地區(qū)經(jīng)濟發(fā)達(dá),數(shù)字化程度高,對算力需求極為旺盛,但算力供給卻相對不足;中西部地區(qū)在政策推動下建設(shè)了不少算力中心,算力資源相對充裕,可應(yīng)用需求卻嚴(yán)重不足,大量算力處于閑置狀態(tài)。這種空間上的供需錯配,極大地浪費了算力資源。這與當(dāng)年新能源汽車行業(yè)初期為拿補貼盲目擴張產(chǎn)能的情況類似,部分參與者過于關(guān)注短期利益,忽視了行業(yè)的長遠(yuǎn)發(fā)展?!?/p>
對于萬卡集群稀缺的成因,技術(shù)集成難度高是重要因素之一。從事高性能計算研發(fā)多年的張教授解釋道:“萬卡集群絕非簡單的硬件堆砌,它涉及高性能GPU計算、高性能網(wǎng)絡(luò)、高性能并行文件存儲、智算平臺等一系列復(fù)雜關(guān)鍵技術(shù)的深度整合。
在GPU計算方面,要保證每張加速卡穩(wěn)定高效運行并協(xié)同工作;高性能網(wǎng)絡(luò)搭建需確保數(shù)據(jù)在海量加速卡間快速、穩(wěn)定傳輸,避免擁塞和延遲;高性能并行文件存儲要支持大規(guī)模數(shù)據(jù)的快速讀寫;智算平臺則要有強大的管理和調(diào)度能力,實時監(jiān)控和優(yōu)化調(diào)配硬件資源。任何一個環(huán)節(jié)出問題,都會影響整個集群性能。比如網(wǎng)絡(luò)帶寬不足,即便有大量GPU加速卡,計算能力也無法充分發(fā)揮,造成資源浪費。”
建設(shè)萬卡集群的資金投入巨大,這也是制約其發(fā)展的關(guān)鍵。金融分析師劉先生稱:“以高端GPU為例,單張價格可能高達(dá)數(shù)萬元甚至更高,采購一萬張及以上加速卡的成本就是天文數(shù)字。除了硬件采購,后續(xù)運維成本也不容小覷,需要專業(yè)技術(shù)團隊進行日常維護,包括硬件故障排查與修復(fù)、軟件系統(tǒng)升級、網(wǎng)絡(luò)安全防護等。而且萬卡集群運行的電力成本持續(xù)且高昂,一個萬卡規(guī)模的智算中心,每年電費支出可能高達(dá)數(shù)千萬元。如此巨大的資金壓力,讓許多企業(yè)望而卻步?!?/p>
此外,高端芯片獲取受限也嚴(yán)重制約了萬卡集群的規(guī)?;l(fā)展。我國在高性能計算和AI硬件方面與國際先進水平存在差距,尤其是在算力芯片領(lǐng)域。目前,高端算力芯片市場被國外廠商主導(dǎo)。由于國際形勢等因素,我國獲取高端GPU等AI硬件面臨諸多限制,這不僅導(dǎo)致算力服務(wù)售價昂貴,增加企業(yè)運營成本,還使得建設(shè)萬卡集群時難以獲取足夠數(shù)量的高端芯片。一些企業(yè)原本計劃建設(shè)萬卡集群,就因無法按時獲得足夠數(shù)量的高端GPU芯片,項目不得不延期甚至擱置。
在算力閑置浪費方面,規(guī)劃與需求脫節(jié)是深層原因之一。行業(yè)研究員陳女士表示:“許多企業(yè)和地方政府在規(guī)劃算力基礎(chǔ)設(shè)施建設(shè)時,沒有做好充分的市場調(diào)研和需求分析。對自身所處行業(yè)的發(fā)展趨勢、未來對算力的實際需求規(guī)模和類型缺乏準(zhǔn)確判斷。部分企業(yè)盲目追求算力規(guī)模,忽視了自身業(yè)務(wù)場景對算力的實際適配性。比如一些傳統(tǒng)制造業(yè)企業(yè),業(yè)務(wù)流程對算力需求主要集中在日常辦公和簡單數(shù)據(jù)處理,卻跟風(fēng)建設(shè)龐大算力中心,導(dǎo)致大量算力閑置。地方政府在規(guī)劃區(qū)域算力建設(shè)時,若未充分考慮當(dāng)?shù)禺a(chǎn)業(yè)結(jié)構(gòu)和企業(yè)分布,建設(shè)的算力中心也會與實際需求不匹配,造成資源浪費?!?/p>
應(yīng)用場景開發(fā)不足同樣不容忽視。某人工智能初創(chuàng)企業(yè)的CEO林先生認(rèn)為:“算力的價值需通過實際應(yīng)用場景體現(xiàn)。目前國內(nèi)在算力基礎(chǔ)設(shè)施建設(shè)上有一定進展,但應(yīng)用場景開發(fā)相對滯后。很多企業(yè)雖有算力資源,卻缺乏與之匹配的創(chuàng)新應(yīng)用。在人工智能領(lǐng)域,大模型發(fā)展迅速,但與實際業(yè)務(wù)深度融合的應(yīng)用案例還不夠豐富。像醫(yī)療領(lǐng)域,理論上可利用算力進行疾病預(yù)測、醫(yī)學(xué)影像分析等,但因缺乏成熟應(yīng)用模式和配套軟件,許多醫(yī)療機構(gòu)的算力設(shè)備未能充分利用。新興行業(yè)如智能交通、智慧農(nóng)業(yè)等,對算力潛在需求巨大,但相關(guān)應(yīng)用場景還在探索階段,尚未規(guī)模化,導(dǎo)致大量算力閑置?!?/p>
市場機制不完善也是導(dǎo)致算力閑置浪費的重要因素。一位不愿具名的行業(yè)資深人士透露:“當(dāng)前國內(nèi)算力市場缺乏完善的市場機制來有效配置算力資源。一方面,算力租賃市場發(fā)展不成熟,存在信息不對稱、價格不透明等問題。擁有閑置算力的企業(yè),因缺乏信息發(fā)布平臺和市場渠道,難以將閑置算力出租;急需算力的企業(yè)又找不到合適租賃資源。另一方面,算力交易市場規(guī)則和標(biāo)準(zhǔn)不統(tǒng)一,不同企業(yè)的算力資源在質(zhì)量、性能等方面存在差異,卻缺乏統(tǒng)一評估和定價體系,阻礙了算力資源的流通和共享。比如在算力租賃市場,有些企業(yè)提供的算力服務(wù)質(zhì)量不穩(wěn)定,時常出現(xiàn)故障,由于缺乏市場監(jiān)管和約束機制,租用方難以維權(quán),影響了企業(yè)參與算力租賃市場的積極性,使得大量算力資源無法合理利用?!?/p>
總之,國內(nèi)算力市場面臨的萬卡集群稀缺和算力閑置浪費問題,是由技術(shù)、資金、規(guī)劃、應(yīng)用場景、市場機制等多種因素共同作用導(dǎo)致的。要解決這些問題,推動我國算力產(chǎn)業(yè)健康、可持續(xù)發(fā)展,需要政府、企業(yè)、科研機構(gòu)等各方共同努力,從技術(shù)創(chuàng)新、合理規(guī)劃、完善市場機制等多個方面入手,加強算力建設(shè)與大模型發(fā)展之間的協(xié)同合作。