• 正文
    • 1?一些背景知識
    • 2?智算云的底層業(yè)務邏輯
    • 3?總結(jié)和展望
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

關于智算云底層業(yè)務邏輯的思考

6小時前
217
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編者按

云計算市場本來已經(jīng)基本定型:全球三大云服務廠商亞馬遜AWS、微軟Azure,以及谷歌云,占據(jù)了大部分市場;在國內(nèi),五大巨頭占據(jù)大部分市場,分別是阿里云、天翼云、移動云、華為云騰訊云。

但隨著大模型智算的興起,給整個云計算產(chǎn)業(yè)帶來了新的變化。行業(yè)出現(xiàn)了很多以智算為特色的AI-Infra公司,NVIDIA芯片公司在探索基于自身算力芯片和生態(tài)的智算云,也有一些公司在探索算力網(wǎng)絡等業(yè)務模式。

我們可以簡單的把智算云的底層業(yè)務邏輯分為兩類:一類是自下而上,如傳統(tǒng)的云計算,以硬件資源為基礎,服務各行各業(yè)的各個場景;另一類是自上而下,如AI-Infra,以業(yè)務應用為牽引,基于業(yè)務需要,再不斷夯實算力基礎。

這里,拋磚引玉,探討一下智算云的底層業(yè)務邏輯。


1?一些背景知識

1.1?智算行業(yè)常見的算力服務分層

隨著AI大模型的發(fā)展,常見的算力分層為:機房層、硬件層、IaaS層、CaaS層、PaaS層、MaaS層、解決方案層。這一切分層,都是為了服務客戶的業(yè)務應用層(部分業(yè)務應用系統(tǒng)足夠龐大、業(yè)務邏輯足夠復雜,也可能會繼續(xù)分層)。

智算服務分層簡單介紹:

IaaS,Infrastructure as a Service,基礎設施即服務。用戶通過IaaS服務租用服務器、存儲、網(wǎng)絡等基礎設施,無需購買和維護物理硬件。

CaaS,Containers as a Service,容器即服務。CaaS提供了高效、靈活的方式來運行和管理容器,適用于多種環(huán)境,包括本地數(shù)據(jù)中心、混合云和多云環(huán)境。

PaaS,Platform as a Service,平臺即服務。PaaS提供開發(fā)和部署應用程序所需的平臺和工具,用戶無需管理底層基礎設施(服務器、存儲、網(wǎng)絡等),只需專注于應用程序的開發(fā)和運行。

MaaS,Model as a Service,模型即服務。提供深度學習模型的訪問和使用服務。用戶可以通過API調(diào)用這些預訓練或定制模型,無需自行開發(fā)或訓練,專注于應用集成和業(yè)務創(chuàng)新。

解決方案層。為了更好的幫助客戶的業(yè)務應用落地,圍繞某些技術以及針對某些場景,所開發(fā)的公版解決方案。

1.2?算力分層的金字塔和倒金字塔

如左圖所示,IaaS、CaaS、PaaS、MaaS每一層的服務都可以直接對外售賣,因此從下到上每層服務所包含的算力規(guī)模會逐漸減少。

如右圖所示,按服務數(shù)量的分層為倒金字塔:越往下,差異性越小,單個服務的覆蓋面越大,服務的數(shù)量越少;越往上,差異性越大,單個服務的覆蓋面越小,服務的數(shù)量越多。底層通用性的服務,各家智算云廠家都差不多,難以形成差異性優(yōu)勢;只有通過更上層的差異性的算力服務,才能更好的幫助到用戶,也更容易形成用戶粘性。

又如右圖所示,從下到上,也是一個算力價值逐漸增大的過程:底層裸算力價值最低,把底層裸算力封裝成更上層的算力服務,價值會更高。

1.3?自下而上模式和自上而下模式

軟件和硬件,是相互協(xié)作密不可分的關系;但兩者,誰主誰從,則是在不斷演進變化的。

自下而上模式,硬件占據(jù)主導地位,硬件資源支撐并定義上層軟件業(yè)務應用;反過來,自上而下模式,軟件業(yè)務應用約束并定義底層的軟件和硬件資源。

傳統(tǒng)的云計算,是一種自下而上的模式。云計算是一種以資源為核心的算力軟硬件系統(tǒng)組織方式,整個系統(tǒng)堆棧,從最底層硬件開始,不斷的疊加更上層的算力服務,如IaaS、CaaS、PaaS、MaaS等等,以期更好的支撐上層的業(yè)務應用。

而新興的AI-Infra,則是一種自上而下的模式。隨著大模型發(fā)展,新興的AI-Infra類的公司,以AI為導向,為上層提供相關的各類MaaS服務。同時,為了更好的支持其MaaS服務,對底層的軟硬件進行了一定的優(yōu)化甚至重構(gòu)。但這些底層軟硬件重構(gòu),不影響提供給的上層業(yè)務用戶的服務接口,業(yè)務無感。

完全的從最高層的業(yè)務應用出發(fā),不太現(xiàn)實。因為單個業(yè)務應用,并不足夠構(gòu)成足夠的規(guī)模。而以次一層的應用框架層出發(fā),覆蓋相近場景所構(gòu)成的某個具體領域,則是自上而下的典型案例。

2?智算云的底層業(yè)務邏輯

2.1?底層業(yè)務邏輯綜述

按照算力的底層業(yè)務邏輯,我們可以把智算云分為六種模式。

模式1,經(jīng)典公有云,自下而上,以基礎資源為核心。公有云也有PaaS、MaaS等更上層服務,但都是以IaaS層資源服務為基礎構(gòu)建。

模式2,AI-Infra,自上而下,聚焦AI和AI+。以AI為核心,構(gòu)建面向各行各業(yè)的高層次的算力服務。

模式3,以芯片架構(gòu)為基,自下而上,目前主要是NVIDIA在做此嘗試。因為距離業(yè)務最遠,也是最難的一種模式。

模式4,聚焦特定技術領域,自上而下。技術背景的公司,可以聚焦在自己擅長的技術領域,以特定技術領域為中心,逐步向外圍擴展。

模式5,聚焦特定行業(yè),自上而下。相對于算力服務,更關鍵的是要能夠賦能業(yè)務場景落地。于是,一些算力服務企業(yè),深耕特定行業(yè),以此行業(yè)特色和豐富的行業(yè)場景解決方案為核心競爭力。

模式6,聚焦特定地域,自上而下。各地政府,在探索算力網(wǎng)的業(yè)務模式。算力網(wǎng)的主要作用是,統(tǒng)籌當?shù)馗鞣N算力資源,也借外部算力為我所用,以此來賦能當?shù)氐男陆?jīng)濟和重點行業(yè)發(fā)展。

2.2?模式1:云計算,以基礎資源為核心

公有云計算,是以基礎資源類服務(IaaS)為核心的,數(shù)百項各層次各類服務所組成的算力服務體系。相比通算云,智算云的各項算力服務,可能有升級、有重構(gòu),甚至有新增,但算力服務體系的組織架構(gòu)不會變。

公有云,也有PaaS、MaaS、SaaS等,但本質(zhì)是仍是一種自下而上的模式:把硬件資源封裝成服務,然后再一層層疊加更高層的服務,然后再服務更上層的用戶業(yè)務應用。

2024年,全球公有云市場規(guī)模近6000億美金。公有智算云是目前最主要的智算云方式。隨著大模型智算的興起,給整個云計算產(chǎn)業(yè)帶來了新的變化。所有的云計算公司,都在積極的從通算云向智算云公司轉(zhuǎn)型。

2.3?模式2:AI-Infra,聚焦AI&AI+

最開始,AI可以算作一個技術領域,但隨著大模型的興起,我們走向了AI時代,AI成為了一切業(yè)務應用必不可少的基礎組件。

AI-Infra,其業(yè)務邏輯的核心是AI和AI+:

以AI為中心,逐步擴展到其他配套算力服務;

承上,面向各種AI+的業(yè)務場景和應用;

啟下,構(gòu)建滿足AI特定需求的硬件和底層軟件的基礎設施。

本質(zhì)上,AI屬于業(yè)務應用層,AI-Infra屬于自上而下的模式,屬于業(yè)務應用(上)定義底層硬件資源(下)的模式。

隨著智算算力占比越來越高,以及AI相關上層服務的需求越來越多,AI-Infra越來越成為一個重要的商業(yè)形態(tài)。未來會涌現(xiàn)越來越多的AI-Infra特色的智算云公司。

2.4?模式3:NVIDIA,以架構(gòu)為基礎

幾乎所有的云計算巨頭都在自研芯片,這給了傳統(tǒng)芯片公司很大的壓力。NVIDIA作為傳統(tǒng)芯片公司的優(yōu)秀代表,不能坐以待斃:對方侵入了自己的業(yè)務范疇,那么自己也需要侵入對方的業(yè)務范疇。

NVIDIA目前在智算云方面,做的相關工作主要如下:

第一方面,NVIDIA的數(shù)據(jù)中心級GPU,通常不單獨售賣芯片,主要是以板卡、整機甚至整個智算中心解決方案的方式提供。案例:AI超算工廠,NVIDIA在美國德州和亞利桑那州建設超級計算機制造工廠,整合Blackwell芯片的封裝測試與系統(tǒng)組裝,目標未來四年生產(chǎn)價值5000億美元的AI基礎設施。

第二方面,NVIDIA的Omniverse平臺。Omniverse是一個計算機圖形與仿真模擬平臺,通過數(shù)字孿生技術,結(jié)合生成式AI等技術,幫助企業(yè)實現(xiàn)虛擬仿真。Omniverse本質(zhì)上是以NVIDIA GPU為底座的聚焦特定技術領域的智算云,也就是本文中接下來要介紹的模式4。

第三方面,NVIDIA在過去一年中大幅增加了對云服務的投資,承諾在未來幾年內(nèi)至少投入90億美元用于云計算服務。這包括其2023年推出的DGX Cloud服務,該服務允許云提供商租賃NVIDIA的服務器,并將其作為云服務銷售給企業(yè)。

第四方面,NVIDIA收購了幾家AI-infra公司,以此來增強其在以AI為特色的算力服務方面的技術實力。如NVIDIA近期完成了對Lepton AI的收購,這是一家專注于GPU云服務的初創(chuàng)公司;Lepton AI成立于2023年,其業(yè)務模式是租賃NVIDIA GPU服務器(如A100和H100型號),并將其轉(zhuǎn)租給需要高性能計算資源的企業(yè)。此次收購也標志著NVIDIA從單純的芯片制造商向AI基礎設施即服務(AIaaS)提供商的戰(zhàn)略轉(zhuǎn)型。

NVIDIA以特定芯片(架構(gòu))為基礎,來構(gòu)建算力服務,是一種最難的智算云模式(距離最終用算力的客戶最遠)。除NVIDIA之外,目前,暫未看到有其他芯片廠家在做類似的事情。

2.5?模式4-6綜述

跟傳統(tǒng)的公有云相比,模式4-6的差異性主要有兩點:

第一點,相對于傳統(tǒng)公有云自下而上,如AI-Infra一樣,模式4-6本質(zhì)上也是一種自上而下的模式。模式4-6相比AI-Infra模式來說,其整體業(yè)務邏輯要更靠近上層一些(AI是業(yè)務側(cè)的底座層)。模式4聚焦具體的技術領域,模式5則脫離了技術范疇聚焦了更上層的行業(yè),模式6同樣脫離了技術范疇聚焦了特定的地域。

第二點,則是聚焦。公有云,相對來說,規(guī)模都比較大,賦能千行百業(yè),走的是“大而全”的模式。而模式4-6,則屬于反向而行之,走的是“小而美”的專業(yè)化路子:聚焦特定領域、聚焦特定行業(yè)或聚焦特定地域。

當然,如果一個智算云企業(yè)做大做強了,未來逐步拓展其他領域、其他行業(yè)、其他地域也是必然的事情。

2.6?模式4:差異化,聚焦特定技術領域

一些技術背景的智算云公司,通常以特定技術領域為聚焦范疇,如視頻圖像領域、安全領域、區(qū)塊鏈領域、科學智算領域、邊緣智算領域等。

聚焦特定技術領域:

一方面可以給上層業(yè)務提供更加專業(yè)、全面、深度的算力服務;

另一方面可以在特定技術方向做定向技術優(yōu)化,從而實現(xiàn)最極致的算力成本。

下面,我們介紹一下特定領域的底層硬件加速優(yōu)化的一些共性方法。

如上圖,一個典型的計算架構(gòu),包括的處理器資源池有:CPU、GPU、X-AIPU、X-DSA、HPN。X代表具體的領域;X-AIPU,為面向領域特色大模型的AI加速器;X-DSA,為面向其他特定領域的加速器。

加速計算優(yōu)化可以分為三類:

優(yōu)化一:隨著領域大模型的成熟,大模型加速逐漸從GPU切換到更加高效低成本的X-AIPU;

優(yōu)化二:領域中其他性能敏感算法,通過專用的X-DSA加速;

優(yōu)化三:高HPN大帶寬低延遲,但也高成本;根據(jù)業(yè)務需求,合理選擇IB、RoCEv2或Eth;支持網(wǎng)絡轉(zhuǎn)發(fā)可軟件編程,和自定義高性能網(wǎng)絡協(xié)議。

2.7?模式5:差異化,聚焦特定行業(yè)

行業(yè)有很多,常見的行業(yè)有石油、電力、金融、教育、化工、醫(yī)藥、交通等等。每一個單獨的行業(yè),僅國內(nèi),其算力需求規(guī)模,通常都有100億左右。深耕特定行業(yè),也足以成為一個有足夠影響力的智算云公司。

聚焦特定行業(yè)的智算云公司,其競爭力不在于IDC、智算硬件、IaaS/CaaS/PaaS等底層算力產(chǎn)品和服務(這些產(chǎn)品,可以標準化,由外部供應商提供),而核心競爭力在于:

面向特定行業(yè)的AI大模型,以及相關的MaaS級服務(訓練、微調(diào)、推理、API調(diào)用等);

AI和特定行業(yè)特定業(yè)務場景的結(jié)合,給客戶提供完善的從云到邊再到端的軟硬件綜合解決方案;

匯集行業(yè)特色數(shù)據(jù),賦能行業(yè)各類AI+業(yè)務場景落地;

其他面向行業(yè)的產(chǎn)品和服務。

2.8?模式6:差異化,聚焦特定地域

在“東數(shù)西算”大背景下,各地都在如火如荼的建設智算中心。如何把智算中心資源整合,如何更好的消納算力,如何能更好的提升算力附加值,以及如何更好的賦能業(yè)務應用和當?shù)亟?jīng)濟發(fā)展,則是各地政府都在思考的話題。

政府算力網(wǎng)項目,則是在這個大背景下產(chǎn)生的。目前,全國很多城市都在籌建城市算力網(wǎng)項目,并且在算力網(wǎng)的業(yè)務模式探索方面,做了很多的工作。這一模式一旦走通,未來會在全國多地開花。并且會進一步從城市算力網(wǎng),升格成區(qū)域算力網(wǎng),甚至全國算力網(wǎng)。

很有可能,未來會形成若干家面向全國的算力網(wǎng)公司。

3?總結(jié)和展望

我們從下到上,對幾種智算云底層邏輯的未來發(fā)展進行一個總結(jié)(一家之言,僅供參考):

NVIDIA,基于芯片架構(gòu)的模式。這種模式,我們認為,很難走通。一方面是距離最終的業(yè)務客戶最遠;另一方面,和自己的主要大客戶(各類公有云公司)存在競爭關系,這可能進一步加速客戶采用其他供應商芯片(或自研各類核心芯片)。

公有云模式。公有云既要專注算力的底層軟硬件(AWS等公司自研芯片,自研高性能網(wǎng)絡,做非常多的底層優(yōu)化),還要關注AI為核心的AI-Infra。公有云模式的公司,未來可能分化成兩類公司:成為更聚焦AI的AI-Infra,成為更關注底層算力資源的IaaS云公司。

AI-Infra模式。我們認為,在AI時代,AI-Infra會成為最為核心的智算云模式。

差異化模式,模式4-6。一方面,底層云技術的成熟,也包括AI-MaaS層技術的成熟;另一方面,輕模式智算云成為主流,其切入門檻會進一步降低,從目前數(shù)十億投入進一步降低到千萬甚至百萬級投入。未來會出現(xiàn)非常多的以模式4-6為切入點的公司,更聚焦行業(yè),更聚焦業(yè)務,更聚焦客戶。

(正文完)

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。