近年來,全球消費(fèi)電子市場(chǎng)經(jīng)歷了起起落落,如今正展現(xiàn)出復(fù)蘇的積極態(tài)勢(shì)。從手機(jī)和 PC 市場(chǎng)的數(shù)據(jù)報(bào)告中,我們能清晰地捕捉到這一趨勢(shì)。
圖 | 2014-2024年全球智能手機(jī)出貨量情況;來源:Canalys
根據(jù)Canalys發(fā)布的數(shù)據(jù)顯示,2024年全球智能手機(jī)市場(chǎng)出貨量達(dá)到12.2億部,同比增長(zhǎng)7%;同時(shí),全球PC市場(chǎng)也呈現(xiàn)出穩(wěn)步回暖的態(tài)勢(shì),全年出貨量同比增長(zhǎng)3.8%,達(dá)到2.55億臺(tái)。這一復(fù)蘇趨勢(shì)不僅體現(xiàn)在出貨量的增長(zhǎng),還反映在消費(fèi)電子產(chǎn)業(yè)鏈的盈利改善上。
AI正在成為消費(fèi)電子換新潮的核心驅(qū)動(dòng)力
縱觀這場(chǎng)全球性的消費(fèi)電子復(fù)蘇,除了經(jīng)濟(jì)環(huán)境的改善和消費(fèi)者信心的恢復(fù),人工智能(AI)無疑成為了引領(lǐng)換新潮的核心驅(qū)動(dòng)力。
事實(shí)上,AI正在重新定義手機(jī)和PC的功能邊界,為用戶帶來全新的體驗(yàn)。如今,AI已經(jīng)成為各大手機(jī)廠商競(jìng)相發(fā)力的核心領(lǐng)域。例如,蘋果在2024年推出了Apple Intelligence,試圖通過自研芯片與生成式模型對(duì)用戶體驗(yàn)進(jìn)行全面提升;三星通過與AMD合作,在Exynos芯片中引入了高性能GPU,以支持AI負(fù)載和游戲性能;華為、OPPO等廠商也紛紛接入DeepSeek等AI大模型,加速AI端側(cè)部署。
結(jié)合當(dāng)下形勢(shì),Counterpoint預(yù)測(cè),2024年全球AI手機(jī)滲透率約4%,出貨量有望超1億部;而到2027年,全球AI手機(jī)滲透率將達(dá)到40%左右,出貨量有望達(dá)5.22億部。
值得一提的是,當(dāng)AI 手機(jī)、AI PC等AI負(fù)載為消費(fèi)電子行業(yè)帶來新增長(zhǎng)動(dòng)力的同時(shí),相關(guān)產(chǎn)業(yè)鏈也同步進(jìn)入高速發(fā)展期,產(chǎn)業(yè)升級(jí)過程中,處理器芯片、內(nèi)存、傳感器和散熱解決方案提供商成為最大受益群體。
AI負(fù)載離不開GPU,為什么?
為什么處理器芯片、內(nèi)存、傳感器和散熱解決方案提供商將成為最大受益群體呢?首先,我們要弄清楚AI負(fù)載的特色。
AI負(fù)載的核心特點(diǎn)是高并行計(jì)算和大量數(shù)據(jù)處理。無論是圖像識(shí)別、自然語(yǔ)言處理還是深度學(xué)習(xí)模型推理,都需要強(qiáng)大的計(jì)算能力來支持,而存取、加載大模型需要搭載更高容量 和性能的存儲(chǔ),以AI手機(jī)為例,16GB RAM或?qū)⒊蔀樾乱淮鶤I手機(jī)的基礎(chǔ)配置。此外,AI任務(wù)的高頻高密特性對(duì)手機(jī)散熱、攝像頭、電池、PCB等零部件同樣提出了更高的標(biāo)準(zhǔn)。
聯(lián)發(fā)科無線事業(yè)部AI技術(shù)高級(jí)經(jīng)理莊世榮曾表示:“端側(cè)130億參數(shù)大模型需要配備70TOPS算力的處理器芯片以及13GB容量的內(nèi)存?!?/p>
而對(duì)于端側(cè)AI設(shè)備來講,AI用例需求存在多種類型,具有復(fù)雜性、并發(fā)性和多樣性,對(duì)應(yīng)對(duì)芯片的性能及資源調(diào)用提出不同要求。其中,在深度學(xué)習(xí)領(lǐng)域,GPU 已經(jīng)成為了主流的算力硬件。例如,AI手機(jī)中的圖像識(shí)別、語(yǔ)音翻譯和個(gè)性化推薦等功能,都需要GPU的強(qiáng)大算力支持。這是為什么呢?
因?yàn)镚PU 具有強(qiáng)大的并行計(jì)算能力,能夠同時(shí)處理大量的數(shù)據(jù)和復(fù)雜的計(jì)算任務(wù)。在 AI 訓(xùn)練和推理過程中,需要進(jìn)行大量的矩陣運(yùn)算,GPU 的并行架構(gòu)能夠顯著加速這些運(yùn)算過程,大大縮短訓(xùn)練時(shí)間和提高推理效率。與 CPU 相比,GPU 在處理大規(guī)模數(shù)據(jù)時(shí)具有更高的性能和更低的能耗,因此成為了 AI 負(fù)載的首選硬件平臺(tái)。
圖 | 2024年GPU出貨量超2.51億塊,同比增長(zhǎng)6%;來源:Jon Peddie Research
受到下游需求的驅(qū)動(dòng),近年來GPU產(chǎn)業(yè)發(fā)展迅速。根據(jù)Jon Peddie Research 發(fā)布的數(shù)據(jù)顯示,2024 年全球 GPU 市場(chǎng)規(guī)模將超過 985 億美元,出貨量超2.51億塊,同比增長(zhǎng)6%。
另外,Yole Group?預(yù)測(cè),2023-2029年,高性能計(jì)算GPU市場(chǎng)復(fù)合年增長(zhǎng)率(CAGR)將達(dá)到25%,遠(yuǎn)超CPU的5%和APU的8%;到2029年,GPU 細(xì)分市場(chǎng)收入預(yù)計(jì)將比 CPU 細(xì)分市場(chǎng)大兩倍;到2034年,GPU市場(chǎng)規(guī)模有望突破1.4萬(wàn)億美元,成為處理器市場(chǎng)增長(zhǎng)的核心驅(qū)動(dòng)力。
AI負(fù)載對(duì)GPU提出了哪些新的要求?
如上所述,隨著 AI 技術(shù)的不斷發(fā)展和應(yīng)用場(chǎng)景的日益豐富,GPU 市場(chǎng)迎來更為廣闊的發(fā)展空間。
與此同時(shí) ,AI 負(fù)載的不斷升級(jí)也對(duì) GPU 提出了新的挑戰(zhàn)和要求。一方面,為了支持更復(fù)雜的 AI 模型和算法,GPU 需要具備更高的計(jì)算能力、更大的顯存容量和更強(qiáng)的兼容性。另一方面,隨著 AI 應(yīng)用對(duì)實(shí)時(shí)性要求的提高,GPU 需要具備更快的數(shù)據(jù)傳輸速度和更低的延遲。此外,為了降低成本和提高能效,GPU 的設(shè)計(jì)還需要更加注重集成化和優(yōu)化架構(gòu)。
眾所周知,在GPU領(lǐng)域,Imagination Technologies(以下簡(jiǎn)稱“Imagination”)一直是行業(yè)的風(fēng)向標(biāo)。近年來,Imagination逐步調(diào)整資源配置,將資源集中在AI、汽車電子、桌面和數(shù)據(jù)中心等高增長(zhǎng)領(lǐng)域,推出了多款高性能GPU IP產(chǎn)品。接下來我們以Imagination在GPU領(lǐng)域的產(chǎn)品創(chuàng)新為例,來了解GPU產(chǎn)業(yè)對(duì)AI負(fù)載的需求跟進(jìn)。
去年9月,面向車載智能和交互設(shè)計(jì)需求,Imagination 推出了一款可擴(kuò)展、靈活GPU IP ——IMG DXS,峰值性能比 其上一代汽車 GPU 提高了 50%,計(jì)算工作負(fù)載的性能提升多達(dá)10倍,能夠支持駕駛艙、信息娛樂和高級(jí)駕駛輔助系統(tǒng)。此外,Imagination還通過與全球領(lǐng)先的安全關(guān)鍵型軟件提供商合作,進(jìn)一步鞏固了其在AI和汽車領(lǐng)域的領(lǐng)先地位。
而在移動(dòng)設(shè)備領(lǐng)域,繼2023年1月推出移動(dòng)光追IMG DXT GPU IP,帶領(lǐng)行業(yè)實(shí)現(xiàn)從PC和主機(jī)游戲向移動(dòng)平臺(tái)的跨越后,就在今天,Imagination再次推出重磅GPU IP——Imagination DXTP,為智能手機(jī)和其他電力受限設(shè)備上圖形和計(jì)算工作負(fù)載的高效加速設(shè)定了新的標(biāo)準(zhǔn)。
圖 | IMG DXTP示意圖;來源:Imagination
DXTP,讓AI負(fù)載“高幀率、高能效”全都有
根據(jù)Imagination提供的消息,DXTP提供高達(dá)64 GPixel/s的圖形處理能力,2 TFLOPS的FP32性能和8 TOPS的INT8 AI性能,采用超并行計(jì)算引擎,工作頻率為1GHz。
關(guān)于工作頻率,據(jù)悉DXTP 的時(shí)鐘頻率可以超過 1GHz,以實(shí)現(xiàn)更高的性能,具體取決于所使用的工藝節(jié)點(diǎn)和可用的功耗預(yù)算。
據(jù)悉,Imagination此次提供了兩種現(xiàn)成可售的 DXTP 配置。最小的配置是 DXTP-48-1536,提供 48 GPixel/s、1.5 TFLOPS FP32、3 TFLOPS FP16 和 6 TOPS INT8(均為 1GHz 時(shí)的性能),另一種是 DXTP-64-2048,它的性能在各方面提升了 33%。
在能效方面,得益于一系列微架構(gòu)改進(jìn),DXTP在常見圖形工作負(fù)載上,相比其前代產(chǎn)品DXT,功耗效率(FPS/W)提高了最多20%。
那么,此次Imagination到底在微架構(gòu)上做了哪些調(diào)整呢?這些調(diào)整對(duì)GPU的性能、能效有產(chǎn)生了哪些影響?
-
DXTP,性能全面升級(jí)
Imagination方面表示:“Imagination DXTP 的基本布局與其在移動(dòng)市場(chǎng)的前款產(chǎn)品 DXT 略有不同。我們做了一些工作,包括通過將計(jì)算和紋理處理單元以不同的方式組合在一起,并增加緩存和系統(tǒng)級(jí)帶寬的大小,我們將每個(gè) GPU 可處理的幾何圖形量額外增加了 50%,并提高了 GPU 的性能維持能力?!?/p>
此外,為了提升AI性能,Imagination不僅在 DXTP 中將本地計(jì)算內(nèi)存增加到 32KB,同時(shí)還采用了高能效的處理和數(shù)據(jù)管理技術(shù)。其內(nèi)存結(jié)構(gòu)能夠處理針對(duì)移動(dòng)平臺(tái)需求特別進(jìn)行優(yōu)化的模型,而不是需要大量計(jì)算資源在云端運(yùn)行的重型模型。
據(jù)悉,DXTP 支持 FP32、FP16、INT8 和 DOT8 操作。與前系D系列GPU類似,DXTP具有雙倍提升 FP16工作負(fù)載性能的能力。INT8 DOT操作的速度是 FP32 操作的四倍。通過使用GPU內(nèi)部的不同處理流水線,我們還可以高效地打包和解包神經(jīng)網(wǎng)絡(luò)中使用的各種數(shù)據(jù)類型,包括 INT4。許多層可能會(huì)受到帶寬限制,因此INT4可以幫助改善這一問題,同時(shí)解壓縮 INT4 為 INT8 的額外成本較低,能夠有效緩解帶寬瓶頸,提升整體吞吐量。支持靈活的數(shù)據(jù)類型使得GPU相比于具有特定數(shù)據(jù)類型要求的NPU設(shè)計(jì)更加具有未來適應(yīng)性和靈活性。
圖 | IMG DXTP采用可擴(kuò)展處理單元(SPU),并配備兩個(gè)計(jì)算集群;來源:Imagination
此外,DXTP 考慮到了復(fù)雜網(wǎng)絡(luò)帶寬需求的增加,通過采用可擴(kuò)展處理單元(SPU),并配備兩個(gè)計(jì)算集群(ALU 和紋理單元),顯著提升了每個(gè)計(jì)算單元的帶寬。與 DXT 設(shè)計(jì)中三個(gè)計(jì)算集群不同,DXTP 只需要為兩個(gè)計(jì)算集群提供帶寬,這意味著每個(gè)計(jì)算集群的帶寬最多提升 50%。
-
DXTP,能效提升20%
在能效提升方面,此次Imagination還通過調(diào)整 GPU 內(nèi)的子單元,將已經(jīng)非常高效的圖形和計(jì)算處理器的能效提高了 20%。
也許有人對(duì)能效提升20%這一數(shù)據(jù)來源有一些疑問,這是如何的出來的呢?
圖 | 相比前代產(chǎn)品DXT,DXTP的功耗效率(FPS/W)提高了最多20%;來源:Imagination
對(duì)此,Imagination方面表示:“關(guān)于DXTP能效提升的研究,我們比較了 DXT-48-1536 和 DXTP-48-1536 在各種基準(zhǔn)測(cè)試和游戲中的能效。如上圖所示,結(jié)果因工作負(fù)載而異,在所分析的工作負(fù)載中,功效提升了 11% 到 22%。功耗效率是基于 ISO 工藝之上的功耗模擬,使用了我們的 RTL 硬件仿真器去捕捉GPU設(shè)計(jì)的柵極切換率,并將其輸入到模擬每個(gè)晶體管功耗特性的工具,從而進(jìn)行流片前功耗效率分析工作。我們對(duì)等效的 DXT 和 DXTP 設(shè)計(jì)采用了相同的方法,因此可以通過遵循這一流程,在各種工作負(fù)載中實(shí)現(xiàn)可靠的能效改進(jìn)。”
生態(tài)就緒,DXTP等你來戰(zhàn)
如今,不管是AI手機(jī)還是其他AI終端,CPU+GPU+NPU的異構(gòu)計(jì)算架構(gòu)已成為市場(chǎng)主流,如前面提到的,GPU是其中重要的加速器之一。
與CPU相比,GPU的并行性為圖形和人工智能工作負(fù)載提供了更好的性能;與許多NPU相比,它提供了更好的可編程性和標(biāo)準(zhǔn)化編程模型,如 OpenCL和Vulkan Compute,而不是復(fù)雜的定制工具流和API。
在多核協(xié)同方面,當(dāng)前通過集成的 RISC-V 固件處理器(可調(diào)度和管理 GPU 內(nèi)的所有工作負(fù)載和事件),我們可以使用 GPIO 接口直接與第三方處理模塊(如NPU)進(jìn)行最小延遲的交互。這樣,當(dāng)各層從NPU轉(zhuǎn)移到GPU時(shí),就能以最少的空閑時(shí)間實(shí)現(xiàn)峰值性能。
對(duì)此,Imagination方面表示:“我們?cè)?UXL 基金會(huì)等組織中發(fā)揮了領(lǐng)導(dǎo)作用,該項(xiàng)目現(xiàn)已成為 Linux 基金會(huì)的一部分,它正在幫助開發(fā)人員使用oneAPI標(biāo)準(zhǔn),以加速他們?cè)诙喙?yīng)商、多處理器環(huán)境中的工作負(fù)載?!?/p>
圖 | IMG DXTP生態(tài)已就緒;來源:Imagination
據(jù)悉,在操作系統(tǒng)適配層面,DXTP 支持標(biāo)準(zhǔn)的 Linux 和 Android操作系統(tǒng),并與領(lǐng)先的游戲引擎提供商和開發(fā)商密切合作,確保消費(fèi)者在基于Imagination的設(shè)備上運(yùn)行游戲和其他應(yīng)用程序時(shí)獲得最佳體驗(yàn)。
除了對(duì)標(biāo)準(zhǔn)的Linux 和 Android支持外,Imagination 還向直接客戶提供對(duì)DDK源代碼的完全訪問權(quán)限,以便與各種定制操作系統(tǒng)(如 RTOS)進(jìn)行移植和集成。
在操作系統(tǒng)層以上,DXTP在SDK及工具支持方面同樣具備優(yōu)勢(shì)。其中,PowerVR SDK 幫助開發(fā)者通過一步步的示例代碼入門,了解如何為Imagination GPU編寫代碼,并提供了關(guān)于Imagination GPU工作原理的詳細(xì)文檔以及創(chuàng)建最佳圖形應(yīng)用程序的技巧。該 SDK 配備了一系列行業(yè)領(lǐng)先、功能豐富的工具,能夠?yàn)?a class="article-link" target="_blank" href="/tag/%E8%BD%AF%E4%BB%B6%E5%BC%80%E5%8F%91/">軟件開發(fā)者提供有關(guān)其應(yīng)用程序性能的詳細(xì)見解(PVRTune),并幫助他們識(shí)別需要優(yōu)化的領(lǐng)域(PVRCarbon 和 PVRStudio)。
綜上,隨著生態(tài)建設(shè)的不斷完善,IMG DXTP GPU的舞臺(tái)已經(jīng)搭建完畢。從AI加速到圖形渲染,從游戲到專業(yè)創(chuàng)作,強(qiáng)大的GPU性能正等待每一位開發(fā)者和創(chuàng)作者的探索。