• 正文
    • 為什么FPS/TFLOPS很重要?
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

?為什么GPU性能效率比峰值性能更關(guān)鍵

03/17 16:38
931
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

在評(píng)估 GPU 性能時(shí),通常首先考察三個(gè)指標(biāo):圖形工作負(fù)載的紋理率(GPixel/s)、浮點(diǎn)運(yùn)算次數(shù)(FLOPS)以及它們能處理計(jì)算和AI工作負(fù)載的每秒 8-bit tera 運(yùn)算次數(shù)(TOPS)。這些關(guān)鍵數(shù)據(jù),結(jié)合面積數(shù)據(jù)、功耗估算和通用功能集,幫助 SoC 設(shè)計(jì)師比較不同系統(tǒng)配置的性能。

然而,這些指標(biāo)僅提供了理論性能,并不總是能夠很好地反映實(shí)際性能。沒有任何 GPU 能夠始終以100%的利用率運(yùn)行,因此下一步是探索GPU在實(shí)際應(yīng)用中的特定工作負(fù)載性能,通常以每秒幀數(shù)(FPS)來衡量,并考慮整體GPU利用率。像Manhattan和Aztec這樣的基準(zhǔn)測(cè)試為實(shí)際圖形性能提供了一個(gè)有用的指南(盡管它們本身并不能完全代表典型的應(yīng)用程序)。

通常在這個(gè)階段,不同的GPU架構(gòu)會(huì)產(chǎn)生令人驚訝的結(jié)果。那些更擅長(zhǎng)將理論性能轉(zhuǎn)化為實(shí)際性能的架構(gòu)會(huì)脫穎而出,提供遠(yuǎn)高于其標(biāo)稱TFLOPS預(yù)期的幀率(FPS)。

為什么FPS/TFLOPS很重要?

通常來說,具有更高TFLOPS的GPU需要更大的硅片面積和更高的功耗。如果一個(gè)較小的GPU能夠提供與理論上更強(qiáng)大的GPU相同的實(shí)際性能,設(shè)計(jì)師就需要選擇:要么以更低的成本提供相同的性能,要么保持成本不變但將額外的性能或效率交給最終用戶。基于此,理解GPU的性能效率是了解GPU在終端設(shè)備中表現(xiàn)的重要部分。Imagination 的 PowerVR 架構(gòu)經(jīng)過數(shù)十年的優(yōu)化,已成為市場(chǎng)上性能最為高效的嵌入式 GPU IP。

本文將概述關(guān)鍵的硬件軟件優(yōu)化,幫助 Imagination 的 GPU 實(shí)現(xiàn)比競(jìng)爭(zhēng)對(duì)手的嵌入式產(chǎn)品高出兩倍的 FPS/TFLOPS 性能。

1. 大容量、響應(yīng)迅速的寄存器存儲(chǔ)

Imagination GPU 的每個(gè)算術(shù)邏輯單元(ALU)內(nèi)都有非常大的寄存器存儲(chǔ),一般為 512KB,通常是競(jìng)爭(zhēng)對(duì)手嵌入式 GPU 設(shè)計(jì)的兩倍。這使得工作負(fù)載可以避免從主GPU內(nèi)存進(jìn)行長(zhǎng)時(shí)間的加載/存儲(chǔ)操作,這些操作可能會(huì)延遲處理工作,從而對(duì)GPU利用率和效率產(chǎn)生負(fù)面影響。ALU中的寄存器體設(shè)計(jì)得允許同時(shí)訪問多個(gè)寄存器。這意味著在每個(gè)周期中,ALU內(nèi)的多個(gè)單元都可以執(zhí)行任務(wù)。例如,F(xiàn)P32操作可以與復(fù)雜操作并行處理,而無需排隊(duì)等待內(nèi)存訪問。大多數(shù)其他嵌入式GPU架構(gòu)在寄存器訪問方面存在限制,這會(huì)導(dǎo)致數(shù)據(jù)需要額外的周期來獲取,從而造成處理停滯。

Imagination GPU設(shè)計(jì)可同時(shí)處理多個(gè)工作負(fù)載。這意味著當(dāng)需要進(jìn)行加載/存儲(chǔ)時(shí),可以通過替代操作填補(bǔ)處理暫停,從而有效避免延遲問題。

2.?專用模塊卸載主ALU工作

Imagination 的ALU包含多個(gè)固定功能塊,使 GPU 能夠?qū)⑷唛L(zhǎng)的任務(wù)(如地址計(jì)算)從主ALU 卸載,從而使它們可以自由處理一般工作負(fù)載。相比之下,大多數(shù)其他嵌入式 GPU 提供商通過 INT32 ALU模擬地址計(jì)算和復(fù)雜任務(wù),降低了整體 GPU 性能效率。

3. 整體 GPU 架構(gòu)效率

由于其延遲渲染技術(shù),PowerVR架構(gòu)自問世以來一直是GPU效率的領(lǐng)導(dǎo)者。在流水線的早期階段,Imagination GPU 會(huì)全面分析每一幀,確定哪些片段是可見的,并僅處理用戶可以看到的部分。通過盡早移除不必要的操作,Imagination GPU降低了功耗并提高了性能效率。其他嵌入式GPU架構(gòu)仍然處理比必要更多的片段,浪費(fèi)寶貴的計(jì)算資源和帶寬,從而需要更多功耗。

4. 軟件最大化GPU利用率

雖然我們主要從圖形角度討論性能效率,但上述內(nèi)容同樣適用于計(jì)算和 AI 應(yīng)用。為了進(jìn)一步提高 AI 工作負(fù)載的性能效率,Imagination 提供了一套高度優(yōu)化的計(jì)算庫(imgNN、imgBLAS、imgFFT),用于常見的運(yùn)算操作,使程序員能夠最大化 GPU 利用率。

所有這些特性的結(jié)果不言而喻。在下圖的所有圖形工作負(fù)載中,Imagination GPU 的 FPS/TFLOPS超過了同等面積的嵌入式競(jìng)爭(zhēng)對(duì)手設(shè)計(jì)。在某些情況下,性能效率是其他GPU的兩倍。

圖注:基于Imagination內(nèi)部數(shù)據(jù)。所有競(jìng)爭(zhēng)設(shè)備以低時(shí)鐘頻率運(yùn)行,以避免主機(jī) CPU 和系統(tǒng)瓶頸,以便更純粹地了解競(jìng)爭(zhēng) GPU 的能力。

GPU性能在所有細(xì)分市場(chǎng)上都在蓬勃發(fā)展,不僅用于圖形體驗(yàn),在 AI 時(shí)代,還將其用作靈活的并行計(jì)算處理器。硬件設(shè)計(jì)師有兩種選擇來提供這種額外的性能:一種是簡(jiǎn)單地構(gòu)建一個(gè)具有更高理論TFLOPS的GPU;另一種選擇是選擇一個(gè)理論TFLOPS較低但高性能效率的 GPU。

聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。

原文鏈接:https://blog.imaginationtech.com/why-gpu-performance-efficiency-beats-peak-performance

Imagination

Imagination

Imagination Technologies,英國(guó)芯片設(shè)計(jì)商。

Imagination Technologies,英國(guó)芯片設(shè)計(jì)商。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

Imagination Technologies是一家總部位于英國(guó)的公司,致力于研發(fā)芯片和軟件知識(shí)產(chǎn)權(quán)(IP),基于Imagination IP的產(chǎn)品已在全球數(shù)十億人的電話、汽車、家庭和工作場(chǎng)所中使用。