• 正文
    • GPU+AI深度融合,打破傳統(tǒng)方案局限
    • 引入爆發(fā)式計算,平均功耗效率提升35%
    • 可編程架構持續(xù)滿足AI演進需求,NPU受挑戰(zhàn)
    • 一款 GPU,滿足更多任務
    • 同時處理圖形+AI,未來哪些潛在挑戰(zhàn)?
  • 相關推薦
申請入駐 產業(yè)圖譜

Imagination全新GPU,恐沖擊邊緣AI處理器格局

原創(chuàng)
2小時前
579
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

隨著邊緣AI應用進入爆發(fā)期,從智能終端到車載系統(tǒng),對邊緣側算力提出了前所未有的需求。系統(tǒng)性能、效率與靈活性等多重挑戰(zhàn),加劇了邊緣處理器的競爭。

Imagination最新推出的E系列GPU,針對邊緣圖形處理與AI加速計算應用,在給市場帶來新選擇的同時,也給這一領域已有的處理器帶來潛在挑戰(zhàn),首當其沖受到威脅的可能就是NPU。

E系列GPU具備兩項核心創(chuàng)新:

Neural Cores(神經核):最高可擴展至 200 TOPS(INT8/FP8),顯著提升 AI 與計算性能;Burst Processors(爆發(fā)式處理器):創(chuàng)新架構設計,使邊緣應用中平均功耗效率提升35%。

針對AI工作負載,E系列GPU的INT8/FP8 算力可在2到200TOPS 之間擴展,涵蓋圖形渲染、桌面和智能手機等領域,可實現(xiàn)自然語言處理、工業(yè)計算機視覺以及自動駕駛等應用。首款 E系列 GPU IP將于2025年秋季正式上市,目前已完成授權。汽車、消費電子、桌面及移動版本亦在同步開發(fā)中。

GPU+AI深度融合,打破傳統(tǒng)方案局限

目前,需同時處理圖形渲染與AI計算的場景中,常見的解決方案通常采用GPU與AI算力分離的設計架構,即獨立部署GPU和專用AI加速模塊。這種模式存在明顯的局限性:一方面,GPU和AI模塊各自需要配備獨立的內存(RAM),導致硬件資源冗余;另一方面,兩者間的數(shù)據交互需通過外部通道完成,不僅增加傳輸延遲,還會因協(xié)同效率低下造成整體能效利用率降低。此外,這種分離式設計限制了算力調度的靈活性——GPU無法與AI模塊實現(xiàn)深度協(xié)作,任務只能在固定硬件單元中執(zhí)行,難以適應動態(tài)負載需求。

在這種局面下,一些改進方案嘗試將部分AI算力嵌入GPU渲染單元。這樣雖然減少了硬件解耦帶來的問題,但仍需為AI計算分配專用內存資源。同時,AI運算結果仍需與GPU內部渲染管線進行二次交互,這種混合架構增加了數(shù)據處理路徑的復雜度,難以充分發(fā)揮異構計算的協(xié)同潛力。

據Imagination中國區(qū)技術總監(jiān)艾克介紹,E系列GPU的核心創(chuàng)新就在于通過深度融合集成架構,解決了上述問題。通過將AI算力與GPU核心渲染管線(如主管線Primary Pipeline與二級管線Secondary Pipeline)深度融合,實現(xiàn)了硬件層面的統(tǒng)一調度與資源共享。

這樣帶來的好處包括:首先,AI計算單元可以和GPU共享寄存器和內存系統(tǒng);其次,由于AI計算單元直接嵌入GPU流水線,中間數(shù)據無需跨模塊傳輸,實現(xiàn)了數(shù)據交互的優(yōu)化;第三,這一架構設計符合OpenCL、Vulkan等通用計算框架的擴展規(guī)范,也和NVIDIA CUDA理念高度相似。

這一架構突破不僅解決了傳統(tǒng)GPU與AI加速器解耦設計的效率瓶頸,更通過硬件級融合,為異構計算提供了高密度、低延時的協(xié)同計算范式。

引入爆發(fā)式計算,平均功耗效率提升35%

E系列引入全新爆發(fā)式處理器技術,該技術通過縮短流水線深度、減少數(shù)據在GPU內部的移動,實現(xiàn)了能效提升。在 AI 推理、游戲和用戶界面等工作負載下平均功耗效率再提升 35%。

據Imagination方面介紹,爆發(fā)式計算是E系列GPU中固有的,它深度集成于硬件底層,重構了GPU的指令調度方式。通過動態(tài)識別連續(xù)可歸類的背靠背(back to back)指令,它可以合并批量任務,對盡可能多的數(shù)據進行復用和共享,提高了數(shù)據利用率,減少指令解碼器的開銷。

更重要的是這種新的調度方法,不管是進行圖像處理,還是進行通用計算,還是人工智能計算,都可以有效利用爆發(fā)處理器的能力。

可編程架構持續(xù)滿足AI演進需求,NPU受挑戰(zhàn)

GPU作為可編程處理器,能夠持續(xù)應對AI、計算和圖形工作負載的演進需求。且E系列神經核,通過在GPU內部深度集成了AI加速能力,能夠與更廣泛的GPU及異構計算軟件生態(tài)實現(xiàn)無縫協(xié)同,其算力可通過OpenCL 等主流 API直接調用,開發(fā)者借助oneAPI、Apache TVM 或 LiteRT等開放標準工具,能將工作負載遷移至神經核。Imagination的計算庫與高度優(yōu)化的圖形編譯器,進一步釋放了GPU的全部潛能。

Imagination方面指出,對于傳統(tǒng)的圖形與NPU分開的處理方式,或是SoC的配合方式,由于缺乏靈活性,且面積大、成本高,可能會面臨淘汰。

推測Imagination所指,主要是強調了E系列GPU IP重構了圖形與AI計算的協(xié)同方式,進而對傳統(tǒng)方案形成了替代優(yōu)勢。

可以從兩方面來看待,一部分是因為傳統(tǒng)分立式架構的固有短板,由于獨立部署GPU與NPU需分配兩套計算單元及配套內存,導致芯片面積、成本攀升;且跨模塊數(shù)據交互依賴外部總線,時延高、帶寬受限,難以應對實時性要求高的混合負載場景。

另一方面則從E系列GPU的核心創(chuàng)新來看,這是一種原生的異構融合架構,通過將AI計算與圖形管線深度集成,在靈活性、效率方面都有優(yōu)化。并且,當應用場景需要更高的AI算力時,可通過專用接口與外部NPU聯(lián)動,實現(xiàn)算力擴展。

Imagination方面指出,NPU是為了特定目標而設計,比如5~7年前,NPU是為了去解決卷積神經網絡(CNN)問題,但現(xiàn)在Transformer大模型應用越來越普遍,那么如果五年之后,又會出現(xiàn)什么類型的模型?這是無法預測的,也是NPU面臨的一大挑戰(zhàn)。相對而言,GPU 具有很高的可編程性,可以應對未來新的AI模型。

一款 GPU,滿足更多任務

當代設備日益復雜,處理器需同時支持圖形與AI多項工作負載。為保障用戶體驗,實現(xiàn)高質量服務(QoS)和清晰劃分任務優(yōu)先級至關重要。E系列在前代產品的多任務處理能力基礎上實現(xiàn)了增強,將Imagination GPU支持的、具備硬件加速且零開銷的虛擬機數(shù)量從8個翻倍至16個,并提供了先進的QoS支持。E系列GPU的多核版本可以利用額外的核心來提升性能或增強靈活性。

對需要同時運行圖形與計算任務的系統(tǒng)來說,E系列GPU能夠同時處理多種圖形工作負載、多種AI工作負載,或圖形與AI工作負載的組合。它提供了一種高度靈活的解決方案,既無需依賴額外的向量處理器或固定功能 AI 加速器,又能在降低整體系統(tǒng)設計成本的同時,實現(xiàn)面向未來的可擴展性。

Imagination這種通過同一IP覆蓋多樣差異化需求的方案,既具備較強的場景泛化能力,同時有助于客戶縮短產品研發(fā)周期,這是其獨到的競爭力,也有助于開發(fā)者在多種應用場景和設備上部署AI應用。

根據Imagination方面的介紹,以下是其E系列GPU幾個典型的落地場景:

圖形與AI聯(lián)動的創(chuàng)意增強場景:基于GPU渲染后的圖像,通過內置AI算力實現(xiàn)超分辨率重建、光影智能優(yōu)化等,提升視覺效果?;蚴怯脩敉瓿苫A構圖后,AI可即時生成風格化特效或智能補全細節(jié),實現(xiàn)實時交互設計。

智能汽車是一大典型場景。比如車載娛樂系統(tǒng)中,可以用于后座多屏渲染場景,同時通過AI計算實現(xiàn)駕駛員狀態(tài)監(jiān)測、座艙語音交互等功能安全相關計算。

此外還有AR/VR設備、移動終端等消費電子場景中,2-200 TOPS的可配置算力,可以用于平衡AI推理速度與能耗效率,滿足實時手勢識別、圖像語義分割等需求。

同時處理圖形+AI,未來哪些潛在挑戰(zhàn)?

隨著設備端推理需求的持續(xù)增長,當設備端GPU同時處理AI推理和圖形渲染時,會面臨哪些硬件資源沖突?Imagination在創(chuàng)新架構中又將如何實現(xiàn)動態(tài)資源分配?

對此,Imagination方面表示,目前已經在汽車等復雜設備中看到了這類沖突——單個GPU需要驅動多個顯示器(如儀表盤、車載信息娛樂系統(tǒng)、導航或后排娛樂顯示屏)。隨著系統(tǒng)越來越多地將GPU用作AI等工作負載的并行計算平臺中,這個問題變得越來越重要。

例如,在執(zhí)行AI工作負載時,確保用戶界面保持高響應性至關重要。Imagination為多個GPU線程開發(fā)了一套豐富的QoS和優(yōu)先級功能,同樣適用于AI工作負載,使系統(tǒng)設計能夠精細調整工作負載優(yōu)先級,并通過線程搶占、線程上下文切換超時和多層優(yōu)先級等硬件原生支持的功能確保優(yōu)先級得到維護。除此之外,當需要更穩(wěn)健的工作負載隔離時,GPU支持基于硬件的虛擬化,可將GPU劃分為多個虛擬環(huán)境,確保分區(qū)之間無干擾。

此外,在支持PyTorch Mobile和LiteRT等API時,算子的碎片化問題不可避免。對此,Imagination如何應對?

據Imagination方面答復,其重點是確保AI算子與GPU支持的功能實現(xiàn)最優(yōu)映射,這也再次體現(xiàn)出了與NPU相比的關鍵優(yōu)勢:由于Imagination的GPU是高性能通用并行處理器,未來支持新AI算子只需更新驅動即可。此外,由于市場對其GPU用作通用處理器的編程模型已非常熟悉,無論是由Imagination通過簡單的驅動更新實現(xiàn)新算子,還是由用戶使用標準通用GPU(GPGPU)編程模型實現(xiàn),都非常便捷。他強調,支持未來算子的靈活性一直是行業(yè)面臨的一大難題,而基于E系列GPU的AI方案正是為解決這一問題而設計的。

Imagination

Imagination

Imagination Technologies,英國芯片設計商。

Imagination Technologies,英國芯片設計商。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄