• 正文
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

與GPU雙向奔赴,NPU即將開啟大規(guī)模商用時代!

原創(chuàng)
2024/03/09
4352
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

當GPU以其強大的并行計算能力,登上AI算力王座時,AI芯片領域的競爭在日趨激烈。其中,神經網絡處理器(NPU)作為一股重要的力量,也在悄然崛起。

就像GPU從最初的圖像渲染和通用并行計算,逐步引入越來越多的神經網絡功能(比如 Tensor Cores、Transformer等),NPU 也在“雙向奔赴”,在神經網絡的基礎上,融入越來越強大的通用計算功能。

由于NPU針對神經網絡計算進行了專門的優(yōu)化,在處理復雜神經網絡算法時有更高的效率和更低的能耗,特別是在端側和邊緣側,能夠為AI應用提供有力的支撐。從近期的種種市場動態(tài)來看,NPU有望開啟大規(guī)模商用時代。

國產NPU IP持續(xù)上量

近年來,國產NPU最顯著的應用就是手機,比如華為麒麟9000處理器,通過對ISP和NPU進行融合,大大提升了數據的緩沖和處理效率;OPPO曾經的自研NPU馬里亞納X,在拍照、拍視頻等大數據流場景下實現了更好的運算效率,助OPPO拉開了在高端智能手機領域的體驗差距。

隨著AI需求逐漸從云端傳導到邊緣和端側,端、邊市場的AI算力需求在逐漸爆發(fā),推動新一輪本地AI算力的升級潮,而NPU有望成為本地AI任務的算力主力。

芯原近日宣布,集成其NPU IP的AI芯片在全球范圍內出貨超過1億顆,已被72家客戶用于128款AI芯片中,用于物聯(lián)網、可穿戴設備、智慧家居、安防監(jiān)控、汽車電子等10個市場領域。

芯原的NPU基于GPU架構體系進行優(yōu)化,利用其可編程、可擴展及并行處理能力,為各類主流AI算法提供硬件加速的微處理器技術。最新一代NPU架構包括GPGPU處理模塊PPU和AI處理模塊Tensore Core,GPGPU支持大規(guī)模通用計算和類ChatGPT應用,Tensor Core在處理器架構、AI軟件框架及工具、功耗與效能等方面進行創(chuàng)新,在卷積神經網絡、高算力低功耗等技術上實現了突破。通過NPU IP架構和GPU的融合,可以支持圖形渲染、通用計算以及AI處理。

圖:芯原 NPU IP+GPU IP融合的計算平臺(來源:芯原官微)

芯片IP設計與服務供應商安謀科技,在成立之初即開始自研首款“周易”NPU,目前該產品線已迭代了Z系列和X系列的多款產品,滿足各種端側硬件設備的不同AI計算需求,應用于中高端安防、智能家居、移動設備、物聯(lián)網、智能座艙、ADAS、邊緣服務器等市場。

最新的“周易”NPU采用第三代“周易”架構,在算力、精度、靈活性等方面進行了大幅提升,支持多核Cluster,最高可達320TOPS子系統(tǒng),并通過TSM任務調度充分發(fā)揮計算單元效能以及采用i-Tiling技術大幅減少帶寬,支持大模型的基礎架構Transformer。

圖:新一代“周易”NPU主要功能升級(來源:安謀科技官網)

據了解,在下一代“周易”NPU的設計上,安謀科技將從精度、帶寬、調度管理、算子支持等多個方面對主流大模型架構進行迭代優(yōu)化,為端側AI落地提供關鍵性的算力支撐。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實現了合作。

巨頭紛紛入場,生態(tài)快速成長的訊號

隨著生成式AI的應用場景不斷擴大,NPU能夠滿足基于Transformer架構的大模型需求,有望在這一趨勢下滲透到更多深層場景,進一步拓展產業(yè)生態(tài),特別是在巨頭的推動下,有望迎來高速增長。

高通最近就提出,通過NPU和異構計算將開啟終端側生成式AI時代。其Hexagon NPU面向低功耗、高性能的AI推理而設計,通過定制設計NPU和控制指令集架構(ISA),能夠快速進行設計演進和擴展。

根據官方資料,高通的DSP控制和標量架構奠定了NPU的基礎。多年來,通過融入標量、向量和張量加速器以及分組卷積等改進,不斷進行了提升。迭代到目前第三代驍龍8中的Hexagon NPU是專門針對終端側生成式AI大模型推理的最新設計,包括了跨整個NPU的微架構升級、微切片推理升級等,為持續(xù)的AI推理實現了98%的性能提升和40%的能效提升。

從架構路線來看,高通認為由DSP架構入手打造NPU是正確選擇,因為可以改善可編程性,并能夠緊密控制用于AI處理的標量、向量和張量運算。

而除了高通,兩大處理器巨頭英特爾AMD也在積極擁抱NPU。

去年12月8日,AMD發(fā)布了銳龍8040系列處理器,最核心的變化之一就是新增了AI計算單元。根據AMD的說法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語言模型性能提升40%,視覺模型提升40%。

一周之后,英特爾新一代酷睿Ultra移動處理器正式發(fā)布,這是其40年來第一個內建NPU的處理器,用于在PC上帶來高能效的AI加速和本地推理體驗,這也是英特爾客戶端處理器路線圖的一個轉折點。英特爾將NPU與CPU、GPU共同視作AI PC的三個底層算力引擎。
據其介紹,2024年,將有230多款機型搭載酷睿Ultra。

盡管巨頭在NPU的打造路線上各有千秋,但是都無一例外地看準了一個機會——端側AI,而擁有專門的NPU成為端側AI的一大特點,NPU正在成為本地運行AI任務的主力。
當前,高通主要以AI手機、XR、AI PC等為主,AMD和英特爾則主要在AI PC布局。

AI手機方面,IDC直接依據NPU算力將其分為兩類,一類是已經在市面上銷售了近十年的硬件賦能AI手機(≤30NPU TOPS):使用加速器或除主要應用處理器之外的專用處理器,以較低功耗運行端側的AI。這類手機最近轉向使用NPU內核,使用int-8 數據類型,性能達30 TOPS。端側AI的示例包括自然語言處理(NLP)和計算攝影。

另一類則是最新一代的AI手機(>30 NPU TOPS):這些智能手機使用能夠更快、更高效地運行端側生成式AI模型的SoC,并且使用int-8數據類型的NPU性能至少為30 TOPS。端側的生成式AI示例包括Stable Diffusion和各種大型語言模型。這類智能手機在2023年下半年首次進入市場。

AI PC方面,目前市場整體處于AI Ready向AI On的過渡階段。據Canalys預測,兼容AI的個人電腦有望在2025年滲透率達到37%,2027年兼容AI個人電腦約占所有個人電腦出貨量的60%,未來AI PC的主要需求來源為商用領域。同時AI PC將會為PC行業(yè)發(fā)展提供新動能,根據IDC預測,中國PC市場將因AI PC的到來,結束負增長,在未來5年中保持穩(wěn)定的增長態(tài)勢。

多模態(tài)、輕量化,促進端側AI算力持續(xù)升級

AI一直致力于以技術實現計算機對于人類認知世界方式的高度效仿。而多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現實世界中的復雜信息。除傳統(tǒng)的語言以及圖像間的交互作用,其結合聲音、觸覺以及動作等多維度信息進行深度學習,從而形成更準確、更具表現力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務需求+跨模態(tài)數據融合+對人類認知能力的模擬。

目前看來,提供自然語音用戶界面以提高生產力、同時增強用戶體驗的個人助手,正在成為流行的AI應用。語音識別、大語言模型和語音模型,將以某種并行方式運行,因此理想的情況是在NPU、GPU、CPU等處理器之間分布處理模型。對于端側設備來說,比如PC,出于性能和能效考慮,應當盡可能在NPU上運行。

根據Trendforce,微軟計劃在Windows12為AI PC設置最低門檻,需要至少40TOPS算力和16GB內存。也就是說,PC芯片算力跨越40TOPS門檻將成為首要目標,這也將進一步推進NPU的升級方向,比如:提升算力、提高內存、降低功耗,芯片持續(xù)進行架構優(yōu)化、異構計算優(yōu)化和內存升級。

此外還有輕量化模型發(fā)展趨勢,NPU芯片以其低功耗、高效率的特點,成為實現輕量化AI大模型在邊緣設備上運行的關鍵。

自 2023 年起,大模型參數量出現顯著分化,輕量化模型的出現逐步推動AI向端側場景落地。比如最近就有谷歌發(fā)布的開源輕量化大模型 Gemma,該模型與多模態(tài)大模型Gemini采用相同的研究和技術構建,有2B和7B兩個版本,可以直接在筆記本和臺式機部署。

由于輕量化模型可以降低在邊緣側部署的成本門檻,使模型的下游應用程序適合于更多的應用程序和用戶,因此為大模型推理計算從云端向邊緣端轉移提供了可能,使AI技術更廣泛地應用于各種場景成為可能。

寫在最后

在AI從云到邊、端的下沉運動中,不論是應用類型的多樣化、還是技術本身的突破,或是巨頭的大規(guī)模開“卷”,都代表著NPU終于迎來重要拐點,有望開啟一個大規(guī)模商用的全新時代。

從早期主要面向音頻和語音AI應用而設計,基于簡單的卷積神經網絡(CNN)進行標量和向量數學運算;再到拍照和視頻AI的興起,出現了基于Transformer、循環(huán)神經網絡(RNN)、長短期記憶網絡(LSTM)和更高維度的卷積神經網絡(CNN)等復雜的全新模型,NPU逐漸增加了張量加速器和卷積加速,處理效率大幅提升。

再到近兩年,隨著大語言模型(LLM)和大視覺模型(LVM)的爆發(fā),模型的大小提升超過了一個數量級。我們看到,NPU不斷在功耗、性能、能效、可編程和面積之間尋求權衡,保持與AI發(fā)展方向的一致性,并始終在尋求更大的發(fā)展空間。

算力始終是AI應用的基石,考慮到NPU的靈活性和高速的運算效率,它是否有望到達GPU的高度,讓業(yè)界說一句:無NPU,不AI?

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
ATMEGA644PA-AU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$4.94 查看
ATXMEGA64D3-AU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$1.28 查看
ATXMEGA128A4U-MHR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$4.48 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄