• 正文
    • Transformer何方神圣?
    • 為什么要在端側(cè)、邊緣側(cè)落地大模型?
    • 如何在端側(cè)、邊緣側(cè)高效部署Transformer?
    • Transformer在視覺(jué)領(lǐng)域的潛力?
    • NPU在端側(cè)、邊緣側(cè)部署大模型的挑戰(zhàn)是什么?
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

大模型需求暴增,NPU有望在端邊落地部署

原創(chuàng)
2023/06/06
4389
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

ChatGPT的火爆,讓人們意識(shí)到AI其實(shí)有著更高的上限,也讓業(yè)界更多關(guān)注到其背后的Transformer大模型。除了云端、除了自然語(yǔ)言處理,業(yè)界正在思考:是否可以讓Transformer在端側(cè)、邊緣側(cè)高效部署?是否可以讓Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)揮出更大潛能?

可能嗎?愛(ài)芯元智已經(jīng)開(kāi)始了這一嘗試。

Transformer何方神圣?

GPT大模型,全稱(chēng)Generative Pre-training Transformer,是一種使用自回歸模型進(jìn)行語(yǔ)言建模的預(yù)訓(xùn)練模型。當(dāng)下大火的ChatGPT,以及一系列AI模型,其實(shí)都離不開(kāi)Transformer,它是當(dāng)前各種大模型所采用的主要結(jié)構(gòu)。

要理解這個(gè)模型,可以先追溯一下歷史。業(yè)界很早就在探索一件事——如果計(jì)算機(jī)能夠像人類(lèi)一樣理解語(yǔ)言該有多好,出于這個(gè)目的,業(yè)界開(kāi)始了對(duì)自然語(yǔ)言處理/NLP的研究。

Transformer模型是谷歌在2017年推出的,可以說(shuō),這是深度算法領(lǐng)域的關(guān)鍵一躍,奠定了當(dāng)下通用人工智能的基礎(chǔ)。這個(gè)模型可以同時(shí)處理輸入序列中所有位置的信息,避免了傳統(tǒng)的逐個(gè)處理輸入序列的方式,從而可以更加高效地進(jìn)行文本處理。

接下來(lái),綜合了各種技術(shù)和語(yǔ)言模型之后,Transformer模型越來(lái)越強(qiáng)大,并在此基礎(chǔ)上誕生了BERT、GPT等,這些語(yǔ)言模型應(yīng)用在自然語(yǔ)言生成、機(jī)器翻譯、問(wèn)答系統(tǒng)等,為人工智能領(lǐng)域的發(fā)展帶來(lái)了新的活力。

為什么要在端側(cè)、邊緣側(cè)落地大模型?

愛(ài)芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉認(rèn)為,大模型正在使行業(yè)進(jìn)入開(kāi)發(fā)新范式的拐點(diǎn),它也將帶來(lái)一些新機(jī)會(huì)。首先從需求角度來(lái)看,業(yè)界對(duì)端側(cè)和邊緣側(cè)AI加速是有強(qiáng)需求的。只不過(guò)一直以來(lái),AI落地標(biāo)準(zhǔn)化場(chǎng)景效果較好,而在一些通用場(chǎng)景中,除非增加針對(duì)性的投入,才能進(jìn)一步提升應(yīng)用效果,但這同時(shí)意味著更高的成本,成為AI加速應(yīng)用落地的主要困難。

其次,從大模型能夠帶來(lái)的改變來(lái)看,它能夠降低邊際場(chǎng)景的AI成本,因?yàn)樗恍枰獙?duì)長(zhǎng)尾場(chǎng)景做專(zhuān)門(mén)的、從頭到尾的適配,通過(guò)部署預(yù)訓(xùn)練的大模型就能達(dá)到比較好的效果,這將使AI在端側(cè)和邊緣側(cè)的應(yīng)用再上一個(gè)臺(tái)階。

如何在端側(cè)、邊緣側(cè)高效部署Transformer?

相比于在云端用GPU部署Transformer大模型,在邊緣側(cè)、端側(cè)部署Transformer最大的挑戰(zhàn)首先來(lái)自功耗,什么平臺(tái)能夠“接得住”它?這是核心考量。

當(dāng)前,業(yè)界通過(guò)跑SwinT模型來(lái)看平臺(tái)對(duì)Transformer的支持情況。愛(ài)芯元智今年3月推出的第三代高算力、高能效比SoC芯片——AX650N,在運(yùn)行SwinT時(shí)表現(xiàn)出色:361 FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的易部署能力,這些特性使其成為端側(cè)和邊緣側(cè)部署Transformer的首選平臺(tái)。

具體來(lái)看,361幀的高性能可媲美汽車(chē)自動(dòng)駕駛領(lǐng)域基于GPU的高端域控SoC;80.45%的高精度成績(jī)同樣高于市面平均水平;199 FPS/W的速度體現(xiàn)出低功耗的特點(diǎn),對(duì)比于目前基于GPU的高端域控SoC,有數(shù)倍優(yōu)勢(shì)。此外,AX650N部署方便,GitHub上的原版模型可以在愛(ài)芯元智平臺(tái)上高效運(yùn)行,不需要對(duì)模型做修改,不需要QAT重新訓(xùn)練。

并且,AX650N支持低比特混合精度,用戶(hù)如果采用INT4,可以極大減少內(nèi)存和帶寬占用率,可以有效控制端側(cè)邊緣側(cè)部署的成本。這些特性都保證了AX650N最終落地效果更好用、更易用,大幅提升了用戶(hù)的效率。

據(jù)介紹,AX650N已適配包括ViT/DeiT、Swin/SwinV2、DETR在內(nèi)的Transformer模型,在DINOv2也達(dá)到30幀以上運(yùn)行結(jié)果,這也使得用戶(hù)在下游進(jìn)行檢測(cè)、分類(lèi)、分割等操作更加方便?;贏X650N的產(chǎn)品也已經(jīng)在智慧城市、智慧教育、智能制造等計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)揮出重要作用。

Transformer在視覺(jué)領(lǐng)域的潛力?

談及Transformer在視覺(jué)領(lǐng)域的潛力,劉建偉表示,視覺(jué)應(yīng)用凡是對(duì)環(huán)境有感知、理解需求的,比如智慧城市、智能機(jī)器人、自動(dòng)駕駛等領(lǐng)域需要用攝像頭去看畫(huà)面的,對(duì)Transformer都有比較強(qiáng)的需求。

不過(guò),視覺(jué)應(yīng)用場(chǎng)景非常碎片化,這也是以往CNN網(wǎng)絡(luò)遇到的一個(gè)普遍問(wèn)題,這對(duì)Transformer來(lái)說(shuō)是否能發(fā)揮所長(zhǎng)?

愛(ài)芯元智認(rèn)為,Transformer模型具有一定的畫(huà)面語(yǔ)意理解能力,無(wú)論是什么場(chǎng)景,它已經(jīng)具備了基本的理解。在以往的應(yīng)用中,常見(jiàn)的問(wèn)題是:這個(gè)場(chǎng)景沒(méi)見(jiàn)過(guò),或是這個(gè)場(chǎng)景下的數(shù)據(jù)沒(méi)有標(biāo)注過(guò),因此就無(wú)法落地了。而Transformer讓大家看到了解決這個(gè)問(wèn)題的希望。

以河道垃圾監(jiān)測(cè)為例:當(dāng)河道上出現(xiàn)了一種垃圾,傳統(tǒng)流程是采集數(shù)據(jù)—標(biāo)注—訓(xùn)練,如果突然出現(xiàn)一種新的垃圾,是之前數(shù)據(jù)標(biāo)注/訓(xùn)練沒(méi)有覆蓋的,系統(tǒng)就無(wú)法識(shí)別,就必須重新采集。但有了采用無(wú)監(jiān)督訓(xùn)練的大模型之后,無(wú)論出現(xiàn)什么樣新類(lèi)型的垃圾,系統(tǒng)都能自主推理和判斷。

事實(shí)上,Transformer在視覺(jué)領(lǐng)域的嘗試其實(shí)一直都有,比如SwinT就是把Transformer用在視覺(jué)領(lǐng)域的一個(gè)模型。它和傳統(tǒng)CNN訓(xùn)練方法一樣,只是上限更高,并且隨著NLP領(lǐng)域突飛猛進(jìn)的發(fā)展,新的趨勢(shì)包括通過(guò)無(wú)監(jiān)督、自監(jiān)督的訓(xùn)練方式。

接下來(lái),愛(ài)芯元智AX650N將會(huì)針對(duì)Transformer結(jié)構(gòu)進(jìn)行持續(xù)優(yōu)化,并且探索更多的Transformer大模型,例如多模態(tài)大模型,不斷讓Transformer在愛(ài)芯元智平臺(tái)上得到更好的落地效果。值得一提的是,愛(ài)芯元智還將推出開(kāi)發(fā)板,滿(mǎn)足開(kāi)發(fā)者對(duì)Transformer深度研究的需求,探索更豐富的產(chǎn)品應(yīng)用。

NPU在端側(cè)、邊緣側(cè)部署大模型的挑戰(zhàn)是什么?

愛(ài)芯元智認(rèn)為,基于NPU在端側(cè)、邊緣側(cè)部署Transformer大模型,其挑戰(zhàn)可以從軟硬件兩方面來(lái)看。從硬件架構(gòu)角度來(lái)講,NPU、TPU等都屬于特定領(lǐng)域相關(guān)的架構(gòu),需要早期定位就比較準(zhǔn),后續(xù)才能進(jìn)行更有針對(duì)性的功能優(yōu)化。

軟件方面,相對(duì)于CNN,Transformer是一個(gè)比較新的網(wǎng)絡(luò),推理時(shí)一般要求做量化,這往往要求一定的工程經(jīng)驗(yàn)。愛(ài)芯元智在這方面探索較早,例如SwinT量化精度、浮點(diǎn)精度在1%以?xún)?nèi)的誤差,都屬于業(yè)內(nèi)領(lǐng)先。

“從目前的反饋來(lái)看,客戶(hù)的體驗(yàn)是覺(jué)得我們的平臺(tái)比較好用、易用,好用是指性能較高,能夠?qū)崟r(shí)跑更多的應(yīng)用、對(duì)場(chǎng)景的適應(yīng)性比較強(qiáng);易用是上手速度比較快,想跑的應(yīng)用基本上都能跑起來(lái),量產(chǎn)周期也能縮短”,愛(ài)芯元智相關(guān)負(fù)責(zé)人表示。

“愛(ài)芯元智將繼續(xù)努力打造基于芯片+軟件的端側(cè)、邊緣側(cè)人工智能算力平臺(tái),加速基于Transformer的大模型在端側(cè)、邊緣側(cè)落地的節(jié)奏,最終實(shí)現(xiàn)普惠AI造就美好生活的企業(yè)愿景”,愛(ài)芯元智創(chuàng)始人、CEO仇肖莘女士如是說(shuō)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32H750VBT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

ECAD模型

下載ECAD模型
$27.62 查看
DS3234SN# 1 Maxim Integrated Products Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20
$10.19 查看
STM32F429NIH6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$15.65 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶(hù)資源
  • 寫(xiě)文章/發(fā)需求
立即登錄