• 正文
    • 一、什么是并行處理單元?
    • 二、擁有三大核心優(yōu)勢
    • 三、100倍的CPU性能提升是如何實現(xiàn)的?
    • 四、提升現(xiàn)有軟件和應用程序的性能
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

CPU 2.0時代來了?Flow PPU可使任何CPU性能提升100倍!

2024/06/13
3458
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

6月13日消息,近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱,其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”!

據(jù)介紹,F(xiàn)low的FPU能夠集成到任何當前已有或即將推出的CPU設計架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中,可提供革命性的 100 倍加速,可立即用于基于馮·諾依曼的標準計算機設計,以實現(xiàn)“CPU 2.0”級別的吞吐量。PPU還消除了在高性能應用程序中對 CPU 指令使用昂貴的 GPU 進行加速的需要。

Flow稱,片上集成的 PPU 內(nèi)核越多,獲得的性能提升就越高。同時,SoC當中的其他計算單元也將受益于PPU的性能的提升,以及PPU對CPU性能的提升。

此外,通過Flow提供的編譯器對 PPU 進行重新編譯,PPU 與該 CPU 架構(gòu)的每個現(xiàn)有軟件應用程序可完全向后兼容,可以大大加速所有現(xiàn)有軟件和應用程序中的現(xiàn)有并行功能,而無需更改任何軟件。

從應用來看,F(xiàn)low的突破性架構(gòu)將可增強嵌入式系統(tǒng)數(shù)據(jù)中心的性能,適用于邊緣和云計算、AI 云、跨 5G/6G 的多媒體編解碼器、自動駕駛汽車系統(tǒng)、軍用級計算等用途。

目前,F(xiàn)low 已經(jīng)在與來自世界各地的主要半導體供應商進行初步討論,以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細節(jié)將在 2024 年下半年公開分享。

Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示:“在過去的幾十年里,CPU性能只有漸進式的改進,這導致了CPU實際上已成為計算中最薄弱的環(huán)節(jié),因為它的順序架構(gòu)并不理想。為了滿足對更多計算性能的不斷增長的需求,CPU性能的新時代已成為必要條件,這在很大程度上是由人工智能以及邊緣和云計算的需求推動的。Flow 打算通過其全新的并行性能單元 (PPU) 架構(gòu)引領(lǐng) SuperCPU 革命,使任何 CPU 的性能提升 100 倍,無論架構(gòu)如何,并具有完全的向后軟件兼容性?!?/p>

Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示:“由于CPU改進速度在過去十年中放緩,科技行業(yè)的每個行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢的第一個重大變革者,它提供了數(shù)倍的性能,而不是幾個百分點。而且在我們看來,F(xiàn)low 將對計算市場的基線性能產(chǎn)生比量子計算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金,但通用計算將主導其成本并限制其能力。Flow Computing正在通過使下一代SuperCPU輕松超越當前的行業(yè)領(lǐng)導者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100來解決這個問題,“

據(jù)悉,F(xiàn)low公司剛剛獲得了 400 萬歐元的種子輪融資。參與種子輪融資的實體包括Butterfly Ventures(領(lǐng)投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務促進局。

一、什么是并行處理單元?

據(jù)Flow公司官網(wǎng)介紹,并行處理單元 (PPU) 是一個 IP 模塊,可以與同一芯片上的 CPU 緊密集成。它被設計為高度可配置,以滿足眾多用例的特定要求。

支持的自定義選項包括:

PPU 中的內(nèi)核數(shù)(4、16、64、256 等)

功能單元的數(shù)量和類型(如 ALU、PPU、MU、GU、NU)

片上存儲器資源(緩存、緩沖區(qū)、暫存器)的大小

對指令集進行了修改,以補充 CPU 的指令集擴展

對 CPU 的修改很少,包括將 PPU 接口集成到指令集中,并可更新 CPU 內(nèi)核的數(shù)量,以利用新的性能水平。

Flow的參數(shù)化設計允許廣泛的定制,包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲器資源的大小。性能會隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設備,16 核 PPU 非常適合智能手機,而 64 核 PPU 可為 PC 提供出色的性能;256 核 PPU 最適合 AI、云和邊緣計算服務器等高需求環(huán)境,使它們能夠輕松處理最苛刻的計算任務。

二、擁有三大核心優(yōu)勢

據(jù)介紹,F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢:

1、Flow 創(chuàng)新的并行處理單元 (PPU) 將 CPU 性能提升 100 倍,開創(chuàng)了 SuperCPU 時代。

創(chuàng)新的并行處理單元 (PPU)專為完全向后兼容而設計,可在重新編譯后增強現(xiàn)有軟件和應用程序。功能越并行,性能提升就越大。

同時,F(xiàn)low的技術(shù)還增強了整個計算生態(tài)系統(tǒng)。比如,輔助組件(矩陣單元、矢量單元、NPU 和 GPU)也可通過增強的 CPU 功能獲得了增強的性能。這一切都要歸功于 PPU。

2、傳統(tǒng)軟件和應用程序速度提高 2 倍

Flow 的 PPU 不僅可以在不改變原始應用程序的情況下增強遺留代碼,而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫配對時也能提高性能。

因此,PPU可以幫助各種應用程序中大幅提高速度,特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應用程序。PPU 釋放了這些應用的全部潛力,而在以前的架構(gòu)終無法實現(xiàn)這樣的性能顯著提升。

3、參數(shù)化設計

可配置的參數(shù)化設計使PPU能夠適應多種用途。一切都可以定制,以滿足多個用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元(如 ALU、PPU、MU、GU 和 NU)的類型和數(shù)量。甚至片上存儲器資源(緩存、緩沖區(qū)和暫存器)的大小也可以根據(jù)特定要求進行定制。性能的可擴展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。

三、100倍的CPU性能提升是如何實現(xiàn)的?

那么,F(xiàn)low公司是如何通過其PPU來實現(xiàn)對于CPU性能100倍提升的呢?據(jù)介紹,F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級并行性方面的挑戰(zhàn),在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實施到 PPU 中,它們將共同推動CPU實現(xiàn) 100 倍的性能提升。

1、延遲隱藏

當前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問延遲問題,尤其是共享訪問,對多核 CPU 來說是一個巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會減慢執(zhí)行速度,核心間通信網(wǎng)絡會導致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會導致一致性和可伸縮性問題。

Flow公司的PPU則是將內(nèi)存引用的延遲,通過在訪問內(nèi)存時執(zhí)行其他線程來進行隱藏。這沒有一致性問題,因為沒有緩存放置在網(wǎng)絡的前面??蓴U展性通過高帶寬片上網(wǎng)絡提供。

2、同步

當前多核 CPU使用并行性會帶來額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性,每當存在線程間依賴關(guān)系時,就需要同步線程。這些同步代價很大,通常需要 100 到 1000 個時鐘周期。

相比之下, PPU每個步驟只需要同步一次,因為線程在一個步驟中彼此獨立,將開銷成本降低到 1。同步與執(zhí)行重疊,將開銷成本降低到 1/100。

3、虛擬ILP/LLP

當前多核 CPU對低級并行性的次優(yōu)處理。只有當指令是獨立的時,才能在多個功能單元中執(zhí)行多個指令。管道危險會減慢指令執(zhí)行速度。

相比之下,PPU功能單元被組織為一個鏈,其中單元可以使用其前身的結(jié)果作為操作數(shù)??梢栽趫?zhí)行的一個步驟內(nèi)執(zhí)行依賴代碼,消除管道危險。

四、提升現(xiàn)有軟件和應用程序的性能

Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應用程序。PPU 的編譯器會自動識別代碼的并行部分,并在 PPU 內(nèi)核中執(zhí)行這些部分。

此外,F(xiàn)low 正在開發(fā)一種 AI 工具,以幫助應用程序和軟件開發(fā)人員識別代碼的并行部分,并提出簡化這些部分以實現(xiàn)最大性能的方法。

小結(jié):

雖然Flow表示其PPU能夠為任何當前的馮·諾依曼架構(gòu)的CPU帶來最高100倍的性能提升,但是并未給出明確的指標數(shù)據(jù)來進行解釋,只是說明了會從延遲、同步和虛擬ILP/LLP等方面進行入手來進行改進。并且正如其官網(wǎng)所介紹的,PPU還擁有4到256核的配置,需要配備多少核PPU才能帶來100倍性能提升,F(xiàn)low并未解釋。另外,軟件的重新編譯也是實現(xiàn) 100 倍性能改進的必要條件。該公司表示,軟件的重新編譯可以使得現(xiàn)有代碼的運行速度將提高 2 倍。

另外,PPU是并行處理單元,而GPU的優(yōu)勢也是在于并行計算。Flow甚至還表示,PPU消除了在高性能應用程序中對 CPU 指令使用昂貴的 GPU 進行加速的需要。那么是否意味著,CPU+PPU的組合在某種程度上可以實現(xiàn)超越GPU的AI加速能力?

Flow還在一份常見問題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?!癙PU 針對并行處理進行了優(yōu)化,而 GPU 針對圖形處理進行了優(yōu)化?!边@家初創(chuàng)公司對比稱:“PPU 與 CPU 的集成度更高,你可以將其視為一種協(xié)處理器,而 GPU 是一個獨立計算單元,與 CPU 的連接更為松散?!彼€強調(diào)了 PPU 不需要單獨內(nèi)核及其可變并行寬度的重要性。

Flow表示,它將在今年下半年提供有關(guān)PPU的更多技術(shù)細節(jié)。至于Flow PPU的商業(yè)化進展,它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強調(diào)了其對 IP 許可模式的偏好,類似于Arm的授權(quán)模式,客戶需要付費獲取其PPU IP,以便嵌入到其CPU設計當中。

編輯:芯智訊-浪客劍

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
PIC32MX795F512L-80I/BG 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PBGA121, 10 X 10 MM, 1.10 MM HEIGHT, LEAD FREE, PLASTIC, XBGA-121

ECAD模型

下載ECAD模型
$23.36 查看
ATSAM4S16BA-ANR 1 Microchip Technology Inc RISC Microcontroller
$5.12 查看
MC56F8323VFBE 1 Freescale Semiconductor 16-bit DSC, 56800E core, 32KB Flash, 60MHz, QFP 64

ECAD模型

下載ECAD模型
$14.69 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄