无码精品欧美专区,2025久久精频视品,激情综合网+黄色成人网

6月13日消息，近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱，其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”！

據(jù)介紹，F(xiàn)low的FPU能夠集成到任何當前已有或即將推出的CPU設(shè)計架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中，可提供革命性的 100 倍加速，可立即用于基于馮·諾依曼的標準計算機設(shè)計，以實現(xiàn)“CPU 2.0”級別的吞吐量。PPU還消除了在高性能應(yīng)用程序中對 CPU 指令使用昂貴的 GPU 進行加速的需要。

Flow稱，片上集成的 PPU 內(nèi)核越多，獲得的性能提升就越高。同時，SoC當中的其他計算單元也將受益于PPU的性能的提升，以及PPU對CPU性能的提升。

此外，通過Flow提供的編譯器對 PPU 進行重新編譯，PPU 與該 CPU 架構(gòu)的每個現(xiàn)有軟件應(yīng)用程序可完全向后兼容，可以大大加速所有現(xiàn)有軟件和應(yīng)用程序中的現(xiàn)有并行功能，而無需更改任何軟件。

從應(yīng)用來看，F(xiàn)low的突破性架構(gòu)將可增強嵌入式系統(tǒng)和數(shù)據(jù)中心的性能，適用于邊緣和云計算、AI 云、跨 5G/6G 的多媒體編解碼器、自動駕駛汽車系統(tǒng)、軍用級計算等用途。

目前，F(xiàn)low 已經(jīng)在與來自世界各地的主要半導體供應(yīng)商進行初步討論，以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細節(jié)將在 2024 年下半年公開分享。

Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示：“在過去的幾十年里，CPU性能只有漸進式的改進，這導致了CPU實際上已成為計算中最薄弱的環(huán)節(jié)，因為它的順序架構(gòu)并不理想。為了滿足對更多計算性能的不斷增長的需求，CPU性能的新時代已成為必要條件，這在很大程度上是由人工智能以及邊緣和云計算的需求推動的。Flow 打算通過其全新的并行性能單元（PPU）架構(gòu)引領(lǐng) SuperCPU 革命，使任何 CPU 的性能提升 100 倍，無論架構(gòu)如何，并具有完全的向后軟件兼容性?！?/p>

Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示：“由于CPU改進速度在過去十年中放緩，科技行業(yè)的每個行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢的第一個重大變革者，它提供了數(shù)倍的性能，而不是幾個百分點。而且在我們看來，F(xiàn)low 將對計算市場的基線性能產(chǎn)生比量子計算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金，但通用計算將主導其成本并限制其能力。Flow Computing正在通過使下一代SuperCPU輕松超越當前的行業(yè)領(lǐng)導者，如Apple M系列，Nvidia Grace，Google Axion和Microsoft Azure Cobalt 100來解決這個問題，“

據(jù)悉，F(xiàn)low公司剛剛獲得了 400 萬歐元的種子輪融資。參與種子輪融資的實體包括Butterfly Ventures（領(lǐng)投）、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務(wù)促進局。

一、什么是并行處理單元？

據(jù)Flow公司官網(wǎng)介紹，并行處理單元（PPU）是一個 IP 模塊，可以與同一芯片上的 CPU 緊密集成。它被設(shè)計為高度可配置，以滿足眾多用例的特定要求。

支持的自定義選項包括：

PPU 中的內(nèi)核數(shù)（4、16、64、256 等）

功能單元的數(shù)量和類型（如 ALU、PPU、MU、GU、NU）

片上存儲器資源（緩存、緩沖區(qū)、暫存器）的大小

對指令集進行了修改，以補充 CPU 的指令集擴展

對 CPU 的修改很少，包括將 PPU 接口集成到指令集中，并可更新 CPU 內(nèi)核的數(shù)量，以利用新的性能水平。

Flow的參數(shù)化設(shè)計允許廣泛的定制，包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲器資源的大小。性能會隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設(shè)備，16 核 PPU 非常適合智能手機，而 64 核 PPU 可為 PC 提供出色的性能；256 核 PPU 最適合 AI、云和邊緣計算服務(wù)器等高需求環(huán)境，使它們能夠輕松處理最苛刻的計算任務(wù)。

二、擁有三大核心優(yōu)勢

據(jù)介紹，F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢：

1、Flow 創(chuàng)新的并行處理單元（PPU）將 CPU 性能提升 100 倍，開創(chuàng)了 SuperCPU 時代。

創(chuàng)新的并行處理單元（PPU）專為完全向后兼容而設(shè)計，可在重新編譯后增強現(xiàn)有軟件和應(yīng)用程序。功能越并行，性能提升就越大。

同時，F(xiàn)low的技術(shù)還增強了整個計算生態(tài)系統(tǒng)。比如，輔助組件（矩陣單元、矢量單元、NPU 和 GPU）也可通過增強的 CPU 功能獲得了增強的性能。這一切都要歸功于 PPU。

2、傳統(tǒng)軟件和應(yīng)用程序速度提高 2 倍

Flow 的 PPU 不僅可以在不改變原始應(yīng)用程序的情況下增強遺留代碼，而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫配對時也能提高性能。

因此，PPU可以幫助各種應(yīng)用程序中大幅提高速度，特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應(yīng)用程序。PPU 釋放了這些應(yīng)用的全部潛力，而在以前的架構(gòu)終無法實現(xiàn)這樣的性能顯著提升。

3、參數(shù)化設(shè)計

可配置的參數(shù)化設(shè)計使PPU能夠適應(yīng)多種用途。一切都可以定制，以滿足多個用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元（如 ALU、PPU、MU、GU 和 NU）的類型和數(shù)量。甚至片上存儲器資源（緩存、緩沖區(qū)和暫存器）的大小也可以根據(jù)特定要求進行定制。性能的可擴展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。

三、100倍的CPU性能提升是如何實現(xiàn)的？

那么，F(xiàn)low公司是如何通過其PPU來實現(xiàn)對于CPU性能100倍提升的呢？據(jù)介紹，F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級并行性方面的挑戰(zhàn)，在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實施到 PPU 中，它們將共同推動CPU實現(xiàn) 100 倍的性能提升。

1、延遲隱藏

當前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問延遲問題，尤其是共享訪問，對多核 CPU 來說是一個巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會減慢執(zhí)行速度，核心間通信網(wǎng)絡(luò)會導致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會導致一致性和可伸縮性問題。

Flow公司的PPU則是將內(nèi)存引用的延遲，通過在訪問內(nèi)存時執(zhí)行其他線程來進行隱藏。這沒有一致性問題，因為沒有緩存放置在網(wǎng)絡(luò)的前面?？蓴U展性通過高帶寬片上網(wǎng)絡(luò)提供。

2、同步

當前多核 CPU使用并行性會帶來額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性，每當存在線程間依賴關(guān)系時，就需要同步線程。這些同步代價很大，通常需要 100 到 1000 個時鐘周期。

相比之下， PPU每個步驟只需要同步一次，因為線程在一個步驟中彼此獨立，將開銷成本降低到 1。同步與執(zhí)行重疊，將開銷成本降低到 1/100。

3、虛擬ILP/LLP

當前多核 CPU對低級并行性的次優(yōu)處理。只有當指令是獨立的時，才能在多個功能單元中執(zhí)行多個指令。管道危險會減慢指令執(zhí)行速度。

相比之下，PPU功能單元被組織為一個鏈，其中單元可以使用其前身的結(jié)果作為操作數(shù)。可以在執(zhí)行的一個步驟內(nèi)執(zhí)行依賴代碼，消除管道危險。

四、提升現(xiàn)有軟件和應(yīng)用程序的性能

Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應(yīng)用程序。PPU 的編譯器會自動識別代碼的并行部分，并在 PPU 內(nèi)核中執(zhí)行這些部分。

此外，F(xiàn)low 正在開發(fā)一種 AI 工具，以幫助應(yīng)用程序和軟件開發(fā)人員識別代碼的并行部分，并提出簡化這些部分以實現(xiàn)最大性能的方法。

小結(jié)：

雖然Flow表示其PPU能夠為任何當前的馮·諾依曼架構(gòu)的CPU帶來最高100倍的性能提升，但是并未給出明確的指標數(shù)據(jù)來進行解釋，只是說明了會從延遲、同步和虛擬ILP/LLP等方面進行入手來進行改進。并且正如其官網(wǎng)所介紹的，PPU還擁有4到256核的配置，需要配備多少核PPU才能帶來100倍性能提升，F(xiàn)low并未解釋。另外，軟件的重新編譯也是實現(xiàn) 100 倍性能改進的必要條件。該公司表示，軟件的重新編譯可以使得現(xiàn)有代碼的運行速度將提高 2 倍。

另外，PPU是并行處理單元，而GPU的優(yōu)勢也是在于并行計算。Flow甚至還表示，PPU消除了在高性能應(yīng)用程序中對 CPU 指令使用昂貴的 GPU 進行加速的需要。那么是否意味著，CPU+PPU的組合在某種程度上可以實現(xiàn)超越GPU的AI加速能力？

Flow還在一份常見問題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?！癙PU 針對并行處理進行了優(yōu)化，而 GPU 針對圖形處理進行了優(yōu)化。”這家初創(chuàng)公司對比稱：“PPU 與 CPU 的集成度更高，你可以將其視為一種協(xié)處理器，而 GPU 是一個獨立計算單元，與 CPU 的連接更為松散?！彼€強調(diào)了 PPU 不需要單獨內(nèi)核及其可變并行寬度的重要性。

Flow表示，它將在今年下半年提供有關(guān)PPU的更多技術(shù)細節(jié)。至于Flow PPU的商業(yè)化進展，它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強調(diào)了其對 IP 許可模式的偏好，類似于Arm的授權(quán)模式，客戶需要付費獲取其PPU IP，以便嵌入到其CPU設(shè)計當中。

編輯：芯智訊-浪客劍

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MPC5554MZP132	1	Freescale Semiconductor	32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416		$80.8	查看
MK64FN1M0VLL12R	1	NXP Semiconductors	FLASH, 120MHz, RISC MICROCONTROLLER, PQFP100		暫無數(shù)據(jù)	查看
ATMEGA644PA-AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP	ECAD模型下載ECAD模型	$4.94	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

MPC5554MZP132

Freescale Semiconductor

32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416