• 正文
  • 相關推薦
申請入駐 產業(yè)圖譜

百度合作賽靈思發(fā)布XPU,它是怎樣的處理器?

原創(chuàng)
2017/08/23
42
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

 

剛剛在加州 Hot Chips 大會上,百度發(fā)布 XPU,這是一款 256 核、基于 FPGA云計算加速芯片。合作伙伴是賽思靈(Xilinx)。百度也在這次的大會上,透露了關于這款芯片的更多架構方面的細節(jié)。

過去幾年,百度在深度學習領域,尤其是基于 GPU 的深度學習領域取得了不錯的進展。而且,百度也在開發(fā)被稱作 XPU 的新處理器。

△ 百度解釋了 FPGA 上 AI 和數據分析工作負載的情況

百度研究員歐陽劍表示,百度設計的芯片架構突出多樣性,著重于計算密集型、基于規(guī)則的任務,同時確保效率、性能和靈活性的最大化。今天,他在 Hot Chips 大會上與來自 FPGA 廠商 Xilinx 的人士一同發(fā)布了 XPU。

△ 百度去年宣布采用 Xilinx Kintex UltraScale FPGA 加速數據中心的額機器學習應用

XPU 的目標是在性能和效率之間實現平衡,并處理多樣化的計算任務。FPGA 加速器本身很擅長處理某些計算任務,但隨著許多小內核交織在一起,多樣性程度將會上升。

歐陽劍表示:“FPGA 是高效的,可以專注于特定計算任務,但缺乏可編程能力。傳統(tǒng) CPU 擅長通用計算任務,尤其是基于規(guī)則的計算任務,同時非常靈活。GPU 瞄準了并行計算,因此有很強大的性能。XPU 則關注計算密集型、基于規(guī)則的多樣化計算任務,希望提高效率和性能,并帶來類似 CPU 的靈活性。”

目前 XPU 有所欠缺的仍是可編程能力,而這也是涉及 FPGA 時普遍存在的問題。到目前為止,XPU 尚未提供編譯器。不過歐陽劍表示,該團隊將會很快開發(fā)一款編譯器。

歐陽劍還表示

為了支持矩陣、卷積,以及其他大大小小的內核,我們需要一個配備高帶寬低延時內存,以及高帶寬 I/O 接口的大型數學陣列。FPGA 中 XPU 的 DSP 單元提供了并行處理能力,片外 DDR4 和 HBM 接口優(yōu)化了數據傳輸,而片上 SRAM 則提供了必要的存儲特性。

在 Micro Benchmark 測試中,對于計算密集型、常規(guī)內存訪問的計算任務,XPU 的效率與 x86 內核類似。對于數據同步的計算任務,XPU 的可擴展性應當可以進一步優(yōu)化。而對于沒有數據同步的計算任務,XPU 的可擴展性與核心數量呈線性關系。

這就是問題所在。如前所述,XPU 仍然沒有配備編譯器。這款處理器在 FPGA 上實現,通過訂制的邏輯電路提供指令。這些小核心類似于 CPU,開發(fā)者只能使用匯編語言,而所有的執(zhí)行都由主機來控制。整個流程包括拆分計算任務,編寫 XPU 代碼,調用專用的邏輯函數,從而在 Linux 平臺上進行編譯和運行。

△ XPU 具有 256 個內核,集成了一個共享內存用于數據同步。所有內核都運行在 600MHz。

歐陽劍稱:“在百度,我們使用 FPGA 已有多年時間。我們的數據中心、云計算平臺和自動駕駛項目中有大量 FPGA。我們非常了解 FPGA 的優(yōu)缺點,以及如何優(yōu)化。憑借 XPU 的大型核心,我們專注于多樣化的計算任務。”

去年有媒體報道了基于百度深度學習 SDA 的 SQL 加速器。當時的數據流基于 SA 架構。根據歐陽劍的描述,這也是 XPU 內存帶寬和延時優(yōu)勢的核心。

歐陽劍同時展示了今年完成的一些 benchmark 測試,但信息非常粗略。不過,這只是百度第一次公開展示 XPU。

如果 XPU 被證明可以用于 AI、數據分析、云計算和無人駕駛,那么百度可能需要用 ASIC 技術去開發(fā) XPU。

更多最新行業(yè)資訊,歡迎點擊與非網《今日大事要聞》

 

百度

百度

百度是擁有強大互聯網基礎的領先AI公司。是全球為數不多的提供AI芯片、軟件架構和應用程序等全棧AI技術的公司之一,被國際機構評為全球四大AI公司之一。百度以“用科技讓復雜的世界更簡單”為使命,堅持技術創(chuàng)新,致力于“成為最懂用戶,并能幫助人們成長的全球頂級高科技公司”。

百度是擁有強大互聯網基礎的領先AI公司。是全球為數不多的提供AI芯片、軟件架構和應用程序等全棧AI技術的公司之一,被國際機構評為全球四大AI公司之一。百度以“用科技讓復雜的世界更簡單”為使命,堅持技術創(chuàng)新,致力于“成為最懂用戶,并能幫助人們成長的全球頂級高科技公司”。收起

查看更多

相關推薦