• 正文
    • ?01、計算堆疊需求
    • ?02、被堆疊“棄選”?
    • ?03、CPU如何垂直堆疊
    • ?04、英偉達的專利
    • ?05、EDA的進擊
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

有選擇的后摩爾堆疊時代

2023/10/09
2339
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:米樂

臺積電、英特爾等大廠近年來不斷加大對異構集成制造及相關研發(fā)的投入。隨著AIGC、8K、AR/MR等應用的不斷發(fā)展,3D IC堆疊和chiplet異構集成已成為滿足未來高性能計算需求、延續(xù)摩爾定律的主要解決方案。

不久前,華為公布了一項芯片堆疊技術的新專利,顯示了該公司在芯片技術領域的創(chuàng)新實力。這項專利提供了一種簡化芯片堆疊結構制備工藝的方法,有望解決芯片堆疊過程中的各種技術難題。堆疊技術可以提高芯片的效率,并更好地利用可用空間,進一步推動芯片技術的進步。盡管目前該專利與將兩個14nm芯片堆疊成一個7nm芯片的傳聞還未得到官方認可,但這一技術潛力巨大,可以為芯片制造商帶來更多可能性。

后摩爾時代,堆疊已經大勢。

?01、計算堆疊需求

隨著AIGC、AR/VR、8K等應用的快速發(fā)展,預計將產生大量的計算需求,特別是對能夠在短時間內處理大數據并行計算系統(tǒng)的需求。為了克服DDR SDRAM的帶寬限制,進一步提升并行計算性能,業(yè)界越來越多地采用高帶寬內存(HBM)。這一趨勢導致了從傳統(tǒng)的“CPU+內存(如DDR4)”架構向“芯片+HBM堆疊”2.5D架構的轉變。隨著計算需求的不斷增長,未來可能會通過3D堆疊實現CPU、GPU或SoC的集成。

9 月中旬根據韓國 The Elec 報道,三星電子和 SK 海力士兩家公司加速推進 12 層 HBM 內存量產。生成式 AI 的爆火帶動英偉達加速卡的需求之外,也帶動了對高帶寬存儲器(HBM)的需求。HBM 堆疊的層數越多,處理數據的能力就越強,目前主流 HBM 堆疊 8 層,而下一代 12 層也即將開始量產。

報道稱 HBM 堆疊目前主要使用正使用熱壓粘合(TCB)和批量回流焊(MR)工藝,而最新消息稱三星和 SK 海力士正在推進名為混合鍵合(Hybrid Bonding)的封裝工藝,突破 TCB 和 MR 的發(fā)熱、封裝高度等限制。

Hybrid Bonding 中的 Hybrid 是指除了在室溫下凹陷下去的銅 bump 完成鍵合,兩個 Chip 面對面的其它非導電部分也要貼合。因此,Hybrid Bonding 在芯粒與芯?;蛘?wafer 與 wafer 之間是沒有空隙的,不需要用環(huán)氧樹脂進行填充。三星電子和 SK 海力士等主要公司已經克服這些挑戰(zhàn),擴展了 TCB 和 MR 工藝,實現最高 12 層。

?02、被堆疊“棄選”?

HBM 于 2013 年推出,作為高性能 SDRAM 的 3D 堆疊架構。隨著時間的推移,多層 HBM 的堆疊在封裝中已經變得普遍,而 CPU/GPU 的堆疊卻沒有看到重大進展。

造成這種差異的主要原因可歸因于三個因素:

1、散熱問題,CPU在工作時會產生大量的熱量,需要通過散熱器將熱量散發(fā)出去,否則會導致CPU溫度過高而損壞。如果多個CPU堆疊在一起,熱量積聚在一起會導致散熱問題更加嚴重,從而影響CPU的穩(wěn)定運行。

2、信號干擾問題,在CPU內部,不同的電路之間需要進行大量的信號傳輸,如果多個CPU堆疊在一起,信號干擾就會更加嚴重,從而影響CPU的正常工作。

3、電路設計問題,CPU內部的電路設計非常復雜,需要嚴格的電路布局和連接方式,以保證CPU的正常工作。如果多個CPU堆疊在一起,電路設計就會更加復雜,可能會導致電路連接不良或者干擾等問題。IC 設計面臨 EDA 工具缺乏的挑戰(zhàn),因為傳統(tǒng) CAD 工具不足以處理 3D 設計規(guī)則。開發(fā)人員必須創(chuàng)建自己的工具來滿足工藝要求,而3D封裝的復雜設計進一步增加了設計、制造和測試成本。

然后也不是沒有解決辦法。自從2.5D/3D封裝、Chiplet、異構集成等技術出現以來,CPU、GPU和內存之間的界限就已經變得逐漸模糊。例如AMD如今在消費級和數據中心級別CPU上逐漸使用的3D V-Cache技術,就是直接將SRAM緩存堆疊至CPU上。將在今年正式落地的第四代EPYC服務器處理器,就采用了13個5nm/6nm Chiplet混用的方案,最高將L3緩存堆疊至了可怕的384MB。

在消費端,AMD的Ryzen 7 5800X3D同樣也以驚人的姿態(tài)出世,以超大緩存帶來了極大的游戲性能提升。即將正式發(fā)售的Ryzen 9 7950X3D也打出了128MB三級緩存的夸張參數,這些產品的出現可謂打破了過去CPU廠商拼時鐘頻率、拼核心數的僵局,讓消費者真切地感受到了額外的體驗提升。

GPU也不例外,雖然AMD如今的消費級GPU基本已經放棄了HBM堆疊方案,但是在AMD的數據中心GPU,例如Instinct MI250X,卻依然靠著堆疊做到了128GB的HBM2e顯存,做到了3276.8GB/s的峰值內存帶寬。而下一代MI300,AMD則選擇了轉向APU方案,將CPU、GPU和HBM全部整合在一起,以新的架構沖擊Exascale級的AI世代。

AMD CEO蘇姿豐說過下一步就是直接將DRAM堆疊至CPU上。這里的堆疊并非硅中介層互聯、存儲單元垂直堆疊在一起的2.5D封裝方案,也就是如今常見的HBM統(tǒng)一內存方案,AMD提出的是直接將計算單元與存儲單元垂直堆疊在一起的3D混合鍵封裝方案。

?03、CPU如何垂直堆疊

放緩的摩爾定律,內存上的限制,例如內存墻這樣的性能瓶頸,不僅在限制CPU的性能發(fā)揮,同樣限制了GPU的性能發(fā)揮。蘇姿豐指出,從她這個處理器從業(yè)者的角度來說,這一路線有些反常理,但從系統(tǒng)層面來說,她也可以理解該需求存在的意義。而AMD這次提出的方案,則是從計算芯片出發(fā),將存儲器堆疊整合進去。

3月22日,AMD宣布全面推出世界首款采用3D芯片堆疊的數據中心CPU,即采用AMD 3D V-Cache技術的第三代AMD EPYC(霄龍)處理器,代號“Milan-X(米蘭-X)”。這些處理器基于“Zen 3”核心架構,進一步擴大了第三代EPYC處理器系列產品,相比非堆疊的第三代AMD EPYC處理器,可為各種目標技術計算工作負載提供高達66%的性能提升。

全新推出的處理器擁有業(yè)界領先的L3緩存,并具備與第三代EPYC CPU相同的插槽、軟件兼容性以及現代安全功能,同時還可為技術計算工作負載提供卓越的性能,如計算流體力學(CFD)、電子設計自動化(EDA)和結構分析等。這些工作負載均是那些需要對復雜的物理世界進行建模以創(chuàng)建模型的公司的關鍵設計工具,從而為世界上那些極具創(chuàng)新性的產品進行測試或驗證工程設計。

AMD高級副總裁兼服務器業(yè)務部總經理Dan McNamara表示:“基于我們在數據中心一直以來的發(fā)展勢頭以及我們的多項行業(yè)首創(chuàng),采用AMD 3D V-Cache技術的第三代AMD EPYC處理器展示了我們領先的設計與封裝技術,使我們能夠帶來業(yè)界首個采用3D芯片堆疊技術且專為工作負載而生的服務器處理器。我們最新所采用的AMD 3D V-Cache技術的處理器可為關鍵任務的技術計算工作負載提供突破性性能,從而帶來更好的產品設計以及更快的產品上市時間?!?/p>

Micron公司高級副總裁兼計算與網絡事業(yè)部總經理Raj Hazra說:“客戶正在越來越廣泛的采用數據豐富的應用,這對數據中心的基礎設施也提出了新的要求。Micron和AMD的共同愿景是為高性能數據中心平臺提供領先的DDR5內存的全部能力。我們與AMD之間的深度合作包括為基于Micron最新DDR5解決方案的AMD平臺做好準備,以及將采用AMD 3D V-Cache技術的第三代AMD EPYC處理器引入我們自己的數據中心,我們已經看到了在特定的EDA工作負載中,與未采用AMD 3D V-Cache的第三代AMD EPYC處理器相比,性能提高了多達40%。”

一直以來緩存大小的提升都是性能改進的重中之重,特別是對于嚴重依賴大數據集的技術計算工作負載。這些工作負載受益于緩存大小的提升,但2D芯片設計卻對CPU上可有效構建的緩存量有著物理上的限制。AMD 3D V-Cache技術通過將AMD “Zen 3”核心與緩存模塊結合,解決了這些物理上的挑戰(zhàn),不僅增加了L3緩存數量,同時還最大程度減少了延遲并提高吞吐量。這項技術代表了CPU設計和封裝方面的又一創(chuàng)新,并為目標技術計算工作負載帶來了突破性性能。

?04、英偉達的專利

早在 2017 年,英偉達就在國際計算機體系結構研討會 (ISCA) 上展示了其 MCM-GPU 設計。英偉達計劃使用多個邏輯芯片來互連大量內核,并開發(fā)具有持續(xù)性能改進的新 GPU,同時管理成本。隨著 GPU 芯片越來越大,它們的成本呈指數級增長,因此制作一些相互連接的較小芯片是更具成本效益的解決方案。MCM-GPU 封裝方法解決了這個問題,因為它連接多個芯片,從而提供巨大的性能提升作為回報。

芯片設計不限于二維縮放,而這正是英偉達今天所獲得的專利。英偉達提出了“使用擴展 TSV 增強功率傳輸的面對面die”,提出了半導體die的 3D 堆疊,并特別說明了使用超長硅通孔 (TSV) 增強功率傳輸。

這種設置的工作方式是首先使用芯片表面上的探針墊測試基礎芯片。之后,在第一個die的表面上形成界面層,覆蓋在已經存在的探針焊盤上。最后,取出第二個die并將其安裝在界面層上,將die間接口的焊盤連接到其他die上的互補連接。這創(chuàng)建了裸片的面對面安裝,3D 芯片誕生了。

英偉達的專利專注于使用超長 TSV 增強電力傳輸。當像這樣將芯片堆疊在一起時,您可以連接從邏輯(處理核心)到內存的任何東西。通常,連接內存不需要太多電力,因此提及增強的電力傳輸使我們得出結論,英偉達計劃執(zhí)行處理內核的堆疊,為 3D 處理器創(chuàng)建面向計算的方法。

?05、EDA的進擊

Cadence在LIVE中國臺灣2023年用戶年會上強調了其多年來在開發(fā)解決方案方面的努力。他們推出了Clarity 3D 解算器、Celsius 熱解算器以及 Sigrity Signal and Power Integrity 等工具,可以解決熱傳導和熱應力模擬問題。當與 Cadence 的綜合 EDA 工具相結合時,這些產品有助于“Integrity 3D-IC”平臺的發(fā)展,有助于 3D IC 設計的開發(fā)。

Intgrity 3D-IC平臺是 Cadence 廣泛 3D-IC 解決方案的組成部分,在數字技術之上同時集成了系統(tǒng)、驗證及 IP 功能。廣泛的解決方案支持軟硬件協同驗證,通過由 Palladium Z2 和 Protium X2 平臺組成的Dynamic Duo系統(tǒng)動力雙劍實現全系統(tǒng)功耗分析。平臺同時支持基于小芯片的 PHY IP 互聯,實現面向延遲、帶寬和功耗的 PPA 優(yōu)化目標。Intgrity 3D-IC平臺支持與Virtuoso設計環(huán)境和 Allegro技術的協同設計,通過與Quantus Extraction Solution提取解決方案和Tempus Timing Signoff Solution時序簽核解決方案提供集成化的IC簽核提取和STA,同時還集成了Sigrity 技術產品,Clarity 3D Transient Solver,及Celsius Thermal Solver熱求解器,從而提供集成化的信號完整性/功耗完整性分析(SI/PI),電磁干擾(EMI),和熱分析功能。全新 Integrity 3D-IC 平臺和更廣泛的 3D-IC 解決方案組合,建立在Cadence SoC 卓越設計和系統(tǒng)級創(chuàng)新的堅實基礎之上,支持公司的智能系統(tǒng)設計(Intelligent System Design )戰(zhàn)略。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
43640-0201 1 Molex Rectangular Power Connector, 2 Contact(s), Male, Plug,

ECAD模型

下載ECAD模型
$0.25 查看
S2B-PH-SM4-TB(LF)(SN) 1 JST Manufacturing Board Connector, 2 Contact(s), 1 Row(s), Male, Right Angle, Surface Mount Terminal, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.43 查看
5016454020 1 Molex DIP CONNECTOR
$2.78 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:半導體產業(yè)縱橫。立足產業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術速遞、趨勢解析,鏈接產業(yè)資源,構建IC生態(tài)圈,賦能中國半導體產業(yè),我們一直在路上。