美國加利福尼亞州10月10日,AMD Advancing AI 2024在舊金山Moscone Center舉行,這是當?shù)刈畲蟮臅h和展覽綜合體。AMD當天的活動,數(shù)百名開發(fā)者到達現(xiàn)場參加,<與非網(wǎng)>及國內(nèi)幾家行業(yè)媒體受邀參加了這次活動。
這是AMD今年在AI領(lǐng)域非常重要的一次發(fā)布,特別是面向數(shù)據(jù)中心,CPU、GPU、網(wǎng)絡(luò)技術(shù)這三大方向的最新進展,堪稱是AMD的里程碑式突破,為AMD在數(shù)據(jù)中心下一階段的發(fā)展打下堅實基礎(chǔ)。
1530億晶體管、HBM3E內(nèi)存,性能怪獸AMD Instinct MI325X來襲
AMD于去年12月推出了Instinct MI300X加速器,這是AMD歷史上銷售業(yè)績表現(xiàn)增速驚人的產(chǎn)品,不到兩個季度內(nèi),銷售額就超過了10億美元。此外,業(yè)界普遍認為這是首個真正能與NVIDIA在AI加速領(lǐng)域競爭,甚至實現(xiàn)了性能趕超的產(chǎn)品。
今年7月,AMD 2024年Q2財報發(fā)布后,AMD董事會主席及首席執(zhí)行官Lisa Su博士強調(diào),客戶對于Instinct系列和ROCm的路線圖反響積極,AMD很滿意目前在GPU領(lǐng)域的發(fā)展勢頭。預(yù)計數(shù)據(jù)中心GPU收入在2024年將超過45億美元,高于4月份預(yù)期的40億美元。
Advancing AI 2024上,AMD推出了下一代Instinct MI325X。它采用了和上一代MI300X同樣的CDNA 3架構(gòu),配備了256GB HBM3E內(nèi)存,能夠?qū)崿F(xiàn)6TB/秒的本地內(nèi)存帶寬。
根據(jù)AMD公布的數(shù)據(jù),Instinct MI325X的容量比NVIDIA H200增加 1.8 倍,帶寬提升 1.3 倍。與 H200相比,Instinct MI325X 在 FP16 和 FP8 的峰值理論計算性能上分別提升了 1.3 倍、2.6倍。從這些數(shù)據(jù)來看,Instinct MI325X在基礎(chǔ)模型訓(xùn)練、微調(diào)和推理方面將達到更高性能,有助于用戶在系統(tǒng)、機架和數(shù)據(jù)中心級別創(chuàng)建更高性能的AI 解決方案。
相較于H200,MI325X在運行Mixtral 8x7B 時可提供 1.4 倍的推理性能(FP16),運行Mistral 7B時可提供1.3 倍的推理性能(FP16),運行Llama 3.1 70B 時可提供 1.2 倍的推理性能(FP8)。
AMD的CDNA3架構(gòu)已經(jīng)在MI300系列中得到了驗證,它在性能、效率和可編程性都達到了新的高度,通過采用3D封裝技術(shù),它重新分配了處理器中的計算、內(nèi)存和通信元素,形成了異構(gòu)封裝。這種對物理實現(xiàn)的全新設(shè)計,幫助AMD顯著提升計算和存儲等關(guān)鍵能力。
AMD Instinct MI325X預(yù)計于今年Q4開始生產(chǎn)出貨,并預(yù)計在 2025 年Q1,包括 Dell Technologies、Eviden、Gigabyte、Hewlett Packard Enterprise、Lenovo、Supermicro 等多家平臺供應(yīng)商將會廣泛提供相應(yīng)的產(chǎn)品。
此外,Instinct未來兩年的產(chǎn)品路線圖也在此次大會上予以公布,基于CDNA 4的MI350系列或?qū)⒂?025年下半年發(fā)布,它將繼續(xù)在內(nèi)存容量方面保持領(lǐng)先,每個加速器可支持高達 288GB 的 HBM3E 內(nèi)存,同時也將會比基于CDNA 3的加速器實現(xiàn)35倍的推理性能提升。2026年,更具雄心的MI400系列或?qū)⑼瞥觯撓盗袑贑DNA“下一代”架構(gòu)。
構(gòu)建生成式AI所需的網(wǎng)絡(luò)能力:Pensando Salina DPU+ Pensando Pollara 400
應(yīng)對生成式AI所帶來的大規(guī)模計算集群的顯著增長趨勢,超大規(guī)模數(shù)據(jù)中心的網(wǎng)絡(luò)能力越來越成為計算性能提升的關(guān)鍵。AMD正在通過可編程DPU提供下一代AI網(wǎng)絡(luò)支持。該網(wǎng)絡(luò)主要包括兩部分:前端負責(zé)向AI集群傳遞數(shù)據(jù)和信息,后端則管理加速器與集群之間的數(shù)據(jù)傳輸。
為了有效管理這兩部分網(wǎng)絡(luò),并在整個系統(tǒng)中實現(xiàn)高性能、可擴展性和高效率,AMD推出了Pensando Salina DPU作為前端,以及行業(yè)首款符合超以太網(wǎng)聯(lián)盟(UEC)標準的AI網(wǎng)絡(luò)接口卡(NIC)——Pensando Pollara 400作為后端。
Pensando Salina DPU是AMD可編程DPU的第三代產(chǎn)品,相比上一代,其性能、帶寬和擴展性提高了2倍,支持400G吞吐量??蓪崿F(xiàn)快速數(shù)據(jù)傳輸?shù)腜ensando Salina DPU在AI前端網(wǎng)絡(luò)集群中至關(guān)重要,優(yōu)化了數(shù)據(jù)驅(qū)動AI應(yīng)用的性能、效率、安全性和可擴展性。
Pensando Pollara 400搭載了AMD P4可編程引擎,是行業(yè)首款符合UEC標準的AI NIC。它支持下一代RDMA軟件,并由開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)支持,能夠在后端網(wǎng)絡(luò)中對加速器之間的通信提供了領(lǐng)先的性能、可擴展性和效率。
成立于去年夏天的UEC在迅速壯大,目前已經(jīng)超過97家成員。該聯(lián)盟致力于構(gòu)建基于以太網(wǎng)的統(tǒng)一通信堆棧,以支持AI和HPC數(shù)據(jù)中心的高性能網(wǎng)絡(luò)連接需求。該聯(lián)盟的技術(shù)目標包括開發(fā)超以太網(wǎng)通信的規(guī)范、API 和源代碼,更新現(xiàn)有協(xié)議,以及引入用于遙測、信令、安全和擁塞管理的新機制。
基于這些實現(xiàn)方式,UEC希望為業(yè)界在NVIDIA InfiniBand之外提供一種新的選擇。根據(jù)AMD最新公布的數(shù)據(jù),以太網(wǎng)RoCEv2方案比NVIDIA InfiniBand可實現(xiàn)50%的TCO降低;在更大規(guī)模的GPU集群連接方面,靈活性也極大提升,比起Infiniband最多4.8萬個GPU,以太網(wǎng)RoCEv2方案可支持超過100萬個GPU。
今年Q4,Pensando Salina DPU和Pensando Pollara 400將與客戶進行樣品測試,預(yù)計在2025年上半年正式上市。
第五代AMD EPYC亮點密集:3/4nm、192核、5GHz頻率
根據(jù)最新的Mercury研究報告,AMD目前擁有34%的服務(wù)器CPU份額,達到了AMD史上新高。Lisa Su強調(diào),AMD已經(jīng)在數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域形成了深厚積淀,CPU一直在穩(wěn)健增長。經(jīng)過五代產(chǎn)品的更迭,如今,AMD EPYC CPU正在驅(qū)動下一個創(chuàng)新浪潮,更高效地為數(shù)據(jù)中心和IT環(huán)境創(chuàng)造價值。
第五代AMD EPYC處理器代號Turin,采用Zen 5架構(gòu),兼容廣泛部署的SP5平臺,核心數(shù)量范圍從8核最多可到192核。相比于Zen 4,Zen 5架構(gòu)在企業(yè)和云工作負載中,可提供最高17%的IPC提升,而在AI和高性能計算(HPC)中IPC提升可達37%。
在前幾代的基礎(chǔ)上,AMD EPYC 9005系列處理器進一步提升了性能和能效,最高配置的192核CPU,性能相比競爭對手提升高達2.7倍。其主要特性包括:
- 每個CPU提供8至最多192的核心數(shù)量選擇,采用“Zen 5”和“Zen 5c”核心架構(gòu)
- 每個CPU支持12個通道的DDR5內(nèi)存
- 支持最高DDR5-6400 MT/s
- 領(lǐng)先的加速頻率高達5GHz
- 支持AVX-512,具有完整的512b數(shù)據(jù)通道
- 可信的I/O用于保密計算,系列中每個部件均在進行FIPS認證
該系列的64核的AMD EPYC 9575F專為需要強大主機CPU能力的GPU驅(qū)動AI解決方案量身打造,可提供最高5GHz的頻率,相較于競爭對手3.8GHz的處理器,處理速度提升28%。并且,可助力1000節(jié)點的AI集群每秒處理多達70萬token,更高效地完成更多任務(wù)。
采用AMD EPYC 9575F和MI300X的方案,與Intel 至強8592+和MI300X的方案相比,訓(xùn)練和推理性能分別可實現(xiàn)20%和8%的提升。
采用AMD EPYC 9575F和NVIDIA H100的方案,與Intel 至強8592+和NVIDIA H100的方案相比,訓(xùn)練和推理性能分別可實現(xiàn)15%和20%的提升。
根據(jù)AMD公布的最新資料,第五代AMD EPYC處理器在商業(yè)IT的各種服務(wù)器工作負載方面優(yōu)勢也在提升。使用基于AMD EPYC 9965處理器的服務(wù)器,與基于Intel Xeon 8592+ CPU的服務(wù)器相比,有如下優(yōu)勢:
- 在視頻轉(zhuǎn)碼等業(yè)務(wù)應(yīng)用中,結(jié)果生成時間提高最多4倍。
- 在解決全球最具挑戰(zhàn)性問題的科學(xué)和HPC應(yīng)用中,洞察時間提高最多3.9倍。
- 在虛擬化基礎(chǔ)設(shè)施中,每核性能提高最多1.6倍。
除了在通用工作負載中的性能和效率提升外,第五代AMD EPYC處理器還能夠快速實現(xiàn)AI部署,無論是運行CPU還是CPU+GPU解決方案。與競爭對手相比,192核EPYC 9965 CPU在端到端AI工作負載(如TPCx-AI)上,性能提高最多3.7倍,這對推動高效的生成式AI方法至關(guān)重要。在中小型企業(yè)級生成式AI模型(如Meta的Llama 3.1-8B)中,EPYC 9965的吞吐量性能提高1.9倍。
第五代AMD EPYC處理器的全系列產(chǎn)品現(xiàn)已上市,得到了Cisco、Dell、Hewlett Packard Enterprise、Lenovo和Supermicro以及所有主要ODM和云服務(wù)提供商的支持。通過采用這些新處理器,客戶可在現(xiàn)代化數(shù)據(jù)中心,實現(xiàn)391,000個SPECrate @2017_int_base通用計算性能,獲得出色的多種工作負載性能,同時估計可節(jié)省71%的功耗和約87%的服務(wù)器數(shù)量。
AMD端到端AI布局全面強大
通過全面的布局,AMD端到端的AI布局已經(jīng)全面成型且逐漸強大。
除了面向數(shù)據(jù)中心的產(chǎn)品發(fā)布,AMD還在這次大會上推出了最新的銳龍 AI PRO 300系列商用移動處理器,這也是其適用于AI PC的第三代商用處理器,可為Windows Copilot+PC提供最高至55 TOPs AI算力的處理能力,這一出色性能也使得該處理器成為了行業(yè)新標桿。
正如Lisa Su在會上所說,接下來的十年,AI還會帶來很多全新的體驗,計算會成為生活中更重要的一部分。一直以來,AMD在硬件上花了很多時間,而這才是提供AI完整路線圖的根本所在。如今,縱觀AMD的整個投資組合,全面的硬件產(chǎn)品線、開放的軟件生態(tài)等等,正在推動AMD成為端到端的AI領(lǐng)導(dǎo)者,打造更為有力的AI基礎(chǔ)設(shè)施解決方案。