在去年的蘋果發(fā)布會(huì)上,其產(chǎn)品包含iMac全線切到使用蘋果自主研發(fā)并設(shè)計(jì)的芯片M1系列,這個(gè)系列芯片也代表著蘋果放棄x86架構(gòu),這一里程碑式性決定。關(guān)于其在架構(gòu)選擇方面的詳細(xì)解讀,可以參考之前的文章:
蘋果發(fā)布M1芯片放棄X86架構(gòu)
M1 Pro和Max都是去年M1的后續(xù)產(chǎn)品,M1是蘋果的第一代Mac芯片,它開啟了蘋果用自己的內(nèi)部設(shè)計(jì)取代基于x86芯片的征程。盡管M1速度很快,功耗表現(xiàn)也不錯(cuò),但它仍然是一個(gè)更小的SoC——仍然為iPad Pro系列等設(shè)備供電,以及相應(yīng)的較低的TDP(Thermal Design Power),自然還是輸給功能更加強(qiáng)勁地芯片,關(guān)于技術(shù)細(xì)節(jié),在之前的文章中均有提到,這里不再贅述。
那么我們已知評(píng)功的M1芯片,于其說(shuō)是為了制造出一款非常強(qiáng)大的明星產(chǎn)品,不如說(shuō)是為了其生態(tài)鏈完整產(chǎn)品形態(tài)而服務(wù)的。那么后續(xù)M1基礎(chǔ)上更新的動(dòng)作,則更值得探究。
Apple M1,擁有4個(gè)大性能核心、4個(gè)高效核心和8-GPU,在一個(gè)5nm工藝節(jié)點(diǎn)上擁有160億個(gè)晶體管。
而新的M1 Pro: 10核CPU, 16核GPU, 337億個(gè)晶體管。
M1 Pro繼續(xù)使用定制性的封裝,蘋果是封裝SoC芯片和內(nèi)存芯片在一個(gè)單一的有機(jī)PCB, 這與其他傳統(tǒng)芯片,如AMD或英特爾的DRAM芯片形成對(duì)比,后者的特點(diǎn)是內(nèi)存插槽或焊接到主板上,蘋果的做法可能會(huì)顯著提高用電效率。
與M1相比,他們將M1 Pro的內(nèi)存總線增加了一倍,從128位LPDDR4X接口轉(zhuǎn)移到更寬更快的256位LPDDR5接口,承諾系統(tǒng)帶寬高達(dá)200GB/s。 我們不知道這個(gè)數(shù)字是否是精準(zhǔn)地,但是LPDDR5-6400接口的寬度將達(dá)到204.8GB/s。
上圖將AnandTech分享地M1與M1 Pro進(jìn)行對(duì)比,
M1 Pro內(nèi)存接口更加鞏固在SoC的兩個(gè)角上,而不是像M1那樣沿著兩條邊展開。 由于接口寬度的增加,我們看到內(nèi)存控制器占用了相當(dāng)大一部分SoC。 顯然在內(nèi)存控制器后面直接使用了兩個(gè)系統(tǒng)級(jí)緩存(SLC)塊,對(duì)比M1,SoC的系統(tǒng)級(jí)緩存4MB L2,它是跨所有IP塊共享的。
蘋果的SLC設(shè)計(jì)精巧,因?yàn)樗鼈兎?wù)于整個(gè)SoC,能夠擴(kuò)大帶寬,減少延遲,或者只是通過(guò)避免內(nèi)存處理與芯片分離,極來(lái)降低功耗。 這個(gè)新一代SLC塊看起來(lái)相當(dāng)不同于我們?cè)贛1上看到的。 SRAM單元區(qū)域看起來(lái)比M1的大,所以雖然我們現(xiàn)在不能確切地確認(rèn)這一點(diǎn),但這可能意味著每個(gè)SLC塊中有16MB的緩存——對(duì)于M1 Pro來(lái)說(shuō),這意味著總SLC緩存32MB。
在蘋果首此發(fā)布M1時(shí),筆者最終得出的結(jié)論時(shí)——這是一款可以足夠好服務(wù)于蘋果生態(tài)完整性的芯片產(chǎn)品,但是并不代表是一款最高性能的SOC,也并不能說(shuō)明Arm架構(gòu)將徹底在與X86競(jìng)爭(zhēng)的這場(chǎng)戰(zhàn)役中占上風(fēng)。本次發(fā)布的M1 Pro產(chǎn)品,在性能核心方面,蘋果現(xiàn)在增加了一倍,達(dá)到8核。曾經(jīng),蘋果的M1多線程性能方面落后于其他8核SOC,但隨著本次新品的推出,M1 Pro必然在多線程操作的過(guò)程中有著更加突出的表現(xiàn)。畢竟ARM,基本上可以稱之為精簡(jiǎn)指令集(RISC)的代名詞,而針對(duì)設(shè)計(jì)超高性能的臺(tái)式機(jī)和服務(wù)器處理器,Intel的優(yōu)勢(shì)更加明顯。所以顯然,從蘋果進(jìn)階的芯片產(chǎn)品推出的方向看,他們更希望能夠在保持低功耗的RISC基礎(chǔ)上,可以讓芯片的多線程處理性能進(jìn)一步提升。
蘋果似乎鏡像了兩個(gè)4核塊,L2緩存也被鏡像。 雖然蘋果在這里引用了24MB的L2,但Anandtech認(rèn)為這是一個(gè)2x12MB的設(shè)置,使用的是類似AMD核心的設(shè)置。
在CPU性能指標(biāo)方面,蘋果與競(jìng)爭(zhēng)對(duì)手進(jìn)行了一些比較,特別是這里比較的sku是英特爾的酷睿i7-1185G7和酷睿i7-11800H,這是英特爾最新的Tiger Lake 10nm“superin”CPU的4核和8核版本
蘋果的展示的運(yùn)行測(cè)試結(jié)果顯示,在多線程性能方面,這兩款新芯片都大大超過(guò)了英特爾提供的任何芯片,而且功耗大大降低。 所呈現(xiàn)的性能/功率曲線顯示,在30W等功率使用情況下,新M1 Pro和Max的CPU吞吐量比11800H快1.7倍,其功率曲線非常陡峭。 然而,在同等的性能水平下——在本例中使用11800H的峰值性能——蘋果表示,新款M1 Pro/Max實(shí)現(xiàn)了同樣的性能,功耗降低了70%。 這兩個(gè)數(shù)字之間存在巨大差異,遠(yuǎn)遠(yuǎn)超過(guò)了英特爾目前的成績(jī)。
但是筆者隱約記得在去年在發(fā)布會(huì)中,蘋果表示,這是世界上最快的CPU。但是想要真正評(píng)估,我們最好真的看一下Firestorm CPU內(nèi)核的微架構(gòu)。根據(jù)我們現(xiàn)有可以得到的信息有限,從蘋果官網(wǎng)注明的測(cè)試基準(zhǔn),其實(shí)重點(diǎn)在于運(yùn)行順暢,比如Safari瀏覽器上網(wǎng),JavaScript的運(yùn)行速度提升,睡眠模式喚醒等等,這個(gè)測(cè)試方式還是對(duì)macOS系列的產(chǎn)品有優(yōu)勢(shì)的。(筆者注,具體的測(cè)試方式Apple 于 2020 年 8 月和 10 月使用 JetStream 2、MotionMark 1.1 和 Speedometer 2.0 性能基準(zhǔn)對(duì)完成測(cè)試的瀏覽器進(jìn)行了此項(xiàng)測(cè)試。測(cè)試使用預(yù)發(fā)行版 Safari 14,以及 Chrome、Firefox 和 (Windows) Microsoft Edge 在測(cè)試時(shí)的最新穩(wěn)定版本,以及配備 Intel Core i5 處理器的 13 英寸 MacBook Pro 系統(tǒng),運(yùn)行預(yù)發(fā)行版 macOS Big Sur,并用啟動(dòng)轉(zhuǎn)換運(yùn)行 Windows 10 Home)
除了強(qiáng)大的CPU綜合體,蘋果還在擴(kuò)大其自定義GPU架構(gòu)。 M1 Pro現(xiàn)在采用了16核GPU,宣傳的計(jì)算吞吐量性能為5.2 TFLOPs。更大的GPU將被更寬的內(nèi)存總線支持,以及大概32MB的SLC——后者本質(zhì)上類似于AMD的Infinity Cache。(筆者注:AMD推出的Infinity Cache架構(gòu),主要目標(biāo)是希望解鎖游戲場(chǎng)景下,從1080p到4K的升級(jí),否則,沿用傳統(tǒng)設(shè)計(jì)方式,則可能需要超級(jí)昂貴且消耗巨大的512位內(nèi)存總線,無(wú)限緩存位于主計(jì)算核心集群的旁邊,本質(zhì)上充當(dāng)一個(gè)小型但有效的內(nèi)存存儲(chǔ)。 它位于較小的L1和L2緩存之間,也在GPU本身)
據(jù)稱,蘋果的GPU性能大大超過(guò)了任何上一代競(jìng)爭(zhēng)對(duì)手的集成顯卡性能,因此該公司選擇直接與中端筆記本電腦的IGPU進(jìn)行比較。 在這種情況下,M1 Pro與GeForce RTX 3050 Ti 4GB芯片進(jìn)行了對(duì)比,蘋果芯片在功耗降低70%的情況下實(shí)現(xiàn)了相似的性能。 這里顯示的功率水平約為30W,但是還不清楚是系統(tǒng)功率,SOC功率或者知識(shí)在比較GPU模塊本身的功耗。但是不可否認(rèn)的是,蘋果Mac系列產(chǎn)品圖形處理能力越發(fā)強(qiáng)大。
至此,本次發(fā)布會(huì)依然有驚喜,繼M1 Pro之后,M1 Max更加令人眼前一亮,因?yàn)楸举|(zhì)上并不是我們常見(jiàn)的SOC+GPU的方式,它更像是GPU+SOC,實(shí)際上此類的應(yīng)用配搭在消費(fèi)類電子領(lǐng)域不太常見(jiàn),更像是工業(yè)自動(dòng)化領(lǐng)域做數(shù)據(jù)處理,外圍電路用簡(jiǎn)單MCU控制的方式。
M1 Max的封裝更大,并且DRAM芯片從2增加到4,這也對(duì)應(yīng)于內(nèi)存接口寬度從256位增加到512位。400GB/s的巨大帶寬,如果它是LPDDR5-6400,可能更準(zhǔn)確地說(shuō)是409.6GB/s。 這種帶寬基本上只出現(xiàn)在高端GPU中而不是傳統(tǒng)SoC。
根據(jù)上圖可以看到,對(duì)比M1 Pro整體上部的架構(gòu)還是近似的,另外兩個(gè)128位LPDDR5塊很明顯,而且有趣的是,它們還增加了SLC塊的數(shù)量。 如果確實(shí)是每個(gè)塊16MB,那么整個(gè)SoC就可以使用64MB的片上通用緩存。
在如此巨大的內(nèi)存帶寬資源下,或許除了顯卡的作用,也在功能上有其他方面的考量,筆者猜測(cè)這里與機(jī)器學(xué)習(xí)相關(guān)的模塊有相關(guān)性。畢竟在對(duì)比i9等core的同類型產(chǎn)品,跑相同的ML Model,M1 Max的速度會(huì)快很多。
綜上,畢竟ARM使用精簡(jiǎn)指令集,芯片子模塊的門控時(shí)鐘和電源開關(guān)通常是設(shè)計(jì)電路時(shí)就決定的。在后端設(shè)計(jì)方面,諸如處理電壓,時(shí)鐘等問(wèn)題,控制在輸入電壓切換的時(shí)候產(chǎn)生的動(dòng)態(tài)功耗和關(guān)斷模塊的漏電功耗至關(guān)重要??傮w來(lái)講,這個(gè)可能需要結(jié)合軟件系統(tǒng)來(lái)看,比如app workflowdata數(shù)據(jù)的手機(jī),可以幫助優(yōu)化MacOS給中央處理器的各個(gè)核心分配的多線程任務(wù)等等。擁有自主OS的硬件在產(chǎn)品迭代的思路上有更多不可復(fù)制性。