• 正文
    • 01、適配蒸餾版DeepSeek模型只是開胃小菜
    • 02、國內領先AI芯片最快月底能適配「好」?jié)M血版模型
  • 相關推薦
申請入駐 產業(yè)圖譜

部分國產芯片適配滿血版 DeepSeek,仍「遙遙無期」

02/25 11:35
1986
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者丨包永剛,編輯丨王亞峰

不同于春節(jié)假期剛結束時近20家AI芯片公司忙著宣布完成適配DeepSeek蒸餾模型的熱鬧景象,半個月后宣布完成適配滿血版DeepSeek模型的寥寥數家,這也真實反映出了國產AI芯片的真實力。

“只要廠家之前已經支持的大模型的訓練推理,那么適配DeepSeek就沒有任何難度?!盇I芯片軟件工程師梓豪說,“我們公司的應用工程師(AE)就可以完成DeepSeek蒸餾模型的適配。”這足以解釋為什么有芯片公司可以用數小時時間就完成DeepSeek蒸餾模型的適配,但對于一直致力于做大芯片的AI芯片公司來說,適配滿血版DeepSeek更能體現其價值。

目前,華為、寒武紀、摩爾線程以及昆侖芯都有公開信息表示其完成滿血版DeepSeek模型的適配。更多國產AI芯片公司適配滿血版大模型進展歡迎添加作者微信BENSONEIT了解。“即便是現在已經宣布適配滿血版DeepSeek的芯片公司,其性能都不太好。”AI芯片資深工程師杰克說,“從技術上判斷,此前已經將大模型跑起來的公司,比如燧原、壁仞、天數智芯適配滿血版DeepSeek也只是時間問題,之前沒有部署過大模型的公司適配滿血版DeepSeek可能‘遙遙無期’。

那么到底適配DeepSeek蒸餾模型和滿血版DeepSeek模型會成為AI芯片公司的分水嶺?為什么有人說國內AI芯片公司的人不懂AI?DeepSeek的爆火至少能撐起一家國產AI芯片公司的上市?

01、適配蒸餾版DeepSeek模型只是開胃小菜

半個月前芯片公司鋪天蓋地的適配DeepSeek的新聞里,有公司明確表達了適配的是蒸餾模型,也有公司只說適配了DeepSeek,但適配蒸餾模型和滿血版模型之間存在著巨大的差別。滿血版模型指的是與DeepSeek官網性能一致的V3和R1的全量參數模型,其參數高達671B,一般需要多臺高性能GPU服務器并行才能流暢運行推理服務。

蒸餾版DeepSeek模型是利用DeepSeek-R1生成的數據對其他模型進行微調,參數從幾B到幾十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,這些蒸餾模型的效果差于滿血版,但更易于部署?!拔乙欢日J為適配蒸餾版DeepSeek模型沒有太大價值,許多工程師也都更傾向于滿血版DeepSeek,但我現在的想法發(fā)生了轉變?!?/p>

有二十多年芯片行業(yè)經驗的柏林說,“蒸餾版模型能滿足普通用戶的聊天需求,對于普及AI的意義非常大?!苯芸艘脖硎荆m然蒸餾模型的準確度不如滿血版模型,但蒸餾版模型能讓端側AI的能力上一個臺階,端側資源受限,有了DeepSeek的蒸餾模型之后,比如原來只能部署7B模型的場景,現在能達到14B模型的效果。國產AI芯片適配蒸餾版DeepSeek模型也難度不大。

無論是使用GPGPU架構還是專用ASIC架構對AI芯片公司,都迅速完成了對DeepSeek的適配。“GPT火了之后所有公司都想辦法支持大模型,DeepSeek和之前的大模型沒有本質的不同,有此前適配大模型的工作,適配蒸餾版DeepSeek不是難題?!辫骱辣硎?。“CUDA兼容的GPGPU適配起來確實會更容易,但只要給ASIC更多時間做到極致,性能可以超過GPU。”杰克認為。

從長期看,無論什么架構的芯片,如果只是支持幾個有限的模型,總能在這個架構上找到最優(yōu)的解決方案。DeepSeek的火爆,主流模型就是DeepSeek和LLMA等少數幾個,從這個角度看,對AI芯片公司來說算是好事。對于采用國產AI芯片的智算中心來說,DeepSeek的火爆同樣是重大利好。“DeepSeek火爆之后我們想用一家國產AI芯片公司的卡適配。”國產智算中心從業(yè)者博遠說,“但現實的問題是,如果適配DeepSeek A100的性能是100分,這家國產卡跑起來只有幾分的性能,使勁優(yōu)化也只有A100十幾分的性能?!?/p>

DeepSeek的火爆到底如何影響智算中心發(fā)展,添加作者微信BENSONEIT互通有無。既然從普及AI和適配的角度,蒸餾版DeepSeek就有巨大的價值,那為什么還要適配滿血版DeepSeek?“只有部署了滿血版DeepSeek模型,才能得到蒸餾版模型,我認為這是部署滿血版DeepSeek模型的重要原因?!苯芸吮硎?。

02、國內領先AI芯片最快月底能適配「好」?jié)M血版模型

但是想要部署參數高達671B滿血版DeepSeek-R1模型,即便是Int8精度模型的大小也高達671G,以單卡96G HBM計算,單機8卡總共768GB也只是勉強夠部署滿血版DeepSeek,只要模型精度比Int8更高,單臺服務器就無法部署滿血版DeepSeek模型。

此時就需要多機互聯,這正是國產AI芯片公司仍未很好解決地問題。“Nvidia有NV Link,國產芯片沒有多機互聯的解決方案會選擇InfiniBand(IB)或者高速以太網RoCE實現互聯,這些方案的通信的延遲很大,這就極大程度會影響最終部署的效果。”杰克說,“多卡和多機互聯是國產芯片適配滿血版DeepSeek的第一個難點,如果之前沒有解決通信問題,想做起來很難,距離成功適配滿血版DeepSeek可能遙遙無期。”梓豪認為在多機互聯方面,摩爾線程和沐曦有一定的優(yōu)勢。

另一個難點是DeepSeek的MoE混合專家系統(tǒng),MoE是多一個router(路由模塊)的計算,它會將token路由至合適的專家權重去做計算,這個路由是動態(tài)的,這和此前的Transformer大模型的部署不一樣,這也是一個全新的挑戰(zhàn)。

對于所有國產AI大芯片而言,還有一個硬傷就是不原生支持FP8數據類型,DeepSeek模型采用了 FP8 混合精度訓練,全球領先的AI芯片公司英偉達從H100開始,AMD MI325X都原生支持FP8?!安辉С諪P8不意味著就不能部署滿血版DeepSeek,只是會帶來效率問題,比如用FP16來部署,就需要2倍的存儲。”杰克表示,這就意味著需要更多卡,問題又到了多卡多機互聯。

要注意,即便是2024年推出的新一代國產AI卡,也沒有支持FP8。柏林認為,最新的國產AI芯片不支持FP8、FP4這類非IEEE定義的數據類型,說明企業(yè)內部沒有前沿的研究指導這些公司的設計。并且英偉達2022年推出的H100就已經支持了FP8,已經有人做出產品,就算照著“抄”也不難了,這體現了國內許多做AI芯片的人并不懂AI。

即便解決了技術難題可以部署滿血版DeepSeek,從可用到好用還有一段很長的距離。杰克就深有感觸,此前適配大模型的時候,杰克所在的公司跨機通信也解決了,但是要實現性能的提升難度很大。這也是目前國產芯片公司適配滿血版頭疼的問題。

雷峰網了解到,目前國內領先的AI芯片公司以4臺服務器(32卡,FP16數據類型),或者2臺服務器(16卡,Int8數據類型)適配滿血版DeepSeek的效果也只達到了10tokens/s,其目標是在本月底前能夠達到25tokens/s,性能大概是英偉達H100的25%。另有消息稱,國內上市AI芯片公司在智算中心已經達到了適配滿血版DeepSeek 25tokens/s的性能。

從用戶的角度,使用滿血版DeepSeek要有比較好的使用體驗有兩個非常直觀的指標,一個是首字延遲,另一個就是每秒吞吐量。大致而言,首字延遲在1-1.4秒是大部分用戶能夠接受的延遲,而每秒生成20token能滿足正常閱讀的需求。這樣說來,即便是國內領先的公司,最快也要到本月底達到讓用戶相對滿意的使用體驗。至于其他AI芯片公司,雷峰網了解到,在上市輔導流程里的AI芯片公司有兩家適配滿血版DeepSeek的速度在10 tokens/s及以下

AI大芯片公司的張偉判斷,未來一個月適配不好滿血版DeepSeek的AI公司可能有一半。柏林認為,未來一個季度國產AI芯片都會陸續(xù)適配滿血版DeepSeek。“其他已經有成功部署大模型經驗的芯片公司適配滿血版DeepSeek只是時間問題?!苯芸苏f,“這些公司里好幾家都處于上市輔導階段,我認為誰能更快、更好支持好滿血版DeepSeek,我認為會大幅增加他們上市的概率,因為很多機構和公司都在積極部署滿血版DeepSeek,有利于AI芯片公司做出真實的業(yè)績,支撐其上市。”不過兩位芯片投資人都對雷峰網表示,A股的成功上市的因素比較復雜,能夠支持好滿血版DeepSeek確實是實力的體現,但對于最終成功上市很難說有直接利好。毋庸置疑的是,DeepSeek對于國內芯片、智算中心、AI應用都是巨大利好,我們已經處在AI變革前夜。關于AI算力的更多挑戰(zhàn),歡迎添加作者微信BENSONEIT討論。

注,文中梓豪、杰克 、柏林、博遠、張偉均為化名。

相關推薦