• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

華為又開源了個(gè)大的:超大規(guī)模MoE推理秘籍

6小時(shí)前
260
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

金磊 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI

超大規(guī)模MoE模型(如DeepSeek),到底該怎么推理才能做到又快又穩(wěn)。

現(xiàn)在,這個(gè)問題似乎已經(jīng)有了標(biāo)準(zhǔn)答案——華為一個(gè)新項(xiàng)目,直接把推理超大規(guī)模MoE背后的架構(gòu)、技術(shù)和代碼,統(tǒng)統(tǒng)給開源了!

這個(gè)新開源項(xiàng)目名叫Omni-Infer,整體來看,它對(duì)于企業(yè)用戶來說是非常利好的。

例如它可以給企業(yè)提供PD分離部署方案,針對(duì)QPM進(jìn)行系統(tǒng)級(jí)優(yōu)化,還會(huì)分享大規(guī)模商用過程中硬件使用的“方法論”。

而且對(duì)于開發(fā)者和開源社區(qū),華為這“一呼”也是起到了“百應(yīng)”的效果。

北京智源研究院副院長(zhǎng)兼總工程師林詠華表示:北京智源研究院一直以來致力于人工智能開源生態(tài)建設(shè),很高興看到Omni-infer項(xiàng)目開源,智源團(tuán)隊(duì)打造的面向多芯片的FlagScale框架也在第一時(shí)間接入了Omni-infer,期待后續(xù)有更多生態(tài)合作。

GitHub地址:https://github.com/FlagOpen/FlagScale/pull/630

上海人工智能實(shí)驗(yàn)室系統(tǒng)平臺(tái)中心負(fù)責(zé)人王輝認(rèn)為:DeepLlink致力于打造最開放兼容的人工智能計(jì)算體系,十分期待能與Omni-infer項(xiàng)目攜手,繁榮自主軟硬件協(xié)同開源社區(qū)、拓展生態(tài)版圖。

以及OpenI啟智社區(qū)運(yùn)營(yíng)中心主任余躍也給出了響應(yīng):OpenI啟智社區(qū)堅(jiān)持創(chuàng)新為本,面向未來與Omni-Infer項(xiàng)目一起打造基于算力網(wǎng)的開源共創(chuàng)協(xié)作生態(tài)。

據(jù)了解,華為Omni-Infer社區(qū)的定位是 “加速套件+最佳實(shí)踐”,未來提供開箱即用能力,支持昇騰推理集群快速部署。

而對(duì)于這次Omni-Infer的開源,其實(shí)是華為兌現(xiàn)了一個(gè)月前在發(fā)布重磅技術(shù)報(bào)告之際所做出的承諾。

那么接下來,我們就來一同深入了解一下華為的Omni-Infer。

一個(gè)框架和一個(gè)套件

從整體來看,Omni-Infer可以拆成兩大塊來看:一個(gè)是推理框架,一個(gè)是推理加速套件。

從框架角度來看,Omni-Infer能和業(yè)界主流的開源大模型推理框架(如vLLM)完美兼容,就像不同品牌的零件可以組裝在同一臺(tái)機(jī)器上。

并且據(jù)了解,它的功能還將不斷擴(kuò)展,會(huì)持續(xù)為昇騰硬件平臺(tái)上的大模型推理提供更強(qiáng)大的支持(例如SGLang等主流開源LLM推理框架)。

值得一提的是,Omni-Infer是與vLLM/SGLang等等這些主流大模型推理開源框架是解耦的,獨(dú)立安裝。

這就意味著用戶只需維護(hù)vLLM等的主版本即可,大大降低了軟件版本維護(hù)的成本。

至于Omni-Infer的加速套件,若是用較為形象的比喻,它的“打開方式”是這樣的:

企業(yè)級(jí)的 “調(diào)度員”:它有一套智能的調(diào)度系統(tǒng),就像交通警察指揮車輛一樣,能合理安排任務(wù)(xPyD調(diào)度)。而且支持大規(guī)模分布式部署,就像多個(gè)交通崗?fù)f(xié)同工作,不管任務(wù)量多大,都能保證最低的延遲,讓響應(yīng)更及時(shí)。

精準(zhǔn)的 “負(fù)載平衡器”:對(duì)于不同長(zhǎng)度的任務(wù)序列,它在預(yù)填充和解碼這兩個(gè)關(guān)鍵階段都做了優(yōu)化。比如,就像快遞分揀中心針對(duì)不同大小的包裹采用不同的分揀策略,讓整個(gè)處理過程的吞吐量達(dá)到最大,同時(shí)還能保持低延遲。

MoE模型的 “專屬搭檔”:它對(duì)混合專家(MoE)模型特別友好,支持EP144/EP288等多種配置??梢韵胂蟪梢粋€(gè)大型的 “專家團(tuán)隊(duì)”,每個(gè)專家負(fù)責(zé)不同的任務(wù),它能讓這些專家高效協(xié)作。

智能的 “資源分配者”:具備分層非均勻冗余和近實(shí)時(shí)動(dòng)態(tài)專家放置功能。就像在一個(gè)大型工廠里,根據(jù)實(shí)時(shí)的生產(chǎn)需求,動(dòng)態(tài)調(diào)整各個(gè)生產(chǎn)線的工人分配,讓資源得到最充分的利用。

注意力機(jī)制的 “強(qiáng)化器”:專門為L(zhǎng)LM、MLLM和MoE等模型優(yōu)化了注意力機(jī)制。這就好比給模型的 “注意力” 裝上了 “放大鏡”,讓它在處理信息時(shí)更聚焦、更高效,提升了模型的性能和可擴(kuò)展性。

如何“食用”?

在聊完Omni-Infer的特點(diǎn)之后,我們繼續(xù)來看下該如何去體驗(yàn)。

首先對(duì)于它的使用環(huán)境是有一定的要求:

    硬件:目前僅支持CloudMatrix384推理卡操作系統(tǒng):Linux Python: >=3.9, <= 3.11

其次在安裝方式上,目前僅支持通過Docker鏡像方式進(jìn)行安裝:

docker?pull swr.cn-southwest-2.myhuaweicloud.com/omni-ai/omniinfer:202506272026

這個(gè)鏡像已預(yù)先集成所需的CANN及Torch-NPU依賴包,同時(shí)內(nèi)置可直接運(yùn)行的Omni-Infer與vLLM工具包,開箱即可使用。

可以使用下面這個(gè)命令檢查是否可用:

pip?list | grep omni_infer

PD分離自動(dòng)化部署(4機(jī)2P1D)為例,它的部署框架如下所示:

再接下來,只需文檔教程,僅少量代碼和步驟,即可完成安裝和部署:

整體來看,此次華為面向超大規(guī)模MoE開源的項(xiàng)目,是做到了簡(jiǎn)單幾步就可以讓AI推理這事變得又快又穩(wěn)。

極致開源

Omni-Infer除了將此前《華為昇騰服務(wù)器 DeepSeek V3/R1 推理部署最佳實(shí)踐》技術(shù)報(bào)告中的關(guān)鍵技術(shù)開源出來之外,也同步進(jìn)行了更加專業(yè)的開源社區(qū)建設(shè)。

首先,在獨(dú)立的社區(qū)倉(cāng)庫(kù)中,將社區(qū)治理、社區(qū)會(huì)議、社區(qū)活動(dòng)、生態(tài)合作、代碼規(guī)范、設(shè)計(jì)文檔等社區(qū)信息全部開放出來,讓開發(fā)者能夠最直接深入的參與到社區(qū)發(fā)展中。

其次,參照業(yè)界主流大型開源社區(qū)的最佳實(shí)踐,采用開放的社區(qū)治理機(jī)制,通過項(xiàng)目管理委員會(huì)(Project Management Committee)和特別興趣小組(Special Interest Group)兩級(jí)機(jī)制,提供公正透明的討論與決策機(jī)制。

再次,針對(duì)業(yè)界同類開源項(xiàng)目大多存在的“一頭熱”的“被動(dòng)適配”生態(tài)合作模式問題,Omni-Infer社區(qū)則采取了“主動(dòng)適配”的社區(qū)構(gòu)筑路徑,尤其是主動(dòng)擁抱國(guó)內(nèi)正在逐步成長(zhǎng)的人工智能開源項(xiàng)目,讓生態(tài)真正實(shí)現(xiàn)多方共贏。

作為長(zhǎng)期與業(yè)界幾大主流開源基金會(huì)(Linux基金會(huì)、OpenInfra基金會(huì)、Apache基金會(huì)等)保持緊密合作關(guān)系的社區(qū)團(tuán)隊(duì),Omni-infer剛開源的首個(gè)活動(dòng)就將參與OpenInfra基金會(huì)在蘇州的Meetup,感興趣的同學(xué)可以到現(xiàn)場(chǎng)交流,也順路可參加有特色的全球性開源社區(qū)的生日活動(dòng)。

最后,所有相關(guān)的地址放下面了,感興趣的小伙伴可自取哦~

技術(shù)報(bào)告及可分析代碼包:https://gitcode.com/ascend-tribe/ascend-inference-cluster

源代碼開發(fā)協(xié)作:https://gitee.com/omniai/omniinfer

社區(qū)治理、運(yùn)作等內(nèi)容:https://gitee.com/omniai/community

【其他托管平臺(tái)】

Github:https://github.com/omni-ai-npu/omni-infer

OpenI啟智社區(qū):https://git.openi.org.cn/omni-ai/omni-infer

GitLink確實(shí)平臺(tái):https://gitlink.org.cn/omni-ai/omniinfer

華為

華為

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬(wàn)員工,業(yè)務(wù)遍及170多個(gè)國(guó)家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬(wàn)物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動(dòng)健康等全場(chǎng)景獲得極致的個(gè)性化智慧體驗(yàn)。

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬(wàn)員工,業(yè)務(wù)遍及170多個(gè)國(guó)家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬(wàn)物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂、運(yùn)動(dòng)健康等全場(chǎng)景獲得極致的個(gè)性化智慧體驗(yàn)。收起

查看更多

相關(guān)推薦