隨著智能算力需求的倍增,到2024年,千卡算力集群已成為國內(nèi)大模型訓(xùn)練的必備場景。壁仞科技,作為國內(nèi)少數(shù)擁有原創(chuàng)訓(xùn)推一體架構(gòu)的高端算力芯片廠商之一,與在AI算力市場具有重要影響力的無問芯穹在千卡訓(xùn)練集群、大模型推理服務(wù)等領(lǐng)域開展了深度的研發(fā)合作。
近日,經(jīng)壁仞科技與無問芯穹聯(lián)合研發(fā)攻關(guān),成功將壁仞科技的千卡規(guī)模訓(xùn)練集群在無問芯穹Infini-AI異構(gòu)云平臺上進行納管和調(diào)度,已實現(xiàn)并完整驗證了彈性容錯、異常節(jié)點探測、檢查點保存與加載、斷點續(xù)訓(xùn)四大功能。
與此同時,基于壁仞科技BIRENSUPA??軟件工具鏈和無問芯穹大模型訓(xùn)練引擎,雙方通過并行策略層和計算加速層優(yōu)化,持續(xù)深挖壁仞大算力優(yōu)勢,在壁仞科技GPU上實現(xiàn)了LLM模型訓(xùn)練性能提升近1倍。
在大模型推理服務(wù)方面,壁仞科技最新發(fā)布的高性能、低功耗壁礪110E推理卡在同機架高度下,AI算力密度最高可達到市場主流云端PCIE8卡服務(wù)器方案的1.3倍以上。此外,能耗節(jié)省達70%,顯著降低整體系統(tǒng)的總擁有成本。
當(dāng)前,壁礪110E推理卡已在無問芯穹Infini-AI異構(gòu)云平臺的GenStudio大模型服務(wù)平臺中上線,可廣泛應(yīng)用于大模型多模態(tài)生成、圖像及語音識別、自然語言處理、搜索與推薦等人工智能推理應(yīng)用場景,支持大規(guī)模分布式推理。在基于壁礪110E的多級推理平臺上,結(jié)合無問芯穹GenStudio精選模型開放API,已經(jīng)形成文生圖/圖生圖的秒級出圖、多模態(tài)大型語言模型(LLM)圖文交互和圖像理解、移動端聊天應(yīng)用等多個大模型推理應(yīng)用場景的商業(yè)級用戶業(yè)務(wù)支撐能力。
壁礪110E GPGPU卡
目前,壁仞科技的“壁礪106系列”和“壁礪110系列”GPU產(chǎn)品已完成與無問芯穹Infini-AI異構(gòu)云平臺的全面接入。這些產(chǎn)品支持中間層、大模型算法庫、工具庫和應(yīng)用層的分級部署、管理、加速等平臺能力,以及各項優(yōu)化策略。未來,雙方將繼續(xù)攜手,在大規(guī)模自主可控智能算力集群優(yōu)化與運營等方面深化合作,進一步提升面向商業(yè)化算力客戶場景的聯(lián)合服務(wù)水平。
壁仞科技作為國內(nèi)領(lǐng)先的GPU芯片廠商,秉承“擔(dān)當(dāng)、卓越、協(xié)作、創(chuàng)新、務(wù)實、共贏”的價值觀,不斷提升技術(shù)競爭力,并與合作伙伴攜手,從實際用戶需求出發(fā),致力于打造性能卓越且具有高性價比的國產(chǎn)AI訓(xùn)練集群方案。