• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

NVIDIA Dynamo 開源庫加速并擴(kuò)展 AI 推理模型

03/19 08:19
650
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

NVIDIA Dynamo 提高了推理性能,同時降低了擴(kuò)展測試時計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍

NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI 推理模型。

高效地編排和協(xié)調(diào)大量 GPU 上的 AI 推理請求,對確保 AI 工廠實(shí)現(xiàn)運(yùn)行成本最小化、token 收益最大化來說至關(guān)重要。

隨著 AI 推理逐漸變?yōu)橹髁?,AI 模型在處理每個提示時都會生成數(shù)以萬計(jì)的 token 用于“思考”。提高推理性能的同時不斷降低推理成本,可加速服務(wù)提供商的增長并增加收入機(jī)會。

作為 NVIDIA Triton? 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個 GPU 之間的推理通信,并使用分離服務(wù)將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進(jìn)行單獨(dú)優(yōu)化,并確保更大程度地利用 GPU 資源。

“全世界各行業(yè)都在訓(xùn)練 AI 模型以不同的方式進(jìn)行思考和學(xué)習(xí),從而使模型復(fù)雜度持續(xù)升級。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“為了實(shí)現(xiàn)自定義推理 AI 的未來,NVIDIA Dynamo 可以在這些模型上進(jìn)行規(guī)?;渴?,從而為 AI 工廠實(shí)現(xiàn)降本增效”。

在 GPU 數(shù)量相同的情況下,Dynamo 可將 NVIDIA Hopper? 平臺上運(yùn)行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72 機(jī)架組成的大型集群上運(yùn)行 DeepSeek-R1 模型時,NVIDIA Dynamo 的智能推理優(yōu)化也可將每個 GPU 生成的 token 數(shù)量提高 30 倍以上。

為了提升這些推理性能,NVIDIA Dynamo 加入了一些功能,使其能夠提高吞吐量的同時降低成本。它可以根據(jù)不斷變化的請求數(shù)量和類型,動態(tài)添加、移除和重新分配 GPU,并精確定位大型集群中的特定 GPU,從而更大限度地減少響應(yīng)計(jì)算和路由查詢。此外,它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲設(shè)備上,并在需要時快速檢索這些數(shù)據(jù),最大程度地降低推理成本。

NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署 AI 模型的方法。這將使用戶加速采用 AI 推理,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

推理性能提升

NVIDIA Dynamo 可將推理系統(tǒng)在處理過往請求時于顯存中保存的知識(稱為 KV 緩存),映射到潛在的數(shù)千個 GPU 中。

然后,它會將新的推理請求路由到與所需信息匹配度最高的 GPU 上,從而避免昂貴的重新計(jì)算,并釋放 GPU 來響應(yīng)新的請求。

Perplexity AI 首席技術(shù)官 Denis Yarats 表示:“為了處理每月數(shù)以億計(jì)的請求,我們依靠 NVIDIA GPU 及推理軟件來提供業(yè)務(wù)和用戶所需的性能、可靠性和拓展性。我們期待通過 NVIDIA Dynamo 及其增強(qiáng)的分布式服務(wù)能力,進(jìn)一步提高推理服務(wù)效率,滿足全新 AI 推理模型的計(jì)算需求?!?/p>

代理式 AI

AI 提供商 Cohere 計(jì)劃使用 NVIDIA Dynamo 為其 Command 系列模型中的代理式 AI 功能提供支持。

Cohere 工程部門高級副總裁 Saurabh Baji 表示:“擴(kuò)展先進(jìn)的 AI 模型需要復(fù)雜的多 GPU 調(diào)度、無縫協(xié)調(diào)和低延遲通信庫,以便在顯存和存儲中無縫傳輸推理上下文。我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗(yàn)?!?/p>

分離服務(wù)

NVIDIA Dynamo 推理平臺還支持分離服務(wù),將 LLM 的不同計(jì)算階段(包括建立對用戶查詢的理解,然后生成最佳響應(yīng))分配給不同的 GPU。這種方法非常適合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它們使用高級推理技術(shù)來改進(jìn)上下文理解和響應(yīng)生成。分離服務(wù)使得每個階段可以進(jìn)行單獨(dú)的微調(diào)和資源調(diào)配,從而提高吞吐量并更快地響應(yīng)用戶。

Together AI (AI Acceleration Cloud) 正在尋求將其專有的 Together Inference Engine 與 NVIDIA Dynamo 集成,以便推理工作負(fù)載實(shí)現(xiàn)跨 GPU 節(jié)點(diǎn)的無縫擴(kuò)展。這也讓 Together AI 能夠動態(tài)地解決模型管線各個階段的流量瓶頸。

Together AI 首席技術(shù)官 Ce Zhang 表示:“經(jīng)濟(jì)高效地?cái)U(kuò)展推理模型需要新的先進(jìn)推理技術(shù),包括分離服務(wù)和上下文感知路由。借助我們專有的推理引擎,Together AI 可提供行業(yè)領(lǐng)先的性能。NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無縫嵌入引擎,以滿足更多請求,同時優(yōu)化資源利用率,從而最大化我們在加速計(jì)算方面的投資。我們很高興能夠利用該平臺的突破性功能,經(jīng)濟(jì)高效地為用戶提供開源推理模型?!?/p>

NVIDIA Dynamo 組成結(jié)構(gòu)

NVIDIA Dynamo 包含四項(xiàng)關(guān)鍵創(chuàng)新,可降低推理服務(wù)成本并改善用戶體驗(yàn):

  • GPU 規(guī)劃器 (GPU Planner):一種規(guī)劃引擎,可動態(tài)地添加和移除 GPU,以適應(yīng)不斷變化的用戶需求,從而避免 GPU 配置過度或不足。
  • 智能路由器 (Smart Router):一個具備大語言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導(dǎo)請求的流向,從而最大程度減少因重復(fù)或重疊請求而導(dǎo)致的代價(jià)高昂的 GPU 重復(fù)計(jì)算,釋放出 GPU 資源以響應(yīng)新的請求。
  • 低延遲通信庫 (Low-Latency Communication Library):推理優(yōu)化庫,支持先進(jìn)的 GPU 到 GPU 通信,并簡化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。
  • 顯存管理器 (Memory Manager):一種可在不影響用戶體驗(yàn)的情況下,以智能的方式在低成本顯存和存儲設(shè)備上卸載及重新加載推理數(shù)據(jù)的引擎。

NVIDIA Dynamo 將作為 NVIDIA NIM? 微服務(wù)推出,并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持,具有生產(chǎn)級的安全性、支持和穩(wěn)定性。

相關(guān)推薦