污污网站国产精品白丝袜,国产成人a在线视频免费,91精品国产国语对白视频在线观看

NVIDIA Dynamo 提高了推理性能，同時降低了擴(kuò)展測試時計(jì)算 (Scaling Test-Time Compute) 的成本；在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍

NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo，旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI 推理模型。

高效地編排和協(xié)調(diào)大量 GPU 上的 AI 推理請求，對確保 AI 工廠實(shí)現(xiàn)運(yùn)行成本最小化、token 收益最大化來說至關(guān)重要。

隨著 AI 推理逐漸變?yōu)橹髁?，AI 模型在處理每個提示時都會生成數(shù)以萬計(jì)的 token 用于“思考”。提高推理性能的同時不斷降低推理成本，可加速服務(wù)提供商的增長并增加收入機(jī)會。

作為 NVIDIA Triton? 推理服務(wù)器的后續(xù)產(chǎn)品，NVIDIA Dynamo 是一款全新的 AI 推理服務(wù)軟件，旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個 GPU 之間的推理通信，并使用分離服務(wù)將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進(jìn)行單獨(dú)優(yōu)化，并確保更大程度地利用 GPU 資源。

“全世界各行業(yè)都在訓(xùn)練 AI 模型以不同的方式進(jìn)行思考和學(xué)習(xí)，從而使模型復(fù)雜度持續(xù)升級。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示，“為了實(shí)現(xiàn)自定義推理 AI 的未來，NVIDIA Dynamo 可以在這些模型上進(jìn)行規(guī)?；渴?，從而為 AI 工廠實(shí)現(xiàn)降本增效”。

在 GPU 數(shù)量相同的情況下，Dynamo 可將 NVIDIA Hopper? 平臺上運(yùn)行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72 機(jī)架組成的大型集群上運(yùn)行 DeepSeek-R1 模型時，NVIDIA Dynamo 的智能推理優(yōu)化也可將每個 GPU 生成的 token 數(shù)量提高 30 倍以上。

為了提升這些推理性能，NVIDIA Dynamo 加入了一些功能，使其能夠提高吞吐量的同時降低成本。它可以根據(jù)不斷變化的請求數(shù)量和類型，動態(tài)添加、移除和重新分配 GPU，并精確定位大型集群中的特定 GPU，從而更大限度地減少響應(yīng)計(jì)算和路由查詢。此外，它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲設(shè)備上，并在需要時快速檢索這些數(shù)據(jù)，最大程度地降低推理成本。

NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM，使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署 AI 模型的方法。這將使用戶加速采用 AI 推理，包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

推理性能提升

NVIDIA Dynamo 可將推理系統(tǒng)在處理過往請求時于顯存中保存的知識（稱為 KV 緩存），映射到潛在的數(shù)千個 GPU 中。

然后，它會將新的推理請求路由到與所需信息匹配度最高的 GPU 上，從而避免昂貴的重新計(jì)算，并釋放 GPU 來響應(yīng)新的請求。

Perplexity AI 首席技術(shù)官 Denis Yarats 表示：“為了處理每月數(shù)以億計(jì)的請求，我們依靠 NVIDIA GPU 及推理軟件來提供業(yè)務(wù)和用戶所需的性能、可靠性和拓展性。我們期待通過 NVIDIA Dynamo 及其增強(qiáng)的分布式服務(wù)能力，進(jìn)一步提高推理服務(wù)效率，滿足全新 AI 推理模型的計(jì)算需求?！?/p>

代理式 AI

AI 提供商 Cohere 計(jì)劃使用 NVIDIA Dynamo 為其 Command 系列模型中的代理式 AI 功能提供支持。

Cohere 工程部門高級副總裁 Saurabh Baji 表示：“擴(kuò)展先進(jìn)的 AI 模型需要復(fù)雜的多 GPU 調(diào)度、無縫協(xié)調(diào)和低延遲通信庫，以便在顯存和存儲中無縫傳輸推理上下文。我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗(yàn)?！?/p>

分離服務(wù)

NVIDIA Dynamo 推理平臺還支持分離服務(wù)，將 LLM 的不同計(jì)算階段（包括建立對用戶查詢的理解，然后生成最佳響應(yīng)）分配給不同的 GPU。這種方法非常適合推理模型，例如全新的 NVIDIA Llama Nemotron 模型系列，它們使用高級推理技術(shù)來改進(jìn)上下文理解和響應(yīng)生成。分離服務(wù)使得每個階段可以進(jìn)行單獨(dú)的微調(diào)和資源調(diào)配，從而提高吞吐量并更快地響應(yīng)用戶。

Together AI (AI Acceleration Cloud) 正在尋求將其專有的 Together Inference Engine 與 NVIDIA Dynamo 集成，以便推理工作負(fù)載實(shí)現(xiàn)跨 GPU 節(jié)點(diǎn)的無縫擴(kuò)展。這也讓 Together AI 能夠動態(tài)地解決模型管線各個階段的流量瓶頸。

Together AI 首席技術(shù)官 Ce Zhang 表示：“經(jīng)濟(jì)高效地?cái)U(kuò)展推理模型需要新的先進(jìn)推理技術(shù)，包括分離服務(wù)和上下文感知路由。借助我們專有的推理引擎，Together AI 可提供行業(yè)領(lǐng)先的性能。NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無縫嵌入引擎，以滿足更多請求，同時優(yōu)化資源利用率，從而最大化我們在加速計(jì)算方面的投資。我們很高興能夠利用該平臺的突破性功能，經(jīng)濟(jì)高效地為用戶提供開源推理模型?！?/p>

NVIDIA Dynamo 組成結(jié)構(gòu)

NVIDIA Dynamo 包含四項(xiàng)關(guān)鍵創(chuàng)新，可降低推理服務(wù)成本并改善用戶體驗(yàn)：

GPU 規(guī)劃器 (GPU Planner)：一種規(guī)劃引擎，可動態(tài)地添加和移除 GPU，以適應(yīng)不斷變化的用戶需求，從而避免 GPU 配置過度或不足。
智能路由器 (Smart Router)：一個具備大語言模型 (LLM) 感知能力的路由器，它可以在大型 GPU 集群中引導(dǎo)請求的流向，從而最大程度減少因重復(fù)或重疊請求而導(dǎo)致的代價(jià)高昂的 GPU 重復(fù)計(jì)算，釋放出 GPU 資源以響應(yīng)新的請求。
低延遲通信庫 (Low-Latency Communication Library)：推理優(yōu)化庫，支持先進(jìn)的 GPU 到 GPU 通信，并簡化異構(gòu)設(shè)備之間的復(fù)雜數(shù)據(jù)交換，從而加速數(shù)據(jù)傳輸。
顯存管理器 (Memory Manager)：一種可在不影響用戶體驗(yàn)的情況下，以智能的方式在低成本顯存和存儲設(shè)備上卸載及重新加載推理數(shù)據(jù)的引擎。

NVIDIA Dynamo 將作為 NVIDIA NIM? 微服務(wù)推出，并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持，具有生產(chǎn)級的安全性、支持和穩(wěn)定性。