作者:李寧遠(yuǎn)
在NVIDIA對(duì)AI技術(shù)進(jìn)化路徑梳理中,AI從感知型AI演進(jìn)為生成式AI,再到代理型AI,最終將實(shí)現(xiàn)Physical物理AI。在物理AI終局,人形機(jī)器人、移動(dòng)機(jī)器人、智能攝像頭和AI智能體等等任何能感知并執(zhí)行任務(wù)的設(shè)備都會(huì)由AI賦能釋放應(yīng)用潛力。
在物理AI最具落地前景的工業(yè)領(lǐng)域,雖然此前數(shù)字化轉(zhuǎn)型智能制造升級(jí)的變革已滲透多年,但大多數(shù)工廠場(chǎng)景仍停留在自動(dòng)化而非智能化階段,離真正實(shí)現(xiàn)感知到認(rèn)知到?jīng)Q策的閉環(huán)智能相去甚遠(yuǎn)。而現(xiàn)在,物理AI的進(jìn)步,終于讓工業(yè)場(chǎng)景的智能化變革迎來(lái)了轉(zhuǎn)折點(diǎn)。
物理AI在工業(yè)場(chǎng)景的落地生根催生出前所未有的智能化躍遷。從早期以PLC為核心構(gòu)建的機(jī)械自動(dòng)化基石,到物聯(lián)網(wǎng)與云計(jì)算掀起的數(shù)據(jù)互聯(lián)化浪潮,工業(yè)系統(tǒng)完成了從孤立運(yùn)算到云端協(xié)同的歷史性跨越。
現(xiàn)在,物理AI帶來(lái)的閉環(huán)智能,突破了傳統(tǒng)規(guī)則引擎的邏輯桎梏,將工業(yè)系統(tǒng)的決策模式從“經(jīng)驗(yàn)驅(qū)動(dòng)”推向“自主智能”。這種變革不僅是效率的提升,更是工業(yè)生產(chǎn)力本質(zhì)的重塑。
以世界模型為引擎,釋放物理AI工業(yè)應(yīng)用潛力
在此前物聯(lián)網(wǎng)智庫(kù)探討端側(cè)AI的文章中,曾表達(dá)過(guò)這樣一個(gè)觀點(diǎn),“端側(cè)硬件設(shè)備借力智能模型通過(guò)多模態(tài)能力增強(qiáng)智能理解和決策是現(xiàn)今產(chǎn)業(yè)鏈正在推進(jìn)的方向,其目的是通過(guò)硬件與模型的深度融合將AI從數(shù)字世界帶入物理世界?!?/p>
物理AI設(shè)備其實(shí)可以看作是端側(cè)AI設(shè)備的終極形態(tài),在基礎(chǔ)的算力、感知、運(yùn)控硬件配置上,物理AI在模型配置上向前更進(jìn)一步,即使用世界模型將人工智能與物理世界的規(guī)律、機(jī)理深度融合,通過(guò)數(shù)據(jù)驅(qū)動(dòng)與物理建模的協(xié)同,實(shí)現(xiàn)對(duì)物理系統(tǒng)的精準(zhǔn)模擬、預(yù)測(cè)、控制與優(yōu)化。
以最具代表性的物理AI設(shè)備人形機(jī)器人為例,工規(guī)級(jí)機(jī)器人硬件配置雖然會(huì)有差異,但基礎(chǔ)能力是完備的,拉不開(kāi)太大差距,機(jī)器人能否在動(dòng)態(tài)且復(fù)雜的工廠環(huán)境下對(duì)空間與物理過(guò)程進(jìn)行精準(zhǔn)建模、理解與推理決策,很大程度上取決于其配置的世界模型大腦。世界模型是實(shí)現(xiàn)物理AI的前提,也是機(jī)器人實(shí)現(xiàn)具身智能的前提。
在早些時(shí)候的CES上,NVIDIA發(fā)布過(guò)面向物理AI開(kāi)發(fā)的Cosmos。NVIDIA Cosmos是一個(gè)世界基礎(chǔ)模型(WFM)開(kāi)發(fā)平臺(tái),用于推動(dòng)物理AI的發(fā)展。其核心是Cosmos WFM,這些開(kāi)放可用的預(yù)訓(xùn)練多模態(tài)模型可供開(kāi)發(fā)者直接使用,用于生成視頻形式的世界狀態(tài)和物理AI推理,或通過(guò)后訓(xùn)練開(kāi)發(fā)專門的物理AI模型。NVIDIA Cosmos還包括先進(jìn)的視覺(jué)標(biāo)記器(tokenizers)、護(hù)欄(guardrails)、加速視頻數(shù)據(jù)處理平臺(tái)以及后訓(xùn)練框架。
而后在GTC2025上,NVIDIA推出了全新NVIDIA Cosmos世界基礎(chǔ)模型的重大更新,在基礎(chǔ)模型上引入了開(kāi)放式、可完全定制的物理AI開(kāi)發(fā)推理模型。黃仁勛表示,“正如大語(yǔ)言模型改變了生成式和代理式AI,Cosmos世界基礎(chǔ)模型是物理AI的一項(xiàng)重大突破,它為物理AI帶來(lái)了一個(gè)開(kāi)放式、可完全定制的推理模型,為機(jī)器人和物理工業(yè)領(lǐng)域的突破性發(fā)展帶來(lái)了機(jī)遇。”
據(jù)了解,Cosmos Predict是通用模型,用于從多模態(tài)輸入生成世界狀態(tài)和運(yùn)動(dòng)預(yù)測(cè),專為后訓(xùn)練開(kāi)發(fā)專門的物理AI模型而設(shè)計(jì)。Cosmos Predict作為NIM提供,可以隨處部署以實(shí)現(xiàn)更快推理。Cosmos Reason是完全可定制的多模態(tài)模型,用于思維鏈推理以規(guī)劃最佳響應(yīng)。而Cosmos Transfer基于結(jié)構(gòu)輸入或來(lái)自NVIDIA Omniverse的真實(shí)數(shù)據(jù),可根據(jù)提示,生成不同場(chǎng)景風(fēng)格的視頻。
同時(shí)NVIDIA還推出了與Cosmos世界基礎(chǔ)模型相連接的新NVIDIA Omniverse Blueprint,一個(gè)將全球物理數(shù)據(jù)與物理AI領(lǐng)域連接起來(lái)的操作系統(tǒng)。產(chǎn)業(yè)鏈可以借助Omniverse,實(shí)現(xiàn)用于物理AI開(kāi)發(fā)的機(jī)器人就緒設(shè)施和大規(guī)模合成數(shù)據(jù)生成,快速統(tǒng)一工業(yè)生態(tài)系統(tǒng)并構(gòu)建新應(yīng)用,助力AI工廠的實(shí)現(xiàn)。
這些世界模型為物理AI提供“認(rèn)知底座”,提供對(duì)物理世界的結(jié)構(gòu)化理解;物理AI則作為世界模型的“應(yīng)用載體”,通過(guò)工程化設(shè)計(jì)使其適應(yīng)真實(shí)場(chǎng)景的嚴(yán)苛要求。二者的深度整合,正從數(shù)據(jù)驅(qū)動(dòng)的效率優(yōu)化邁向認(rèn)知驅(qū)動(dòng)的智能重構(gòu),這將明顯提升工業(yè)系統(tǒng)的自主決策能力與復(fù)雜場(chǎng)景適應(yīng)性。
在AI工廠內(nèi),物理AI基于物理原理能夠充分理解并精準(zhǔn)模擬工業(yè)設(shè)備的運(yùn)行狀態(tài)與未來(lái)狀態(tài),大幅提升生產(chǎn)效率與設(shè)備智能化程度。例如基于過(guò)往運(yùn)行數(shù)據(jù)和物理規(guī)律,工廠能進(jìn)行更精準(zhǔn)的預(yù)測(cè)性維護(hù),機(jī)器人等設(shè)備則能實(shí)時(shí)感知環(huán)境變化并基于物理規(guī)律做出精準(zhǔn)動(dòng)作調(diào)整,增強(qiáng)生產(chǎn)靈活性與協(xié)同性,全方位提升工業(yè)智能化程度。
物理AI以世界模型為數(shù)字引擎,正在賦予工業(yè)系統(tǒng)完整智能閉環(huán),推動(dòng)工業(yè)智能化從“被動(dòng)響應(yīng)”向“主動(dòng)進(jìn)化”躍遷。
Omniverse加速物理AI訓(xùn)練,推進(jìn)AI工廠制造升級(jí)
不論是基礎(chǔ)的生成式AI模型、VLA多模態(tài)模型還是推進(jìn)物理AI實(shí)現(xiàn)的世界模型,都需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練優(yōu)化。這就涉及真實(shí)數(shù)據(jù)與合成數(shù)據(jù),特別是在工業(yè)場(chǎng)景,采集大量用于訓(xùn)練的真實(shí)數(shù)據(jù)存在一定難度,且場(chǎng)景的多模態(tài)數(shù)據(jù)很難統(tǒng)一在同一個(gè)標(biāo)定尺度內(nèi),而這些數(shù)據(jù)不經(jīng)過(guò)精確統(tǒng)一標(biāo)定就無(wú)法被用來(lái)訓(xùn)練學(xué)習(xí)。這也是為什么來(lái)自傳統(tǒng)系統(tǒng)的海量數(shù)字和物理世界數(shù)據(jù)容易形成多個(gè)孤島,無(wú)法被充分利用起來(lái)。
對(duì)齊部分真實(shí)數(shù)據(jù)生成大量可控的符合物理規(guī)律的合成數(shù)據(jù),在物理AI模型部署到現(xiàn)實(shí)世界之前進(jìn)行仿真測(cè)試和調(diào)試,成為提高開(kāi)發(fā)效率的一條路徑。這也是NVIDIA推出Omniverse的原因之一,幫助開(kāi)發(fā)者統(tǒng)一物理世界的數(shù)據(jù)和應(yīng)用,實(shí)現(xiàn)物理AI的大規(guī)模合成數(shù)據(jù)生成。
根據(jù)不同的任務(wù),Omniverse聚合現(xiàn)實(shí)世界中的傳感器數(shù)據(jù),隨后對(duì)世界模型進(jìn)行調(diào)控,將原始采集數(shù)據(jù)拓展生成為大量高度逼真且多樣的數(shù)據(jù),借助被Cosmos與Omniverse增強(qiáng)后的數(shù)據(jù)集,設(shè)備運(yùn)營(yíng)策略能夠在數(shù)字孿生中進(jìn)行充分的模擬訓(xùn)練。
Cosmos與Omniverse提供了一個(gè)在真實(shí)世界可采集的數(shù)據(jù)之外,擴(kuò)展逼真訓(xùn)練數(shù)據(jù)的機(jī)會(huì)。據(jù)了解,領(lǐng)先的工業(yè)軟件和服務(wù)提供商如Ansys、Databricks、Dematic、Omron、SAP、Schneider Electric with ETAP、西門子等正在將NVIDIA Omniverse平臺(tái)集成到他們的解決方案中,利用Omniverse加速物理AI訓(xùn)練推動(dòng)工業(yè)數(shù)字化。
在GTC2025的主題演講中,黃仁勛就展示了如何基于Omniverse Blueprint開(kāi)發(fā)應(yīng)用,以規(guī)劃、優(yōu)化和模擬一座AI工廠。Omniverse使用OpenUSD庫(kù),使來(lái)自不同來(lái)源的3D數(shù)據(jù)得以聚合在一起,為所有數(shù)據(jù)源提供通用語(yǔ)言。在合成數(shù)據(jù)與部分真實(shí)數(shù)據(jù)的實(shí)時(shí)仿真下,AI工廠配置能夠?qū)崟r(shí)調(diào)整,并立即看到影響,進(jìn)而繼續(xù)改進(jìn)??梢哉f(shuō)Omniverse既打破了工程團(tuán)隊(duì)中的設(shè)計(jì)壁壘,還加速了工廠決策制定與基礎(chǔ)設(shè)施建設(shè),同時(shí)降低了在現(xiàn)實(shí)世界中測(cè)試所產(chǎn)生的成本和風(fēng)險(xiǎn)。
其實(shí)在工業(yè)制造走向物理AI的過(guò)程中,工業(yè)代理式AI與工業(yè)智能體概念已經(jīng)呼之欲出。在GTC上NVIDIA就提到過(guò)正在將AI智能體集成到Omniverse中,并展示了工業(yè)視覺(jué)AI智能體的應(yīng)用。
在工業(yè)智能化升級(jí)的轉(zhuǎn)折點(diǎn)上,AI智能體不再是被動(dòng)的算法工具,而是被賦予了理解能力與協(xié)作能力的智能工作節(jié)點(diǎn)。從單個(gè)應(yīng)用節(jié)點(diǎn)來(lái)說(shuō),在場(chǎng)景感知與物理推理的基礎(chǔ)上,智能體能應(yīng)用到極其細(xì)分的工業(yè)應(yīng)用上,如上面提到的視覺(jué)應(yīng)用。從工業(yè)全局場(chǎng)景來(lái)看,智能體能夠聚合場(chǎng)景內(nèi)IT與OT信息并提供自主運(yùn)營(yíng)決策,這也是傳統(tǒng)工廠向AI工廠升級(jí)的可預(yù)見(jiàn)方向。
從代理式AI到物理AI,工業(yè)世界正在向軟硬共生軟件定義轉(zhuǎn)型,圍繞物理AI體系搭建的模型與平臺(tái),為AI快速進(jìn)入到工業(yè)應(yīng)用提供了一條路徑。
寫在最后
隨著物理AI與世界模型技術(shù)進(jìn)一步迭代,有望打破物理世界與數(shù)字世界的最后壁壘。特別是在工業(yè)領(lǐng)域,二者融合正在讓每一臺(tái)工業(yè)設(shè)備都成為智能節(jié)點(diǎn),讓每一條工廠產(chǎn)線都成為進(jìn)化單元,最終構(gòu)建起自感知、自決策、自執(zhí)行、自優(yōu)化的下一代智能工業(yè)體系。