作者 |??香草,編輯?|??李水青
2024年,機器人真的要接管人類了?
2024年剛過去三周,AI+機器人賽道就迎來爆發(fā)式開局!前有斯坦福機器人大秀廚藝烹飪“滿漢全席”,后有特斯拉擎天柱化身保姆將T恤疊成“豆腐塊”,還有兩家創(chuàng)企的機器人比賽起了煮咖啡。
這邊OpenAI支持的機器人企業(yè)1X剛宣布5億美元融資,那邊創(chuàng)企Figure就宣布旗下機器人入駐寶馬汽車工廠。這似乎印證了英偉達高級科學(xué)家Jim Fan去年年末的一條預(yù)測:2024年將成為機器人爆發(fā)的一年,其重要程度僅次于大型語言模型(LLM),“我們距離物理AI智能體的ChatGPT時刻還有3年?!?/p>
▲Jim Fan稱2024年機器人的重要性僅次于LLM(圖源:X)
然而,機器人企業(yè)“狂歡”之下,其宣傳視頻的真實性、機器人產(chǎn)品的實用性等也引發(fā)了爭議。不少網(wǎng)友指出,這些演示似乎存在剪輯等方面的誤導(dǎo)性工作。
那么具體來看,AI機器人現(xiàn)在都能做些什么?五花八門的行為背后究竟是自主執(zhí)行,還是人為操控?AI機器人賽道目前的發(fā)展處于什么階段?在落地層面還面臨哪些痛點?智東西與開普勒探索機器人首席執(zhí)行官胡德波,優(yōu)必選聯(lián)合創(chuàng)始人、首席技術(shù)官兼執(zhí)行董事熊友軍等從業(yè)者進行了深入交流,尋找這些問題的答案。
胡德波談道,AI機器人最可能先落地的場景主要集中在簡單重復(fù)的、相對可控的任務(wù)上,包括工業(yè)制造場景、倉儲物流場景以及一些危險性的場景等。他認(rèn)為調(diào)用云端大模型所帶來的實時性問題,是落地層面目前最大的痛點。
談到AI機器人落地的痛點,熊友軍從數(shù)據(jù)、場景、安全性以及遷移成本等方面進行了分析。例如現(xiàn)有的訓(xùn)練數(shù)據(jù)大多基于桌面,與實際場景中的應(yīng)用有很大差距,大模型的不可解釋性可能導(dǎo)致類似于語言模型中的“幻覺”等問題。
01.烹飪、煮咖啡、疊衣服斯坦福谷歌特斯拉花式開“卷”
如果說在去年年末,預(yù)告2024年將成為“機器人之年”還只是空喊口號,那么今年以來,斯坦福、谷歌、Figure、特斯拉在不到一個月的時間內(nèi)接連發(fā)布了6項以上的新演示或新進展,則為這一觀點提供了有力的論據(jù)。先是1月4日凌晨,來自斯坦福大學(xué)的三人團隊放出了基于Mobile ALOHA系統(tǒng)的機器人演示視頻,展示了機器人如何完成復(fù)雜的移動操控任務(wù),無論是烹飪、清潔桌面,還是按電梯按鈕并乘坐電梯,都不在話下。
團隊開源了Mobile ALOHA系統(tǒng)的全部軟件、硬件和數(shù)據(jù),從材料清單來看,硬件成本共約3.18萬美元,折合人民幣約22.8萬元。
▲Mobile ALOHA硬件材料清單(圖源:Mobile ALOHA團隊)
據(jù)介紹,Mobile ALOHA是一種用于數(shù)據(jù)收集的低成本全身遠程操作系統(tǒng),在訓(xùn)練過程中,每項任務(wù)只進行了50次演示,其中的關(guān)鍵在于使用Mobile ALOHA收集的數(shù)據(jù)執(zhí)行監(jiān)督行為,與靜態(tài)的ALOHA數(shù)據(jù)協(xié)同訓(xùn)練,可將成功率提高90%。ALOHA則是一個用于雙手遠程操作的低成本開源硬件系統(tǒng),由來自斯坦福、UC伯克利、Meta等機構(gòu)的團隊發(fā)布于去年3月,Mobile ALOHA是在其基礎(chǔ)上的迭代。
Mobile ALOHA一經(jīng)發(fā)布便火爆全網(wǎng),而不到24小時之后,谷歌DeepMind就在1月4日深夜連發(fā)三項新進展AutoRT、SARA-RT和RT-Trajectory,用于提升機器人的速度、數(shù)據(jù)收集以及泛化能力。這三項新進展都基于DeepMind的RT-2模型(Robotics Transformers),這是一種視覺-語言-動作(VLA)模型,可以從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學(xué)習(xí),并將學(xué)到的知識轉(zhuǎn)化為機器人控制的通用指令。
AutoRT是一種用于機器人智能體(Agent)大規(guī)模編排的具身基礎(chǔ)模型系統(tǒng)。機器人首先利用視覺語言模型(VLM)進行場景理解,將描述輸入至大型語言模型(LLM)以得到自然語言指令;隨后在另一個名為“機器人憲法”(Robot Constitution)的LLM的指導(dǎo)下,完善指令以實現(xiàn)更安全的行為。
▲AutoRT工作原理(圖源:DeepMind)
其中,機器人憲法包含三類規(guī)則,分別是基本規(guī)則,機器人不得傷害人類;安全規(guī)則,機器人不得嘗試涉及人類、動物或生物的任務(wù),機器人不得與鋒利的物體(例如刀)互動;具身規(guī)則,如機器人只有一只手臂,則無法執(zhí)行需要兩只手臂的任務(wù)。據(jù)介紹,在7個多月的實地評估中,AutoRT系統(tǒng)可同時安全地協(xié)調(diào)至多20個機器人,收集了包括6650個獨特任務(wù)的7.7萬次機器人試驗。
SARA-RT提出一種自適應(yīng)魯棒注意力機制,在不損失質(zhì)量的前提下將RT模型改進為更高效的版本。在提供簡短的圖像歷史記錄后,最好的SARA-RT-2模型比RT-2模型準(zhǔn)確率高10.6%,速度快14%。
RT-Trajectory是一種通過事后軌跡草圖概括機器人任務(wù)的模型,用于提升機器人的泛化能力。它獲取訓(xùn)練數(shù)據(jù)集中的每個視頻,并在執(zhí)行任務(wù)時將其與機器人手臂夾具的2D軌跡草圖疊加,從而提供實用的視覺提示。在對訓(xùn)練數(shù)據(jù)中未見過的41個任務(wù)進行測試時,由RT-Trajectory控制的機械臂任務(wù)成功率達到63%,而RT-2僅為29%。
1月7日,創(chuàng)企Figure發(fā)布了一則機器人Figure 01煮咖啡的視頻,并強調(diào)該機器人使用端到端的AI系統(tǒng),僅通過觀察人類煮咖啡,即可在10小時內(nèi)完成訓(xùn)練。
據(jù)稱,F(xiàn)igure 01的神經(jīng)網(wǎng)絡(luò)接收視頻訓(xùn)練,輸出運動軌跡。它還學(xué)會了自我修正,如當(dāng)濃縮咖啡沒有擺正時,它會將其調(diào)整到正確的位置。
融資方面的進展也沒落下,1月11日,OpenAI支持的AI和機器人公司1X宣布完成1億美元B輪融資,投資方包括三星NEXT基金、瑞典私募股權(quán)基金EQT等。資金將主要用于將其第二代雙足人形機器人Android NEO推向市場,以及對現(xiàn)有企業(yè)客戶在物流和保安方面的支持。NEO專為日常家庭協(xié)助而設(shè)計,為消費市場中的各種家務(wù)任務(wù)提供多功能支持。
沒過幾天,人形機器人界的“頂流”擎天柱(Optimus)也來湊熱鬧。1月16日,馬斯克發(fā)布了一則擎天柱疊衣服的視頻,瞬間點燃了社交網(wǎng)絡(luò),瀏覽量超過7100萬次。視頻中,擎天柱從身邊的筐中取出一件T恤,兩三下就把它疊成了“豆腐塊”。
1月18日,F(xiàn)igure宣布與寶馬簽署商業(yè)協(xié)議,機器人Figure 01將進入寶馬工廠,在汽車制造過程中“自動執(zhí)行困難、不安全且乏味的任務(wù)”。1月20日,一家來自中國的創(chuàng)業(yè)公司MagicLab發(fā)布了一個人形機器人空翻的視頻,據(jù)稱是電驅(qū)動的人形機器人首次實現(xiàn)空翻。除此之外,MagicLab還展示了這款機器人煮咖啡、做拉花的過程。
02.虛假宣傳or真才實學(xué)?爆火之下真實性、實用性惹爭議
不得不說,開年三個星期,產(chǎn)學(xué)研界都在“狂卷”AI機器人。然而,這些新成果在爆火刷屏的同時也引發(fā)了一些爭議,如演示是否真實、機器人系統(tǒng)是否真的實用等。在Mobile ALOHA演示視頻發(fā)布后,除了贊許外,評論區(qū)也有不少質(zhì)疑的聲音。彭博社專欄作家Karl Smith評價道:“抱歉,我不認(rèn)為這些蝦被完全煮熟了。這又是一場Gemini Ultra式的演示?!?/p>
▲網(wǎng)友質(zhì)疑演示視頻的真實性及機器人的實用性(圖源:X)
說句題外話,看來谷歌在Gemini演示視頻中靠剪輯“造假”的行為確實令人印象深刻,“Gemini式演示”儼然成了一個新的形容詞?!暗牵ㄗ龅牟耍┪兜廊绾??”開發(fā)者Nick Dobos說。
▲網(wǎng)友質(zhì)疑機器人烹飪的實用性(圖源:X)
網(wǎng)友Sarah Roark質(zhì)疑它是由人類遠程操控的:“需要明確的是——這確定不是遠程操控嗎?”
▲網(wǎng)友質(zhì)疑機器人是否為自主模式(圖源:X)
面對這些質(zhì)疑,尤其是對自主模式和遠程操控的爭議,Mobile ALOHA團隊很快在1月6日發(fā)布了一個機器人“翻車”合集進行澄清。實際上,斯坦福同時發(fā)布了多個Mobile ALOHA演示視頻,其中作者之一Zipeng Fu發(fā)布的視頻為自主模式下的操控。
而另一作者Tony Z. Zhao發(fā)布的做“滿漢全席”的演示視頻,則是在混合模式下由人類遠程操作完成,但有很多人誤以為全部的演示都是在自主模式下完成的。
▲混合模式下的Mobile ALOHA(圖源:X)
在澄清視頻中,團隊展示了自主模式下,機器人犯過的一些“愚蠢的錯誤”。比如,你以為它能優(yōu)雅地拿起高腳杯,實際上“手滑”過不少次:
炒好的蝦本該倒入碗中,卻倒在了桌面上,鍋還被燒焦了一半:
炒蝦的過程中,鍋鏟子也時常拿不穩(wěn):
不過在失誤合集的視頻發(fā)出后,網(wǎng)友們不僅沒有落井下石,反而紛紛表示鼓勵?!案兄x分享這些。許多人看到之前的視頻并認(rèn)為機器人是完全自主的,但實際上它是遠程操作的。正如這個視頻所示,自主模式要困難得多!”網(wǎng)友Phil Trubey說。Tony Z. Zhao也回應(yīng)道:“這確實是混合模式,我們真的希望人們可以訪問該項目網(wǎng)站并閱讀論文/代碼!”
“我更喜歡這個視頻,因為它展示了背后的努力和進步。”網(wǎng)友Kevin Hu贊許這種真誠展示背后失誤的行為。
日本創(chuàng)意工作室taziku首席執(zhí)行官田中義弘說:“它并不完美,但換句話說,它可愛又討人喜歡。”
而擎天柱這邊,有眼尖的網(wǎng)友發(fā)現(xiàn)它的右下角似乎有一只手正在遠程控制移動。
馬斯克則是第一時間在評論區(qū)補充:“擎天柱目前還不能自主執(zhí)行疊衣服的操作,但未來肯定能夠在任意環(huán)境中完全自主執(zhí)行此操作(不需要帶有只有一件襯衫的盒子的固定桌子)?!?/p>
▲馬斯克強調(diào)擎天柱非自主完成操作(圖源:X)
和Mobile ALOHA一樣,擎天柱的疊衣服展示也遭到了實用性方面的質(zhì)疑。有網(wǎng)友說:“我媽媽可能已經(jīng)趕走它然后說:太慢了,還是我來吧。”
“它像ALOHA機器人一樣進行遠程操作……在我看來,擎天柱的最大問題是成本?!盇I創(chuàng)企Abacus首席執(zhí)行官Bindu Reddy說。
還有網(wǎng)友覺得它的速度太慢了:“當(dāng)他們試圖統(tǒng)治世界時也會這么慢嗎?如果是這樣的話,我就不用再像以前一樣擔(dān)心終結(jié)者了?!?/p>
03.數(shù)據(jù)少、場景多、實時性差具身機器人落地還要攻破這些難點
這些演示雖然或多或少包含了炒作、包裝的成分,但不可否認(rèn)的是,它們對具身智能機器人這一賽道都做出了不少貢獻。一方面,演示視頻的爆火使得更多人關(guān)注到這個領(lǐng)域;另一方面,它們也展示了在精細的物理操作、低成本解決方案等方面的潛力。對于斯坦福Mobile ALOHA團隊放出的失誤視頻,開普勒探索機器人首席執(zhí)行官胡德波告訴智東西,這不能看作是“翻車”,而是成功背后的必然經(jīng)歷。他認(rèn)為,Mobile ALOHA之所以爆火主要是因為激發(fā)了大家對于機器人在家務(wù)場景中應(yīng)用的期待。在技術(shù)層面,它最大的貢獻在于物理操作的精細程度。做飯、澆花、洗衣服……Mobile ALOHA展示了機器人進入家庭所需要的解決這些瑣碎任務(wù)的能力。
優(yōu)必選聯(lián)合創(chuàng)始人、首席技術(shù)官兼執(zhí)行董事熊友軍同樣認(rèn)為這并不是一種“翻車”,而是技術(shù)發(fā)展的必然過程。在真實場景中通過遙控等方式來收集數(shù)據(jù),能夠為以后的機器人訓(xùn)練打基礎(chǔ),提供更高效的解決方案。談及Mobile ALOHA的主要貢獻,他認(rèn)為這個系統(tǒng)展示了一種低成本的解決方案,如網(wǎng)絡(luò)攝像頭、筆記本電腦等硬件的選取。并且它目前仍處于Demo階段,如果未來投入量產(chǎn),成本將會更低。如果用GPT模型的迭代來比喻,胡德波認(rèn)為AI機器人目前的發(fā)展階段大概相當(dāng)于GPT-2。
具體來說,現(xiàn)階段的機器人已經(jīng)展現(xiàn)出一些智能性和自主性,能夠?qū)W習(xí)并自主完成一些簡單的操作,即機器人的智商得到了顯著的提高。但目前,還沒有像GPT-3一樣能夠大規(guī)模解決問題、形成大量用戶并成為現(xiàn)象級產(chǎn)品的機器人出現(xiàn)。在落地層面,胡德波認(rèn)為最大的痛點在于實時性。由于調(diào)用云端大模型的響應(yīng)時間可能達到秒級,對于需要實時操作的機器人來說,這樣的時延是難以支撐其部署到場景當(dāng)中的。除此之外,熊友軍告訴智東西,數(shù)據(jù)、場景、安全性和遷移成本也是許多企業(yè)面臨的痛點。
訓(xùn)練大模型,首先面臨的就是數(shù)據(jù)收集的問題。訓(xùn)練機器人模型所需要的數(shù)據(jù)不同于訓(xùn)練大型語言模型,不僅需要文本語料,還需要大量的圖片、真實的場景等數(shù)據(jù)。而場景方面,由于現(xiàn)實中的物理環(huán)境非常復(fù)雜,現(xiàn)有的訓(xùn)練大多都基于桌面,距離實際落地到生活中差距還很大。
安全性方面,由于大模型是黑箱操作,很多行為都不具有可解釋性。在語言模型中,如果出現(xiàn)錯誤等“幻覺”問題,可能只是會誤導(dǎo)用戶,而機器人模型一旦出現(xiàn)錯誤,則有可能對環(huán)境或人類產(chǎn)生危害,造成不可挽回的后果。
最后,從訓(xùn)練遷移到真實場景的成功率仍然很低,需要很多工程師花費大量精力去解決這些問題,因此遷移成本很高,要達到99%以上的準(zhǔn)確性和可靠性還有很長的路要走。雖然AI機器人落地仍面臨諸多難題,但熊友軍對此也持樂觀態(tài)度。
AI機器人賽道關(guān)注度高,獲得了諸如前文所述的很多公司、資源投入,再加上AI技術(shù)的飛速發(fā)展,這兩年所取得的進度比過去十年都要多??偟膩砜?,胡德波談道,AI機器人最可能先落地的場景主要集中在簡單重復(fù)的、相對可控的任務(wù)上。一是制造場景,其中包含大量輔助性的、相對比較簡單的工作;二是倉儲物流場景,包括分揀、搬運等一些重復(fù)性的體力勞動;三是危險場景,如核電站、化工廠、軍工廠等地的巡邏巡檢。
04.結(jié)語:機器人“接管人類”為時尚早
能自主做飯清潔疊衣服的機器人固然吸引眼球,不過冷靜下來再看,我們會發(fā)現(xiàn)這些機器人仍需要人類遠程操控,在完全自主的模式下則表現(xiàn)得“笨手笨腳”,離真正的智能還有一定距離。數(shù)據(jù)、場景、安全性等問題仍是機器人的“致命弱點”,欣慰的是,我們已經(jīng)看到DeepMind等機構(gòu)在這些方面取得了更多進展。無論如何,企業(yè)和機構(gòu)的“卷”是件好事,我們期待在2024年看到AI機器人學(xué)會更多技能,在進入工業(yè)、家庭等場景的路上走得更遠。