作者 |??程茜,編輯?|??心緣
稚暉君的新機器人指明了家庭機器人發(fā)展方向?
稚暉君的人形機器人又雙叒叕進化了!
智東西3月11日報道,今天,智元機器人正式發(fā)布最新全能探索機器人“團寵”——靈犀X2,智元機器人創(chuàng)始人兼CTO稚暉君稱,X2集運動、交互、作業(yè)能力為一體,是第一臺真正具備復雜交互能力的靈動機器人。
X2體重33.8千克,全身28個自由度。靈犀X2的命名寄予了他們對機器人的憧憬:希望它既靈動又犀利。
這一新“團寵”集三大能力為一體:支持高自由度運動能力的雙足人形機器人、搭載情感計算引擎的智能交互機器人、初步具備通用任務執(zhí)行能力的具身機器人。X2在運動方面,能騎平衡車、滑板車、自行車;交互方面,可以基于動作、視覺、語音模型和人類實時自然交流;作業(yè)能力方面,擁有簡單任務的泛化能力。值得一提的是,為了讓機器人更像人,X2集成的多模態(tài)交互大模型硅光動語中的動作模塊,還讓其擁有了仿人的小動作,比如坐在椅子上晃腳、走路擺手等。
作為B站百萬up主,這也是稚暉君時隔兩年的首次重磅更新,他特意錄制了12分10秒的視頻將X2從里到外介紹了個清楚。X2的研發(fā)耗時三個月,這條視頻準備時間長達一個月。稚暉君視頻B站播放量已超66萬。評論區(qū)的網(wǎng)友,一邊感慨看到了未來家用機器人的雛形、民用機器人真正實用發(fā)展方向,并預言這款機器人“已經(jīng)可以大賣了”,另一邊有人在感慨“這種機器人大規(guī)模發(fā)展了,人類該怎么辦”。
01.像搭積木一樣攢硬件系統(tǒng)讓機器人不再“鋼筋鐵骨”
研發(fā)人員在靈犀X2的本體設計上下足了功夫。
首先來看硬件系統(tǒng),智元機器人的研發(fā)人員讓其變得像搭積木一樣簡單。
他們將機器人的硬件系統(tǒng)抽象成一系列可復制的核心組件,包括小腦控制器Xyber-Edge、域控制器Xyber-DCU、智能電源管理系統(tǒng)Xyber-BMS、核心關節(jié)模組Powerflow。
就像無人機愛好者們通過集成飛行控制器這一核心組件,自主組裝或定制具備高智能化、自動化功能的無人機系統(tǒng),開發(fā)者也能用這些核心組件快速搭建起一套可靠的人形機器人系統(tǒng),或者各種形態(tài)的人形機器人系統(tǒng),甚至是稚暉君一直鴿的“哪吒完全體”。
其次是機體材料選擇,與此前鋼筋鐵骨的機器人不同,X2皮膚軟軟的。
據(jù)透露,他們?yōu)閄2嘗試了TPU、ETPU、EVA等各種材料,這些材料通常被用于鞋底減震緩沖,甚至還嘗試了美妝蛋,最終選定了親和的柔性材料。
02.全身關節(jié)仿人體串聯(lián)結構訓練早期像小朋友學走路
讓人形機器人能自如運動,需要靈活的身體和強大的運控算法。
X2的原型機全身自由度28個,在機電關節(jié)設計上采用串聯(lián)結構,沒有使用任何一個并聯(lián)結構,能同時保證慣量上移和傳動鏈完全解耦。
傳統(tǒng)機器人常采用多連桿并聯(lián)機構以增強剛度,但會增加機械耦合和控制難度。串聯(lián)結構是類似于人類骨骼結構的關節(jié)設計,可以降低機器人的整體重量。
硬件拉滿,運控算法也要全面突破。
當前足式機器人的運動控制從傳統(tǒng)的model-based的方法轉向強化學習,結合深度強化學習和模仿學習算法的優(yōu)勢,X2能像人一樣走路、能跑、能轉或者跳一點小舞。
X2在視頻里跳起了短視頻平臺熱門舞蹈“科目三”。
不過,X2前期的學習過程并不是一帆風順,稚暉君說:“教育小朋友總是需要一些耐心?!?/p>
訓練初期的X2學習跑偏實錄如下:
莫名奇妙學到了抽象的走路方式,像螃蟹一樣橫著走、跳著往后蹦。
或者像小朋友一樣一言不合躺地上耍賴。
甚至還有情緒激動 ,愛跺腳的機器人。
視頻還展示了拿著塑料杠鈴鍛煉的X2。
最后,X2總算苦盡甘來,擁有了更強的運動智能水平——學會使用“懶人工具”。點滿運動天賦的X2,學會了騎滑板車、平衡車。
甚至是難度更高的騎自行車:
這種數(shù)據(jù)驅(qū)動的算法范式,使得智能體能從每秒數(shù)萬次的環(huán)境交互和動作數(shù)據(jù)中突破運動智能的瓶頸。
03.多模態(tài)交互大模型硅光動語首臺具備復雜交互能力靈動機器人
雖然X2四肢發(fā)達,頭腦也并不簡單。
研究人員為其開發(fā)了一套基于Diffusion的生成式動作引擎,讓X2擁有了和人自然交互的能力。借助大語言模型,其為X2訓練了定制的多模態(tài)交互大模型硅光動語,光就是視覺、動是動作、語是語音,稚暉君說,X2是第一臺真正具備復雜交互能力的靈動機器人。
通過邊緣側大腦端到端的模型架構以及大量工程優(yōu)化,X2擁有毫秒級交互反應,能通過人類的面部表情和語音語調(diào)精準判斷情感狀態(tài),并做出相應的回應。稚暉君演示了一個神奇的“自己”和自己對話的景象。X2使用稚暉君聲音進行訓練,和他談論了看電影、掉河里該救誰的世紀難題等。
視頻中,X2能自如聊天,接話時幾乎沒有延遲,講話時手部還會有相應動作,在問到“這些問題有哪些是預先設置的”,X2給出了“完全隨機”的回答。
基于多模態(tài)交互大模型硅光動語,X2可以通過視覺理解和認識世界。當稚暉君舉起X2的胳膊放到機器人面前時,它準確識別出了自己的胳膊還有材質(zhì)。
它還能準確說出手機上的時間、識別出萬用表、讀出包裝盒上的使用說明書等。
硅光動語集成的動作模態(tài),讓X2有了“生命感”,它像人一樣擁有了呼吸的韻律、好奇心、注意力機制,還會在走路時伴隨一些仿人的小動作。
甚至在人機交互方面,X2可以與用戶進行遠程裸眼3D交流。
目前,智元機器人正在完善X2的思維模型,結合硅光動語大模型,將Reaction-Agent作為情感計算引擎,未來賦予機器人更多情緒表達的能力。
04.簡單任務能零樣本泛化讓機器人入職“吉祥三保”
一個完美的機械伙伴,除了情緒價值,還需要泛化作業(yè)的能力。
研究人員將操作智能的能力遷移到X2上,其本體支持柔性阻抗控制,能裝配包括靈巧手在內(nèi)的末端。
X2完成精細操作也不在話下,上演了“葡萄穿針”的絕活。
具身智能方面,智元機器人開源了業(yè)界最大的具身真機和仿真數(shù)據(jù)集之一,提出RoboDual的大小腦系統(tǒng)架構以及基于ViLLA架構的基座大模型啟元。
通過一腦多形的“啟元”大模型,X2初步具備簡單任務對操作物體的零樣本泛化能力,例如從貨架上取物品:
X2還能可在某些任務中實現(xiàn)多機協(xié)作,比如給同伴充電:
稚暉君談道,這使得機器人的能力可以外溢到日常生活的方方面面實現(xiàn)機器人的“吉祥三保”,即保安、保姆、保潔,同步應用于教育、醫(yī)療等多個領域。
同時,靈犀X2采用輕量化設計,可模塊化拓展,擁有完備的二次開發(fā)接口,以及預訓練模型和“采-訓-推”一站式方案,用戶可根據(jù)需求自由探索,為康養(yǎng)、服務、家庭陪伴等各類場景打造應用,實現(xiàn)“人形機器人人人玩”。
05.結語:X2展現(xiàn)家用機器人的實用主義雛形
盡管從人形機器人的各項能力來看,X2并不是最頂尖的,但其展現(xiàn)出的已有能力正是未來人形機器人走入家庭,或者走入各行各業(yè)需要具備的基本能力。不論從硬件系統(tǒng)、軟件算法還是關節(jié)結構來看,智元機器人都考慮到了人形機器人大規(guī)模落地普及的趨勢。未來,基于人形機器人在運動、作業(yè)和交互方面的能力,或許可以在不同場景通過模塊化設計,讓人形機器人深入陪伴、教育、清潔等諸多場景。
(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權,禁止隨意轉載。)