• 正文
    • 2022年開門紅,“數(shù)字人”融資累計金額逾4億
    • 數(shù)字人研發(fā)門檻有多高?
    • 算力、算法、AI模型的協(xié)同優(yōu)化必不可少
    • 數(shù)字人:好看的皮囊下,AI交互是硬核
    • 寫在最后
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

冬奧會火出圈的數(shù)字人,三條鐵律見證發(fā)展

原創(chuàng)
2022/02/18
617
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

數(shù)字人,真不是人,但是正在輔助人、取代人。

這屆冬奧會上,數(shù)字人很忙。

沖擊三項項目的谷愛凌也很忙,但賽前還在咪咕演播室“趕通告”。不過,這不是她本人,而是她的數(shù)字分身Meet GU,這是一個以谷愛凌為原型的亞毫米級超寫實數(shù)字人。Meet GU的外形、聲音、神情、妝容,都與谷愛凌本人相似度較高,甚至毛孔細節(jié)、皮膚質感和顏色都做到了1:1還原。Meet GU是中國移動咪咕視頻推出的體育數(shù)字達人,她還將在演播室完成滑雪賽事解說、播報及場景電商的虛擬互動等工作。

事實上,不止運動員數(shù)字分身這一項,數(shù)字人已經滲透到賽場內外多個環(huán)節(jié)。

徐夢桃奪冠背后,竟然有個虛擬教練“觀君”,他已經在自由式滑雪空中技巧運動隊“服役”了三年之久,會針對運動員的每一跳做出專業(yè)判斷,嚴格判別扣分動作。有了這些數(shù)據后,教練員便可以給予運動員更加精準的指導。

此外,冬奧會上還有負責“冬奧觀賽氣象指數(shù)”播報的主播“馮小殊”;“百度智能云曦靈”數(shù)字人平臺的AI手語主播,承擔手語翻譯;阿里巴巴的冬奧宣推官數(shù)字人“冬冬”,兼任特約記者、帶貨主播;科大訊飛的3D虛擬冰冰,有著酷似央視主播王冰冰的眉眼和神韻,還解鎖了東北話、英語等多達31種語言技能;拓爾思旗下的“小思”,連續(xù)進行冬奧熱點播報的同時,還可以進行自動采編、智能寫稿、虛擬播報等……

自去年開始,“數(shù)字人”賽道熱度一路攀升,各種形態(tài)和“人設”的數(shù)字人屢見不鮮。清華學生“華智冰”,“鄧麗君”和粉絲“見面唱歌”,還有在金融、傳媒、文旅、城市管理等多個領域的應用……數(shù)字人似乎正在突破現(xiàn)實與虛擬的邊界,越來越貼近我們的現(xiàn)實生活。

2022年開門紅,“數(shù)字人”融資累計金額逾4億

啟信寶數(shù)據顯示,2020~2022年,數(shù)字人相關企業(yè)數(shù)量逐漸呈現(xiàn)快速增長趨勢。其中,2020年數(shù)字人相關企業(yè)新增數(shù)量為36080家,到2021年,新增數(shù)量是66293家。截至目前,國內數(shù)字人相關企業(yè)存續(xù)數(shù)量超16萬家。2022年開年不到一個月的時間,數(shù)字人領域融資數(shù)量已有近百起,融資金額達4.11億元。


圖:2020年-2022年,數(shù)字人相關企業(yè)數(shù)量變化(來源:啟信寶,截至2022年1月17日)

在元宇宙概念下,去年的硬件軟件市場都異常熱鬧。有人試圖在硬件產品的新舊交替期搶占市場,有人想在新的賽道上一馬當先……在元宇宙這個相對肆意暢想的虛擬超現(xiàn)實藍圖中,其中就包括數(shù)字人、數(shù)字工廠、數(shù)字城市乃至所有現(xiàn)實元素的可數(shù)字化、虛擬化。

數(shù)字人并非依托元宇宙而產生,但元宇宙的火爆一定程度上帶動了數(shù)字人的熱潮。相比元宇宙,數(shù)字人作為一個更具象的概念,疊加疫情下虛擬內容需求的增加、相關硬件的快速發(fā)展,成為元宇宙風口之中的“風口”。

在與一些業(yè)內人士的交流中收到這些反饋:“數(shù)字人是元宇宙中落地最快的一個應用場景”、“數(shù)字人會是元宇宙的核心,承擔關鍵的交互”……一位投資人表示,“能明顯感覺到數(shù)字人在2021年下半年比上半年熱很多,元宇宙開始從一個不落地的概念慢慢落地下來”。

數(shù)字人研發(fā)門檻有多高?

與語音助手等AI數(shù)字助理相比,數(shù)字人要達到的標準更高。外觀效果、交互自然流暢度,是兩個被評判的核心指標。前者涉及CG建模及驅動模型的精細程度,后者主要需要具備NLP對話模型中的語義理解、多輪對話,上下文理解能力等。

以本次冬奧會的百度AI手語主播為例,探討一下研發(fā)一款AI手語主播有多難?

從外形看,對比以往的虛擬主播形象,AI手語主播不僅高度還原真人發(fā)膚,且在立體感、靈活度、可塑性上都有大幅提升。為了讓“她”完成承擔手語主播工作,百度智能云首先建立了規(guī)模龐大的手語動作庫,基于《國家通用手語詞典》規(guī)范,結合動作捕捉設備和真實手語老師的雙向調優(yōu),精修近1萬個手語動作,保證了手語表達的動作準確性。同時首創(chuàng)4D掃描技術,使得AI手語主播表情自然生動,口型生成準確度高達98.5%。

此外,通過機器翻譯技術,百度智能云構建出一套精確的手語翻譯引擎,可懂度達到85%以上,結合語音識別技術,可將冰雪賽事的文字及音視頻內容轉化為手語;同時再通過專為手語優(yōu)化的自然動作引擎,完成AI手語主播的動作驅動,實時演繹為數(shù)字人的動作、表情和唇語。這保證了AI手語主播具備高可懂度的手語表達能力和精準連貫的呈現(xiàn)效果。

據百度方面表示,數(shù)字人要為人類提供服務、與人自然地交流,背后需要強大的知識體系和對話能力支撐。百度知識圖譜積累的5500億知識,幫助數(shù)字人擁有“自己”的經驗和認識去思考?;诎俣热ツ臧l(fā)布的百億參數(shù)對話模型PLATO,數(shù)字人才可以跟用戶進行有料、有趣、有情感的交流。

算力、算法、AI模型的協(xié)同優(yōu)化必不可少

建模、AI、動作捕捉、渲染是開發(fā)數(shù)字人的關鍵技術,而這些都離不開算力的支撐。算力直接影響了是否可以進行實時渲染、互動,從而可能會進一步限制到實用場景,是打造和應用的關鍵基礎。

思騰合力是AI服務器與HPC基礎架構解決方案商,該公司AI算法工程師莊翔寧告訴<與非網>,數(shù)字人的開發(fā)需要用到計算機圖學、圖形渲染、動作捕捉等等,因此在即時響應性能方面會有一定程度算力的需求。

此外,為了滿足即時響應的需求,在訓練的模型上,有必要進行模型壓縮,抑或是一開始就避免將訓練模型設計得太復雜,以免影響到應用時運行的速度。思騰合力在圖形預處理和模型壓縮方面,通過自研算法來降低影像或視頻的解析度,但保留重要核心判定的物體。

他補充,在模型壓縮及布署方面,除了精簡訓練模型外,也可以通過壓縮方式進一步精簡其超參數(shù),最后通過模型布署的方式簡化應用模型。

由此可見,一款數(shù)字人的打造和成功應用,算力支持必不可少,但是算法、模型的協(xié)同優(yōu)化也非常關鍵,不論是提升即時響應能力,還是數(shù)字人的人格化訓練,以及使數(shù)字人具備一定的知識體系、互動能力等,都是數(shù)字人實現(xiàn)動態(tài)性、交互性的關鍵支柱。

數(shù)字人:好看的皮囊下,AI交互是硬核

從數(shù)字人當前的投資方向看,大多數(shù)集中在數(shù)字人主播、數(shù)字人偶像等制作上。一位投資人表示,目前,AI賦予數(shù)字人的交互能力在一級市場更受關注,可惜這樣的好項目并不多。

數(shù)字人仍處于發(fā)展初期,業(yè)界當前首先在命名上就有很多方式:數(shù)字人、虛擬人、數(shù)智人、虛擬數(shù)字人數(shù)字孿生、虛擬替身、數(shù)字分身等等,這也從一定程度上體現(xiàn)了它所處的發(fā)展階段——就像任何剛剛起跑的新事物一樣,難免有概念和定義上的紛爭。

根據《虛擬數(shù)字人深度產業(yè)報告》,這些命名都可以指代由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等手段打造出來的具有人類外貌特征、表演能力、交互能力等等的非物理世界產物。

《中國虛擬數(shù)字人影響力指數(shù)報告》則從未來媒體形態(tài)和服務模式對虛擬數(shù)字人進行了定義:計算機圖形學、語音合成技術、深度學習、類腦科學、生物科技、計算科學等聚合科技(Converging Technologies)帶來語義傳播與無障礙傳播的新空間,由此誕生的虛擬數(shù)字人將以新媒介角色,廣泛應用在元宇宙新生態(tài)中,擔任著信息制造、傳遞的責任,是元宇宙中“人”與“人”、“人”與事物或事物與事物之間產生聯(lián)系或發(fā)生孿生關系的新介質。

從以上定義中,可以提煉出數(shù)字人的三大發(fā)展特征:第一,它是聚合科技的產物;第二,兼具人類外形和內在,交互能力是關鍵;第三,未來更大的市場存在于行業(yè)應用新生態(tài)中,也就是說,它需要在更多的創(chuàng)新方向、下沉市場中找到更多的價值空間。

把冰冷的人機交互變成更加有真實體感的交流,或是作為真實人類的數(shù)字分身來幫助交流,這些都是數(shù)字人正在做的。未來,只要有交互需求的地方,數(shù)字人都會有用武之地,而這也是數(shù)字人當前最大的考驗。

寫在最后

數(shù)據顯示,2030年,圍繞虛擬數(shù)字人我國將會形成一個高達2700億的藍海市場(量子位《虛擬數(shù)字人》報告)。但現(xiàn)階段,數(shù)字人仍面臨著開發(fā)門檻高、成本高、制作周期長、難以批量產出等挑戰(zhàn),這與元宇宙“人人都有一個數(shù)字分身”的愿景還有著巨大的鴻溝,也是當前需要著力解決的問題。

下一步,數(shù)字人將重點向融合文字、聽覺、視覺、肢體動作甚至觸覺等多模態(tài)交互的方式演進,除了在to B服務領域持續(xù)發(fā)力外,在生活服務中也會為C端用戶帶來更多陪伴、信息交互以及更深的情感鏈接,帶來有溫度的交流體驗。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據手冊 ECAD模型 風險等級 參考價格 更多信息
BT136S-600E,118 1 WeEn Semiconductor Co Ltd 4 Quadrant Logic Level TRIAC, 600V V(DRM), 4A I(T)RMS, TO-252AA, PLASTIC, SC-63, TO-252, DPAK-3/2

ECAD模型

下載ECAD模型
$0.89 查看
DF3-2428SCFC 1 Hirose Electric Co Ltd Wire Terminal, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.13 查看
CRCW040220K0FKEDC 1 Vishay Intertechnologies Fixed Resistor, Metal Glaze/thick Film, 0.063W, 20000ohm, 50V, 1% +/-Tol, 100ppm/Cel, Surface Mount, 0402, CHIP

ECAD模型

下載ECAD模型
$0.08 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄