請大家跟我想象一下,假如你的世界里突然沒有了電,會是怎樣?沒有了鬧鐘和手機,沒有了燈光與網絡,也沒有了電腦地鐵和飛機……
一切現代生活的便利,都源于 1752 年 6 月的一個雷雨天,富蘭克林放飛了他的風箏,讓世界“看到”了電——當時被認為是最神秘、也是最危險的力量之一。
近幾年來,人們面對城市中日益增多的智慧攝像頭,或多或少都會懷抱著如同“雷電”一樣的警惕。無數科幻電影都告訴我們,當走在路上的自己被電腦錄入,出行軌跡就有可能被隨時偵查到……
顯然,這并不是因為人工智能(人臉識別)技術太強大,而是因為它還不夠強大,至少在大眾應用層面是如此。舉個例子,想要在精準識別與個人隱私之間達到平衡,行人重識別(Person Re-identification,簡稱 ReID)就是一個非常有用的計算視覺技術。
因為它能夠通過質量并不高的人臉圖片,快速檢索出不同攝像頭下的同一個目標任務。
這會帶來什么改變呢?
首先,人的臉和指紋一樣獨特,而 ReID 技術無需依賴高精度的人臉圖像,也就避免了人們在公共場合被采集個人信息的憂慮;同時,ReID 分辨率夠高,在一些人臉識別無效的情況下,可以起到替代作用。
因此,ReID 也成為計算視覺科技企業(yè)們攻關的對象。最近,依圖科技在 ReID 領域取得突破,刷新全球工業(yè)界三大權威數據集當前最優(yōu)成績(SOTA),算法性能達到業(yè)界迄今最高標準。
這一標準意味著什么,能否成為 ReID 產業(yè)化的關鍵契機?
產業(yè)新動力:ReID 的價值與門檻
本杰明·富蘭克林和他的風箏實驗,代表了人類邁出了現代文明旅程的第一步。在那之前,沒人能想象有電的生活;而今天,數十億人已經無法想象沒有電的生活了。
時代的需求和社會風俗的推動(很多時候是阻撓),總會有人為技術的進程助力。ReID 即是如此。
相信大部分人都不會否認,人臉識別 / 計算視覺在城市中的應用,正在給生活帶來越來越多的便利。
比如通過智能攝像頭來識別車流、車牌,實現高效率、低成本的安防;在火車站、機場等公共場所部署 AI,實現犯罪分子的偵查和捕獲;幫助無人購物超市和商店提高用戶體驗;
再比如大家最熟悉的手機相冊,想要讓系統(tǒng)在不侵犯隱私的情況下實現照片聚類,ReID 都是不可或缺的技術。
2018 年,特朗普政府決定在美國南部墨西哥邊境追查非法入境者時,大眾就擔心 ICE 和其他移民機關可能會把人臉識別應用,從而導致錯誤辨識某個人并使其被錯誤拘留?因為在當時,人臉識別對于有色人群或女性的識別錯誤率依然很高。
既然 ReID 技術能夠讓智能生活變得更精準有序,那為什么久攻不下呢?這恐怕要從三個技術難點說起。
1. 數據缺失。
我們知道,當前大多數攝像頭的成像質量、分辨率、環(huán)境變化等差異都很大。在交通運輸、工業(yè)制造和城市規(guī)劃等實際場景下,99%的圖像都是不含人臉或人臉部分是極其模糊的,僅有幾個像素大小,這也導致在許多任務中,人臉識別算法經常失效,需要 ReID 頂上。
而一個高精準的 ReID 模型,要識別同一個人在多個攝像頭下的畫面,意味著其訓練需要足夠龐大、且具備連續(xù)性的行為數據。但與其他計算視覺任務相比,ReID 領域的公開數據集所含的 ID 數量比較小,不同攝像頭的數據中同一個人的外觀也可能發(fā)生巨大變化,這些都給算法分析造成了阻礙,需要在算法設計上做很多創(chuàng)新與研發(fā)。
2. 計算壓力。
如前所述,ReID 往往被部署到規(guī)模人群的行為軌跡分析上,這意味著系統(tǒng)需要處理的數據規(guī)模成倍增長。即使是采取 1:N 級(單一特征對比多種特征)的人臉識別,用來失蹤人口搜索等。加上角度、光線等復雜性,特征提取、對比、判斷都需要龐大的算力來支撐。
但現有的智能攝像機在本地終端無法部署足夠大的算力,往往會選擇將數據上傳到云端,再進行識別和處理,不僅會造成一定的時延,延誤眾多關鍵任務;也有可能導致城市大腦“數據擁塞”,延宕整個系統(tǒng)的效率。
3. 成本限制。
那么,為什么不考慮為攝像頭等邊緣終端加上芯片呢?答案就是貴。高通量計算芯片往往意味著更高的性能和穩(wěn)定性,制程上自然也要求更小的納米數,而 ReID 需要在泛工業(yè)場景中部署,如果為城市或工廠中的每個攝像頭都加載這樣高算力的 ReID 芯片,無疑是一筆巨大的開支,這也限制了 ReID 算法在大規(guī)模商業(yè)化場景中的落地。
顯然,想要讓 ReID 從一種技術遠景完全照進現實,其所面對的困難和障礙并不小。這也是為什么,我們一直關注著致力于用 ReID 改善體驗的公司。
用電子編織現實:依圖這樣改變 ReID
如果說富蘭克林的風箏讓人類開始與電建立了聯(lián)系。那么,電力真正開始產生規(guī)模經濟,是從喬治·威斯汀豪斯(George Westinghouse)開始。他以交流電系統(tǒng)擊敗了愛迪生的直流電系統(tǒng),從而讓發(fā)電廠與遠距離的用戶連接在一起。
而依圖在 ReID 中的表現,正如這場世紀對壘一樣,對 ReID 的現實落地起到了關鍵作用。
為什么這么說呢?
首先,依圖升級了 ReID 算法的開發(fā)流程。通過結合 AutoML 等前沿技術,依圖創(chuàng)新性地實現了模型參數的自動搜索與迭代,改變了算法依賴研究員手工設計與調優(yōu)的傳統(tǒng)開發(fā)流程。不僅降低了模型的訓練成本,也讓算法的泛化性更強。
其次,進一步提升了 ReID 算法的識別性能。依圖自研算法在業(yè)界最具影響力的三大 ReID 數據集 Market1501、DukeMTMC-ReID、CUHK03 上,將兩大關鍵指標“首位命中率”(Rank-1 Accuracy),以及“平均精度均值”(Mean Average Precision,mAP)6 項數據全部提升,達到了更高的 mAP,目前達到了工業(yè)界第一,從而進一步穩(wěn)固了中國 AI 在該任務上的領跑地位。
此外,ReID 算法的實用潛力持續(xù)進階。在實戰(zhàn)應用中,依圖還依托自研的 AI 芯片 QuestCore(求索), 在僅憑穿著、步態(tài)特征的條件下,將 ReID 做到 2017 年——2018 年人臉識別的精度。當時,機場、火車站等公共場合已經開始大規(guī)模使用人臉識別進行安防保障了。這意味著,ReID 也有望被以低成本的解決方案,盡快進入現實場景之中,讓人們無懼且享受計算視覺帶來的順暢體驗。
目前看來,依圖的創(chuàng)新將帶給 ReID 算法更好的成本比,以及更絲滑的應用體驗,平衡了理想技術與現實困境之間的關系。
挑戰(zhàn)與機遇:ReID 的未來路徑
必須承認的是,要讓城市換一種“眼睛”看行人,并不是一件容易的事。
一方面,各個城市攝像頭體系的建設標準、密度,以及進度都各不相同,要讓它們共同點亮 ReID 的“技能樹”,實現全面替換,還有許多與技術成熟度無關的挑戰(zhàn);
還要面對復雜實景的挑戰(zhàn)。即使 ReID 算法的首位命中率足夠高,只意味著算法能夠在特定的幾個場景數據集下準確找出最容易識別或者匹配的那張。但現實中的場景遠比這有限的幾個數據復雜的多,數據模糊、建筑物遮擋、天氣的改變等等,都會影響模型的實際表現。所以現在認為 ReID 模型能夠應付真實任務,還為時過早。
這也是為什么,盡管依圖科技刷榜 SOTA,算法性能達到了業(yè)界目前的最高標準,但依圖的研發(fā)人員耿直地說,學術界的這三個數據集不能遠遠不代表工業(yè)界的最好水平,更精彩的表現還要放眼于實戰(zhàn)之中。
因為比賽中所采用的數據集,早已限定好了規(guī)模和分布,屬于“應試作業(yè)”;而在依圖實際落地的 ReID 項目中,還會遭遇更加復雜的數據、環(huán)境、參數,是“奧數級別”的挑戰(zhàn)難度。
另外必須正視的一點是,要讓終端攝像頭完成高通量的實時計算,僅僅依靠研發(fā)端的突破還遠遠不夠,城市環(huán)境中是否具有足夠的邊緣計算節(jié)點,是否有邊緣計算數據中心提供澎湃的算力支持,這些都需要整個產業(yè)鏈乃至城市決策者的共同合作。
由此不難發(fā)現,在抵達 ReID 產業(yè)化的旅程中,科技企業(yè)起到了怎樣的作用呢?
以依圖為例,一方面,通過將自身科研優(yōu)勢與新興算法相結合,加快 AI 算法的落地。
比如依圖就將自身在芯片研發(fā)上的硬件能力,與通用化算法相結合,實現了軟硬件協(xié)同開發(fā),不僅取得了刷榜的好成績,更關鍵的是激活了 ReID 與芯片端的融合可能,讓更多的算力需求被釋放,從而帶動芯片產業(yè)乃至整個社會智能的進程。
正如人臉識別逐漸滲透到社會的各個角落,ReID 算法也將成為智能生活不可或缺的一部分。借助 AI 芯片 QuestCore?(求索)和 ReID 模型應用,依圖將催化出多大的商業(yè)富礦,構筑基于 ReID 的新產業(yè)鏈。
1752 年,富蘭克林爬上屋頂放飛一只風箏的時候,可能并沒有想到,他將改變整個世界的科技認知與生產基礎設施。
而 ReID 對城市計算視覺應用的迭代,也將為人類帶來新的視角與光輝,并在不遠的未來成為與我們生活休戚相關的一部分。
廟堂之高,與江湖之遠的疊加,就是依圖乃至整個 AI 產業(yè)所扎根的廣袤土壤。