• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

中國(guó)團(tuán)隊(duì)國(guó)際首創(chuàng)存算一體排序架構(gòu) 攻克智能硬件加速難題

7小時(shí)前
492
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2025年6月25日,北京大學(xué)團(tuán)隊(duì)在智能計(jì)算硬件方面取得領(lǐng)先突破,國(guó)際上首次實(shí)現(xiàn)了基于存算一體技術(shù)的高效排序硬件架構(gòu)(A fast and reconfigurable sort-in-memory system based on memristors),解決了傳統(tǒng)計(jì)算架構(gòu)面對(duì)復(fù)雜非線性排序問題時(shí)計(jì)算效率低下的瓶頸問題,在這一極難攻克的人工智能基礎(chǔ)算子加速領(lǐng)域形成優(yōu)勢(shì),將為具身智能、大語言模型、智能駕駛、智慧交通、智慧城市等人工智能應(yīng)用提供更高效算力支持。該成果由北京大學(xué)集成電路學(xué)院楊玉超教授、人工智能研究院陶耀宇研究員組成的團(tuán)隊(duì)完成,已在國(guó)際頂級(jí)學(xué)術(shù)期刊《自然?電子》上發(fā)表。

排序加速:存算一體架構(gòu)中難啃的“硬骨頭”

排序,作為人工智能系統(tǒng)中最常用、最耗時(shí)的基礎(chǔ)操作之一,廣泛存在于自然語言處理、信息檢索、圖神經(jīng)網(wǎng)絡(luò)、智能決策等人工智能相關(guān)領(lǐng)域中。在傳統(tǒng)的馮·諾依曼計(jì)算架構(gòu)中,處理器存儲(chǔ)器分離的特點(diǎn)導(dǎo)致數(shù)據(jù)被頻繁搬運(yùn),嚴(yán)重制約了計(jì)算速度和系統(tǒng)能效,因此將存儲(chǔ)與計(jì)算融合的“存算一體”架構(gòu)是突破硬件性能的必由之路。

例如在智能駕駛場(chǎng)景中,車輛在高速公路等簡(jiǎn)單環(huán)境中,只需對(duì)周邊幾臺(tái)車的行進(jìn)路線進(jìn)行排序就能判斷是否會(huì)對(duì)自身安全產(chǎn)生影響,整個(gè)耗時(shí)可控制在毫秒級(jí)別,但在復(fù)雜的城市環(huán)境中風(fēng)險(xiǎn)來自周邊的數(shù)百個(gè)乃至更多的各類交通參與者,排序的復(fù)雜程度和硬件延遲大幅提高;再比如,在抖音、小紅書等平臺(tái)大的規(guī)模檢索與推薦系統(tǒng)中,用戶點(diǎn)擊、評(píng)分、相似度計(jì)算后,常需要對(duì)海量的候選內(nèi)容進(jìn)行快速排序,找出最相關(guān)項(xiàng),排序性能直接影響系統(tǒng)的響應(yīng)時(shí)間和可擴(kuò)展性;此外,在大語言模型訓(xùn)練、機(jī)器人路徑規(guī)劃、強(qiáng)化學(xué)習(xí)搜索等場(chǎng)景中,快速評(píng)估多個(gè)決策或行動(dòng)的優(yōu)劣并進(jìn)行排序,也是必不可少而又極為費(fèi)時(shí)的步驟。然而,在傳統(tǒng)計(jì)算架構(gòu)下,大規(guī)模的非線性排序難以在端側(cè)或邊緣設(shè)備高效完成,這一過程消耗大量時(shí)間與功耗,極大制約了具身智能、智能駕駛等新興技術(shù)的發(fā)展與普及。

近年來,“存算一體”被認(rèn)為是突破傳統(tǒng)硬件架構(gòu)計(jì)算瓶頸的關(guān)鍵技術(shù),已經(jīng)在矩陣計(jì)算等規(guī)則性強(qiáng)的數(shù)值計(jì)算中取得顯著成果。然而由于排序存在邏輯復(fù)雜、操作非線性、數(shù)據(jù)訪問不規(guī)則,缺乏通用、高效的硬件排序原語等諸多障礙,目前國(guó)際主流的存算一體架構(gòu)均無法解決大數(shù)據(jù)排序問題,這一難題成為了制約下一代人工智能計(jì)算硬件發(fā)展的前沿焦點(diǎn)與核心卡點(diǎn)問題。

科研團(tuán)隊(duì)圍繞“讓數(shù)據(jù)就地排序”的第一性原理目標(biāo),在存算一體架構(gòu)上攻克了多個(gè)核心技術(shù)難題,實(shí)現(xiàn)了排序速度與能效的數(shù)量級(jí)提升。主要突破包括:首先,開發(fā)了一套基于新型存內(nèi)陣列結(jié)構(gòu)的高并行比較機(jī)制;第二,開創(chuàng)性地引入了“憶阻器陣列”,實(shí)現(xiàn)了低延遲、多通路的硬件級(jí)并行排序電路設(shè)計(jì);第三,在算子層面,優(yōu)化了面向人工智能任務(wù)的算法-架構(gòu)協(xié)同路徑,同時(shí)兼容現(xiàn)有矩陣計(jì)算;第四,完全自主設(shè)計(jì)的器件-電路-系統(tǒng)級(jí)技術(shù)棧整合。

在人工智能系統(tǒng)中,排序通常作為數(shù)據(jù)預(yù)處理或決策中間環(huán)節(jié)存在,一旦執(zhí)行效率不高,將成為整個(gè)系統(tǒng)的主要瓶頸。論文第一作者、北京大學(xué)集成電路學(xué)院博士生余連風(fēng)介紹道,“排序的核心是比較運(yùn)算,需要精準(zhǔn)地實(shí)現(xiàn)‘條件判斷+數(shù)據(jù)搬移’,在復(fù)雜的應(yīng)用場(chǎng)景中,要對(duì)不同因素的優(yōu)先級(jí)進(jìn)行比較,因此排序的邏輯非常復(fù)雜。一般排序過程需要構(gòu)建支持多級(jí)‘比較-選擇’的比較器單元,而傳統(tǒng)存算一體架構(gòu)主要面向‘乘加’、‘累加’等操作,難以支持這樣的復(fù)雜運(yùn)算,我們的工作成功解決了這一難題,設(shè)計(jì)了一種‘無比較器’的存算一體排序架構(gòu)?!?/p>

據(jù)實(shí)測(cè)結(jié)果顯示,該硬件方案在典型排序任務(wù)中提升速度超15倍,面積效率提升超過32倍,具備并行處理百萬級(jí)數(shù)據(jù)元素排序任務(wù)的潛力,功耗僅為傳統(tǒng)CPU或GPU處理器的1/10。在人工智能推理場(chǎng)景中,支持動(dòng)態(tài)稀疏度下的推理響應(yīng)速度可提升70%以上,特別適用于要求極高實(shí)時(shí)性的任務(wù)環(huán)境。論文通訊作者、北京大學(xué)人工智能研究院陶耀宇研究員說,“正因?yàn)榕判蛴?jì)算在人工智能中是高頻、通用、基礎(chǔ)且極難處理的一類操作,這一難題的突破意味著存算一體從‘適合特定應(yīng)用’走向‘可支持更廣泛的通用計(jì)算’,為人工智能相關(guān)任務(wù)構(gòu)建了全鏈路的底層硬件架構(gòu)支持。”

提高計(jì)算效率,打造加速引擎

據(jù)悉,該技術(shù)具有廣泛的應(yīng)用前景,可用于智慧交通圖像排序系統(tǒng)、金融智能風(fēng)控評(píng)分引擎、邊緣監(jiān)控設(shè)備的目標(biāo)優(yōu)先識(shí)別模塊等場(chǎng)景。在測(cè)試中該技術(shù)展現(xiàn)出高速度與低功耗的顯著優(yōu)勢(shì)。例如,在智慧交通場(chǎng)景中,系統(tǒng)有望在毫秒級(jí)內(nèi)完成十萬級(jí)事件優(yōu)先級(jí)評(píng)估,為超大規(guī)模交通決策、應(yīng)急響應(yīng)調(diào)度等提供高效的實(shí)時(shí)算力支持。

當(dāng)前,隨著人工智能技術(shù)正與物理世界加速融合,算力已從“服務(wù)算法”演化為“主導(dǎo)能力邊界”的戰(zhàn)略資源。存算一體超高性能排序加速架構(gòu)的成功突破,不僅是一次架構(gòu)創(chuàng)新的勝利,更是將科研成果轉(zhuǎn)化為實(shí)際應(yīng)用、服務(wù)國(guó)家重大戰(zhàn)略需求的重要行動(dòng)。該成果未來有望廣泛應(yīng)用于國(guó)產(chǎn)智能芯片、邊緣AI設(shè)備、智能制造終端、智慧城市系統(tǒng)等關(guān)鍵領(lǐng)域,為我國(guó)在下一代AI技術(shù)智能硬件競(jìng)爭(zhēng)中提供堅(jiān)實(shí)底座,也為構(gòu)建安全、高效、自主可控的新一代智能算力體系提供了“加速引擎”。

“根據(jù)初步測(cè)算,若該技術(shù)在智能終端工業(yè)控制、數(shù)據(jù)中心等核心應(yīng)用場(chǎng)景中推廣,僅在邊緣AI芯片市場(chǎng)就可形成百億元級(jí)年產(chǎn)值潛力,大幅提升傳統(tǒng)算力系統(tǒng)的性能。更重要的是,在社會(huì)層面,該技術(shù)有望推動(dòng)新一代智慧交通、智慧醫(yī)療、智能制造、數(shù)字政府系統(tǒng)更加高效運(yùn)行,釋放數(shù)據(jù)價(jià)值,助力新質(zhì)生產(chǎn)力形成”陶耀宇研究員介紹道。

近年來,人工智能技術(shù)正高速演進(jìn),相關(guān)應(yīng)用不斷涌現(xiàn),智能產(chǎn)業(yè)發(fā)展迸發(fā)出巨大活力,蓬勃的發(fā)展態(tài)勢(shì)離不開背后算力的支撐。黨中央高度重視新型算力體系建設(shè)與核心技術(shù)突破,多次強(qiáng)調(diào)要聚焦關(guān)鍵技術(shù),加快形成新質(zhì)生產(chǎn)力。北京大學(xué)科研團(tuán)隊(duì)正是瞄準(zhǔn)了‘算力’這個(gè)牛鼻子,聚焦‘存算一體’這一關(guān)鍵技術(shù)開展高強(qiáng)度科研攻關(guān),實(shí)現(xiàn)了從器件到系統(tǒng)的全棧自主設(shè)計(jì)。這一成果不僅是技術(shù)層面的突破,更是攻克了存算一體化排序加速的‘硬骨頭’難題,在面向人工智能基礎(chǔ)操作的硬件加速領(lǐng)域?qū)崿F(xiàn)了突破,將為我國(guó)建設(shè)科技強(qiáng)國(guó),實(shí)現(xiàn)高水平科技自立自強(qiáng)注入新算力。

附:論文鏈接 https://www.nature.com/articles/s41928-025-01405-2

相關(guān)推薦