• 正文
    • █ AVS3P10,到底是什么?
    • █ AVS3P10,究竟有多強?
    • █ AVS3P10,為什么這么強?
    • █ AVS3P10,是如何誕生的?
    • █ AVS3P10,意味著什么?
    • █?最后的話
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

騰訊會議的技術突破,新一代音頻編解碼標準來了!

2024/07/11
737
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

今天這篇文章,我們要從一則新聞開始說起。

2024年6月12日-15日,AVS工作組第八十九次會議在浙江紹興召開。會議上,工作組正式宣布,AVS3P10標準已經完成最終委員會草案(FCD)階段,即將正式對外發(fā)布。

這條新聞對很多人來說有點懵——AVS是個啥?AVS3P10標準又是干啥用的?這條新聞和我有關系嗎?

小棗君可以很負責任地告訴大家,這條新聞和我們每個人都有關系,而且關系非常密切。

接下來,且聽我細細解讀。

█ AVS3P10,到底是什么?

AVS工作組,中文全稱叫數字音視頻編解碼技術標準工作組,是國內多媒體領域最重要的標準化組織。

這個組織從2002年6月成立以來,一直在牽頭AVS(Audio Video Coding Standard)數字音視頻標準的制定工作,推出了AVS1、AVS2等多個版本。

如今,他們正在重點研究的AVS3,是第三代AVS標準,也叫《信息技術 智能媒體編碼》系列國家標準。

AVS3P10標準,是AVS3的組成部分(第10部分 實時語音),由騰訊提議啟動、推進和維護,并經過AVS音頻組多家成員單位共同貢獻,專門面向實時語音通信

(RTC,Real-time Communication)場景。簡單來說,就是研究如何對語音進行編碼,實現低帶寬環(huán)境下的高質量傳輸。

開頭的那則新聞,是告訴大家:AVS3P10標準已經基本制定完成,即將正式發(fā)布。

█ AVS3P10,究竟有多強?

一個語音編碼標準,為什么值得關注呢?

原因很簡單,因為這個AVS3P10標準不僅很強,而且也很特別。

AVS3P10是全球首個系統(tǒng)性引入人工智能并實現真正意義上的低碼率下高質量語音編碼標準,為全球語音技術的發(fā)展帶來了革命性突破。

我們來做一個簡單的數學題。

我們進行語音通話,需要先通過麥克風拾音,將聲音變成電信號。這個電信號是模擬信號,需要通過設備電路完成采樣、量化、編碼,變成數字信號。

如果對一個原始聲音信號采用16000Hz的采樣率(每秒采集16000個點),16bit的位深度(每個點用16bit進行表示),不做任何壓縮的話,1秒的音頻大小就是16000×16=256000bit。音頻碼率(單位時間傳送的數據位數)是256kbps。

傳統(tǒng)的語音編碼器,包括AVS、ITU-T、3GPP、IETF等標準語音編碼器,能夠將碼率壓到原始音頻的1/10。在16-20kbps左右碼率時,能夠恢復出高質量寬帶語音;在30-35kbps,可以恢復出高質量超寬帶甚至全帶語音。然而,當碼率進一步降低時(例如10kbps以下),恢復質量下降明顯,影響用戶體驗。

那么,AVS3P10能支持多低的碼率呢?

6kbps,大約是傳統(tǒng)編碼器的1/3。

AVS3P10標準制定過程中,采用按照ITU-T P.800 DCR主觀質量評價規(guī)范,并由中國電子技術標準化研究院和華為分別進行了主觀測試和交叉驗證。

主觀測試結果表明,在單聲道編碼場景,AVS3P10在寬帶和超寬帶等多個主要測試場景均達到了4.0以上MOS分(最高分5分),體現出明顯優(yōu)勢,最低碼率可達5.9kbps。

在ITU-T P.863客觀質量評價實驗中,AVS3P10 RM0也有出色表現。在所有8個測試碼率中,AVS3P10 RM0均超過4.0 MOS,最高在4.45 MOS。

AVS工作組給出了極高的評價:“AVS3P10 實時語音編碼,作為新一代的語音編解碼技術標準,是對AVS系列標準的重要補充。該標準代表了騰訊在語音處理和人工智能技術創(chuàng)新和用戶體驗方面的最高追求,體現了業(yè)界最高水平,將為用戶帶來前所未有的性能和體驗,引領行業(yè)進入一個全新的時代?!?/p>

也許有些讀者會問,在我們目前這個高速互聯網時代,家里和公司的寬帶都是100Mbps以上,手機4G/5G速率也很高,支持這么低的碼率,真的有意義嗎?

答案是有意義。

我們現在通信技術很先進,網絡理論速率很高,但在實際環(huán)境中,經常會遇到網絡信號不好的情況,例如電梯、地庫、隧道、高鐵、地鐵等環(huán)境,通話總是會卡頓。

AVS3P10僅需現有主流標準1/3的編碼碼率,就能實現同等清晰的音質。這意味著,即使用戶身處網絡很差的環(huán)境,也能夠進行線上會議、語音通話。

█ AVS3P10,為什么這么強?

AVS3P10之所以能夠有如此優(yōu)異的表現,歸根到底,還是因為有AI的助力。

作為AVS3P10標準的主要推動者,騰訊在經典信號處理過程中引入了深度神經網絡,以此大幅提升編解碼效率,突破傳統(tǒng)音頻編解碼器的香農極限限制。

具體來說,AVS3P10會提前對海量語音信號進行建模學習。在編碼時,提取最核心的特征參數,并根據重要性進行碼率智能分配。相比傳統(tǒng)編碼器按照物理規(guī)則提取參數,AVS3P10的效率更高。

在編碼和解碼過程中,AVS3P10的深度學習網絡是同時進行聯合訓練的,確保解碼端能夠“領會”編碼端的意圖,更準確地重建語音中的細微結構,避免聲音信號失真。

將AI引入編解碼器,不可避免需要考慮到算力和功耗的問題。如果算法對算力的要求過高,一方面要考慮到設備是否能夠跑得動(快速流暢執(zhí)行算法),另一方面,也要考慮高算力帶來的高功耗,進而影響設備的發(fā)熱和待機時長。

據了解,AVS3P10所采用的模型只有百K規(guī)模,是一個在體積、效率、功耗上都有嚴格限制的、極為精密的小模型。

換句話說,騰訊技術團隊基于自身深厚的AI底層技術能力,實現了“小模型、高性能”的效果,打造出了一個世界級水平的產品。

█ AVS3P10,是如何誕生的?

騰訊作為一個互聯網公司,為什么會牽頭推出一個音頻編解碼技術標準呢?

其實,騰訊之所以會這么做,和自己的拳頭產品騰訊會議有密切關系。

2020年,騰訊會議團隊就提出了低碼率下保證高質量語音的需求。

騰訊云副總裁、騰訊會議天籟實驗室主任商世東說:“騰訊會議有億級用戶的真實場景。從我們的真實觀察來看,用戶遭遇弱網環(huán)境的案例比比皆是,這導致了即便單純從降低碼率這一個維度看,我們把技術提升到極致就已經有很大的收益;甚至,還會有新的、意想不到的應用場景被開拓出來”。

基于傳統(tǒng)方法繼續(xù)降低碼率,路徑是極為困難的,幾乎不可能實現。于是,他們想到了AI。

天籟實驗室主動聯系了騰訊AI Lab團隊,商討通過深度神經網絡進一步提升音頻編解碼能力的可能性。經過緊鑼密鼓的研發(fā),2021年,他們自研推出了騰訊首款神經網絡語音編解碼器——Penguins。

他們將Penguins規(guī)模用于騰訊會議的駕駛模式、弱網模式及QQ語音通話等場景,支持了億級用戶的流暢溝通,收到了非常好的反饋,大幅改善了用戶的音頻通信體驗。

初戰(zhàn)告捷,騰訊團隊深受鼓舞。于是,他們進一步考慮,是不是可以把Penguins變成行業(yè)標準,讓更多的用戶也享受到它所帶來的體驗改善呢?

2023年3月,在AVS工作組第84次會議上,騰訊團隊提議在AVS音頻組啟動面向實時語音通信場景的低碼率高質量語音統(tǒng)項目。經過需求分析,在第85次會議上,AVS工作組正式立項AVS3P10實時語音編碼項目。

如今,僅用了一年的時間,AVS3P10就完成了多輪會議的審議、測試和驗證,走向正式發(fā)布,堪稱神速。

AVS工作組是這么評價AVS3P10的——標準制定速度最快、標準交付質量最高、測試得到充分好評。

█ AVS3P10,意味著什么?

成為行業(yè)標準,是AVS3P10前進道路上的一個重要里程碑。但這并不是終點。接下來,它還要進入市場,面臨來自更多用戶以及應用場景的考驗。

作為中國自主知識產權的音頻編解碼標準,它需要和國際上其它主流及新興標準繼續(xù)進行PK。

AVS3P10是以AI為核心的技術,和傳統(tǒng)純信號處理的編解碼技術存在很大差異。結合性能損失等因素考慮,AVS3P10和其它解碼標準并不兼容。

騰訊會議天籟實驗室專家研究員、AVS3P10標準Editor肖瑋表示,在現有所有通信體系中,設備會安裝很多的編碼器,比如ITU-T的經典711、經典722,以及AMAWB、3GPP、EVS,甚至IETF、OPUS、音頻的ANC等。不同的編碼器,可以應對不同的應用場景。AVS3P10針對這些編碼器并不是取代關系,而是根據場景需求,選擇進行新增。如果系統(tǒng)判斷兩端都支持AVS3P10,則進行透傳。如果另一端不支持,可以通過轉碼進行解決。

AVS3P10標準正式發(fā)布后,憑借自身的優(yōu)異性能,一定可以贏得越來越多廠商的認可,逐漸擴大普及。業(yè)界普遍存在的弱網環(huán)境高質量語音通信痛點,將得到根本的解決。

對于騰訊來說,成功將開發(fā)出Penguins,并將其推動成為行業(yè)標準,也有極為深遠的意義。

一方面,他們證明了AI技術引入產品場景,可以解決現實存在的問題,尤其是傳統(tǒng)方法難以解決的問題。這是AI落地的一次創(chuàng)新應用,創(chuàng)造了實際價值。

另一方面,在做這項工作的過程中,磨練了研發(fā)團隊的能力,也增加了自己在AI技術上的沉淀和積累。

根據騰訊AI Lab高級研究員陽珊的介紹,在打磨Penguins的過程中,他們進行了大量的優(yōu)化工作。調優(yōu)的顆粒度比算法更加精細,包括最底層的算子、甚至更低一層的函數,都會進行優(yōu)化。

第三方面,就是通過牽頭標準建設,促進了行業(yè)內的技術合作與生態(tài)形成,推動了技術的更新迭代,給最終用戶帶來了技術普惠。

作為標準的主要貢獻方,騰訊的技術實力能夠得到進一步的認可。從需求提出到標準制定,再到標準落地,騰訊可以更好地實現標準閉環(huán)。這樣的標準,更加有說服力。

目前,我們也可以看到,除了音頻領域之外,騰訊在3GPP、Wi-Fi、游戲優(yōu)化等領域都有積極參與標準制定。騰訊的很多底層先進技術,正在轉換為行業(yè)標準,解決行業(yè)共性的痛點問題。

?最后的話

AI浪潮滾滾向前。AVS3P10標準,可以視為AI在ICT領域的一次小試牛刀。

隨著整個社會加大對AI落地的重視,相信會有更多AI賦能傳統(tǒng)場景的案例誕生。也許不久后,視頻編碼、網絡通信等領域,都會被AI重構,帶來巨大的效率和體驗提升。

這是新一輪的技術革命,讓我們拭目以待。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
SN65HVD233D 1 Texas Instruments 3.3 V CAN Transceiver with Standby Mode, Loopback 8-SOIC -40 to 125

ECAD模型

下載ECAD模型
$3.93 查看
LAN8720AI-CP 1 Microchip Technology Inc LAN8720AI-CP

ECAD模型

下載ECAD模型
$1.64 查看
DP83867ISRGZT 1 Texas Instruments Industrial temperature, robust gigabit Ethernet PHY transceiver with SGMII 48-VQFN -40 to 85

ECAD模型

下載ECAD模型
$7.14 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關技術領域方面的研究,曾擔任中興通訊核心網產品線產品經理、能力提升總監(jiān)、中興通訊學院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經驗和積累。