與非網(wǎng) 9 月 12 日訊,去年是 NLP 的收獲大年,模型預(yù)訓(xùn)練技術(shù)終于被批量成功應(yīng)用于多項 NLP 任務(wù)。之前搞 NLP 的人一直羨慕搞 CV 的人,在 ImageNet 上訓(xùn)練好的模型,居然拿到各種任務(wù)里用都非常有效。現(xiàn)在情形有點逆轉(zhuǎn)了。搞 CV 的人開始羨慕搞 NLP 的人了。
而就在 BERT 發(fā)布之后,點燃了 NLP 各界的歡騰,各路神仙開始加班加點各顯神通,很多相關(guān)工作被發(fā)表出來。目前,BERT 使計算機能夠更準確地理解語音,并實時智能地響應(yīng),使聊天機器人大大提高智能化。
首先,我們先簡單回顧一下 NLP 的歷史。在上世紀 80 年代之前,大多數(shù) NLP 系統(tǒng)以規(guī)則為基礎(chǔ),根源于美國語言學(xué)家 Noam Chomsky 的工作,他認為語法規(guī)則可用于理解語義關(guān)系,因而引導(dǎo)機器理解語音。然而到了 80 年代后期,機器學(xué)習算法變得越來越流行,開始從規(guī)則向統(tǒng)計模型轉(zhuǎn)變。隨著 Word2vec、GloVe 和 FastText 等單詞嵌入的推出,2013 年迎來了 NLP 的下一大飛躍。
在讀取大量文本并分析每個單詞在數(shù)據(jù)集中的不同上下文中如何出現(xiàn)后,單詞嵌入試圖將單詞的“含義”封裝在向量中。其想法是,含義相似的單詞會有相似的向量。這第一代單詞嵌入的最大缺點是,每個單詞只有一個向量,實際上它可能有多個含義(比如 Mercury 有行星、金屬、汽車或羅馬神等意思)。這些缺點歸咎于這一事實:由于效率原因,早期的單詞嵌入模型用小型神經(jīng)網(wǎng)絡(luò)來訓(xùn)練(淺訓(xùn)練)。然而谷歌發(fā)布 BERT 后,我們確實處于拐點。
BERT 如此驚艷的原因。BERT 是一種上下文模型,這意味著基于句子中所用單詞的上下文生成單詞嵌入,因此一個單詞可以有多個嵌入。BERT 支持遷移學(xué)習(transfer learning)。這被稱為“NLP 的 ImageNet 時刻。”BERT 可以針對一小組特定領(lǐng)域數(shù)據(jù)低成本、快速度地加以微調(diào),可以獲得比從頭開始用同樣這些特定領(lǐng)域數(shù)據(jù)集來訓(xùn)練更準確的結(jié)果。
摩爾定律依然適用。幫助取得 BERT 等進步,需要計算機的速度和性能不斷提高,尤其是英偉達的 GPU 和谷歌的 TPU。
由于計算的現(xiàn)狀和成本,早期的單詞嵌入模型不得不很高效,BERT 效率低得多,但計算能力完全趕了上來。
英偉達剛宣布它支持 BERT,現(xiàn)在聲稱其 AI 平臺擁有最出色的 BERT 訓(xùn)練功能。此外,英偉達聲稱可以獲得很快速的響應(yīng),實時聊天應(yīng)用中需要快速響響應(yīng)。并且,該公司已制定了初創(chuàng)加速計劃,幫助對話式 AI 初創(chuàng)公司。
與非網(wǎng)整理自網(wǎng)絡(luò)!