• 正文
    • 高質(zhì)量數(shù)據(jù)集雖有但少
    • 開(kāi)源數(shù)據(jù)集眾人拾柴
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

國(guó)產(chǎn)ChatGPT「套殼」的秘密,現(xiàn)在被找到了

2023/05/29
1727
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

“套殼ChatGPT!”“套皮Stable Diffusion!”“實(shí)則抄襲!”……

外界對(duì)國(guó)產(chǎn)大模型產(chǎn)生質(zhì)疑已經(jīng)不是一次兩次了。

業(yè)內(nèi)人士對(duì)這個(gè)現(xiàn)象的解釋是,高質(zhì)量的中文數(shù)據(jù)集實(shí)在緊缺,訓(xùn)模型時(shí)只能讓采買(mǎi)的外文標(biāo)注數(shù)據(jù)集“當(dāng)外援”。訓(xùn)練所用的數(shù)據(jù)集撞車(chē),就會(huì)生成相似結(jié)果,進(jìn)而引發(fā)烏龍事件。

其余辦法中,用現(xiàn)有大模型輔助生成訓(xùn)練數(shù)據(jù)容易數(shù)據(jù)清洗不到位,重復(fù)利用token會(huì)導(dǎo)致過(guò)擬合,僅訓(xùn)練稀疏大模型也不是長(zhǎng)久之計(jì)。

業(yè)內(nèi)漸漸形成共識(shí):通往AGI的道路,對(duì)數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量都將持續(xù)提出極高的要求。

時(shí)勢(shì)所需,近2個(gè)月來(lái),國(guó)內(nèi)不少團(tuán)隊(duì)先后開(kāi)源了中文數(shù)據(jù)集,除通用數(shù)據(jù)集外,針對(duì)編程、醫(yī)療等垂域也有專(zhuān)門(mén)的開(kāi)源中文數(shù)據(jù)集發(fā)布。

高質(zhì)量數(shù)據(jù)集雖有但少

大模型的新突破十分依賴(lài)高質(zhì)量、豐富的數(shù)據(jù)集。

根據(jù)OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則(scaling law)可以看到,獨(dú)立增加訓(xùn)練數(shù)據(jù)量,是可以讓預(yù)訓(xùn)練模型效果變更好的。

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出,之前的大模型多是訓(xùn)練不足的,還提出最優(yōu)訓(xùn)練公式,已成為業(yè)界公認(rèn)的標(biāo)準(zhǔn)。

主流大模型,Chinchilla參數(shù)最少,但訓(xùn)練最充分

不過(guò),用來(lái)訓(xùn)練的主流數(shù)據(jù)集以英文為主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文數(shù)據(jù)只占據(jù)4.8%。

中文數(shù)據(jù)集是什么情況?

公開(kāi)數(shù)據(jù)集不是沒(méi)有——這一點(diǎn)量子位從瀾舟科技創(chuàng)始人兼CEO、當(dāng)今NLP領(lǐng)域成就最高華人之一周明口中得到證實(shí)——如命名實(shí)體數(shù)據(jù)集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數(shù)量和英文數(shù)據(jù)集相比可謂九牛一毛。

并且,其中部分已經(jīng)老舊,可能都不知道最新的NLP研究概念(新概念相關(guān)研究只以英文形式出現(xiàn)在arXiv上)。

中文高質(zhì)量數(shù)據(jù)集雖有但少,使用起來(lái)比較麻煩,這就是所有做大模型的團(tuán)隊(duì)不得不面對(duì)的慘烈現(xiàn)狀。此前的清華大學(xué)電子系系友論壇上,清華計(jì)算機(jī)系教授唐杰分享過(guò),千億模型ChatGLM-130B訓(xùn)練前數(shù)據(jù)準(zhǔn)備時(shí),就曾面臨過(guò)清洗中文數(shù)據(jù)后,可用量不到2TB的情況。

解決中文世界缺乏高質(zhì)量數(shù)據(jù)集迫在眉睫。

行之有效的解決方法之一,是直接用英文數(shù)據(jù)集訓(xùn)大模型

在人類(lèi)玩家打分的大模型匿名競(jìng)技場(chǎng)Chatbot Arena榜單中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5訓(xùn)練數(shù)據(jù)都是英文,再刨去其他語(yǔ)種,用來(lái)訓(xùn)練的中文數(shù)據(jù)量少到可以用“千分之n”來(lái)計(jì)算。

國(guó)內(nèi)top3高校某大模型相關(guān)團(tuán)隊(duì)在讀博士透露,如果采用這種方法,不嫌麻煩的話(huà),甚至可以給模型接一個(gè)翻譯軟件,把所有語(yǔ)言都轉(zhuǎn)換成英語(yǔ),然后把模型的輸出轉(zhuǎn)換為中文,再返回給用戶(hù)。

然而這樣喂養(yǎng)出的大模型始終是英文思維,當(dāng)遇到成語(yǔ)改寫(xiě)、俗語(yǔ)理解、文章改寫(xiě)這類(lèi)含有中文語(yǔ)言特色的內(nèi)容,往往處理不佳,出現(xiàn)翻譯錯(cuò)誤或潛在文化的偏差。

還有個(gè)解決辦法就是采集、清洗和標(biāo)注中文語(yǔ)料,做新的中文高質(zhì)量數(shù)據(jù)集,供給給大模型們。

開(kāi)源數(shù)據(jù)集眾人拾柴

察覺(jué)現(xiàn)況后,國(guó)內(nèi)不少大模型團(tuán)隊(duì)決定走第二條路,著手利用私有數(shù)據(jù)庫(kù)做數(shù)據(jù)集。

百度有內(nèi)容生態(tài)數(shù)據(jù),騰訊有公眾號(hào)數(shù)據(jù),知乎有問(wèn)答數(shù)據(jù),阿里有電商和物流數(shù)據(jù)。

積累的私有數(shù)據(jù)不一,就可能在特定場(chǎng)景和領(lǐng)域建立核心優(yōu)勢(shì)壁壘,將這些數(shù)據(jù)嚴(yán)格搜集、整理、篩選、清洗和標(biāo)注,能保證訓(xùn)出模型的有效性和準(zhǔn)確性。

而那些私有數(shù)據(jù)優(yōu)勢(shì)不那么明顯大模型團(tuán)隊(duì),開(kāi)始全網(wǎng)爬數(shù)據(jù)(可以預(yù)見(jiàn),爬蟲(chóng)數(shù)據(jù)量會(huì)非常大)。

華為為了打造盤(pán)古大模型,從互聯(lián)網(wǎng)爬取了80TB文本,最后清洗為1TB的中文數(shù)據(jù)集;浪潮源1.0訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB(相比GPT3模型訓(xùn)練數(shù)據(jù)集為570GB);最近發(fā)布的天河天元大模型,也是天津超算中心搜集整理全域網(wǎng)頁(yè)數(shù)據(jù),同時(shí)納入各種開(kāi)源訓(xùn)練數(shù)據(jù)和專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集等的成果。

與此同時(shí),近2個(gè)月來(lái),中文數(shù)據(jù)集出現(xiàn)眾人拾柴火焰高的現(xiàn)象——

許多團(tuán)隊(duì)陸續(xù)發(fā)布開(kāi)源中文數(shù)據(jù)集,彌補(bǔ)當(dāng)前中文開(kāi)源數(shù)據(jù)集的不足或失衡。

其中部分整理如下:

CodeGPT:由GPT和GPT生成的與代碼相關(guān)的對(duì)話(huà)數(shù)據(jù)集;背后機(jī)構(gòu)為復(fù)旦大學(xué)。

CBook-150k:中文語(yǔ)料圖書(shū)集合,包含15萬(wàn)本中文圖書(shū)的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領(lǐng)域;背后機(jī)構(gòu)為復(fù)旦大學(xué)。

RefGPT:為了避免人工標(biāo)注的昂貴成本,提出一種自動(dòng)生成事實(shí)型對(duì)話(huà)的方法,并公開(kāi)我們的部分?jǐn)?shù)據(jù),包含5萬(wàn)條中文多輪對(duì)話(huà);背后是來(lái)自上海交大、香港理工大學(xué)等機(jī)構(gòu)的NLP從業(yè)者。

COIG:全稱(chēng)“中國(guó)通用開(kāi)放指令數(shù)據(jù)集”,是更大、更多樣化的指令調(diào)優(yōu)語(yǔ)料庫(kù),并由人工驗(yàn)證確保了它的質(zhì)量;背后的聯(lián)合機(jī)構(gòu)包括北京人工智能研究院、謝菲爾德大學(xué)、密歇根大學(xué)、達(dá)特茅斯學(xué)院、浙江大學(xué)、北京航空航天大學(xué)、卡內(nèi)基梅隆大學(xué)。

Awesome Chinese Legal Resources:中國(guó)法律數(shù)據(jù)資源,由上海交大收集和整理。

Huatuo:通過(guò)醫(yī)學(xué)知識(shí)圖譜和GPT3.5 API構(gòu)建的中文醫(yī)學(xué)指令數(shù)據(jù)集,在此基礎(chǔ)上對(duì)LLaMA進(jìn)行了指令微調(diào),提高了LLaMA在醫(yī)療領(lǐng)域的問(wèn)答效果;項(xiàng)目開(kāi)源方是哈工大。

Baize:使用少量“種子問(wèn)題”,讓 ChatGPT 自己跟自己聊天,并自動(dòng)收集成高質(zhì)量多輪對(duì)話(huà)數(shù)據(jù)集;加州大學(xué)圣迭戈分校(UCSD)與中山大學(xué)、MSRA合作團(tuán)隊(duì)把使用此法收集的數(shù)據(jù)集開(kāi)源。

當(dāng)更多的中文數(shù)據(jù)集被開(kāi)源到聚光燈下,行業(yè)的態(tài)度是歡迎與欣喜。如智譜AI創(chuàng)始人兼CEO張鵬表達(dá)出的態(tài)度:

中文高質(zhì)量數(shù)據(jù)只是被藏在深閨而已,現(xiàn)在大家都意識(shí)到這個(gè)問(wèn)題了,自然也會(huì)有相應(yīng)的解決方案,比如數(shù)據(jù)開(kāi)源。
總之是在向好的方向發(fā)展,不是嗎?

值得注意的是,除了預(yù)訓(xùn)練數(shù)據(jù),目前階段人類(lèi)反饋數(shù)據(jù)同樣不可或缺。

現(xiàn)成的例子擺在眼前:

與GPT-3相比,ChatGPT疊加的重要buff就是利用RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí)),生成用于fine-tuing的高質(zhì)量標(biāo)記數(shù)據(jù),使得大模型向與人類(lèi)意圖對(duì)齊的方向發(fā)展。

提供人類(lèi)反饋?zhàn)钪苯拥霓k法,就是告訴AI助手“你的回答不對(duì)”,或者直接在AI助手生成的回復(fù)旁邊點(diǎn)贊或踩一踩。

先用起來(lái)就能先收集一波用戶(hù)反饋,讓雪球滾起來(lái),這就是為什么大家都搶著發(fā)布大模型的原因之一。

現(xiàn)在,國(guó)內(nèi)的類(lèi)ChatGPT產(chǎn)品,從百度文心一言、復(fù)旦MOSS到智譜ChatGLM,都提供了進(jìn)行反饋的選項(xiàng)。

但由于在大部分體驗(yàn)用戶(hù)眼中,這些大模型產(chǎn)品最主要的還是“玩具”屬性。

當(dāng)遇到錯(cuò)誤或不滿(mǎn)意的回答,會(huì)選擇直接關(guān)掉對(duì)話(huà)界面,并不利于背后大模型對(duì)人類(lèi)反饋的搜集。

So~

今后遇到AI生成回答有錯(cuò)誤或遺漏時(shí),請(qǐng)不要吝惜一次點(diǎn)擊,高舉你手中的“”或“”,讓大模型能收集更多的人類(lèi)反饋。

 

 

相關(guān)推薦