當(dāng)?shù)貢r間2月17日,埃隆·馬斯克的AI公司xAI正式推出了最新的Grok 3模型,并宣稱其為目前“地球上最聰明的AI”。
Grok 3的計算能力是上一代模型Grok 2的10至15倍。xAI從三個不同類別對Grok 3進(jìn)行了評估:一般數(shù)學(xué)推理、STEM和科學(xué)的一般知識,以及計算機(jī)科學(xué)編碼。
Amy是美國邀請數(shù)學(xué)考試,每年舉辦一次,用Amy評估模型的表現(xiàn),可以看到 Grok 3 在所有方面都獨(dú)樹一幟。即便是其簡化版Grok Mini,也達(dá)到了所有其他競爭對手的前沿水平。
為了測試實(shí)時實(shí)用性,xAI啟動了代號為“巧克力”的Grok 3模型盲測,該測試已在Chatbot Arena平臺上運(yùn)行了兩周。在此盲測中,Grok 3及其早期版本均達(dá)到了1400 Elo分,超越了其他模型。同時,在CH B能力、指令遵循、編碼等方面的綜合得分也位居第一。
xAI已為Grok 3添加了高級推理能力,并在過去幾周內(nèi)進(jìn)行了大量測試。例如,繪制從地球到火星的可行軌跡,并規(guī)劃在稍后時間點(diǎn)從火星返回地球的路徑;此外,還讓Grok 3編寫游戲,成功創(chuàng)建了一款結(jié)合《俄羅斯方塊》和《Beed》元素的新游戲。
在數(shù)學(xué)、科學(xué)和編碼三個基準(zhǔn)測試上,Grok 3的表現(xiàn)均優(yōu)于其他競爭對手,并展現(xiàn)出了真正的泛化能力。盡管xAI主要在數(shù)學(xué)問題和競賽編碼問題上訓(xùn)練了Grok 3的推理能力,但它卻能夠處理各種其他任務(wù),如創(chuàng)建游戲。這表明Grok 3學(xué)會了檢測自己的錯誤并糾正其思考方式。
Grok 3的發(fā)布同時,xAI還推出了名為“Deep Search”的新產(chǎn)品,這是Grok代理的第一代。它不僅助力工程師、研究人員和科學(xué)家進(jìn)行編碼,還能幫助每個人回答日常問題,就像下一代搜索引擎一樣,真正幫助用戶理解宇宙。
據(jù)xAI團(tuán)隊透露,Grok語音助手正在潤色階段,將很快面向公眾推出。而Grok 3 API,包括推理模型和Deep Search,都將在未來幾周內(nèi)發(fā)布。
按照慣例,xAI將在下一個版本完全推出后開源上一個版本。因此,當(dāng)Grok 3成熟且穩(wěn)定時,可能在幾個月內(nèi),xAI將開源Grok 2。
當(dāng)被問及該項目中最困難的部分時,xAI團(tuán)隊表示是如何讓世界上最強(qiáng)大的訓(xùn)練集群投入運(yùn)營。他們在122天內(nèi)搭建了10萬個GPU集群,并僅用92天將其拓展至20萬個GPU集群。據(jù)悉,xAI已經(jīng)開始了下一個集群的建設(shè)工作,其性能將比當(dāng)前的數(shù)據(jù)中心集群強(qiáng)大五倍。
馬斯克表示,“Grok”這個詞意味著完全而深刻地理解某件事,并保持同理心。xAI和Grok的使命是理解宇宙及其本質(zhì),從而弄清楚宇宙的起源、外星人的存在、生命的意義、宇宙的終結(jié)等根源性問題。