• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

蘋果被硅谷AI圈圍毆了!

06/23 14:46
335
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

大模型評(píng)估體系崩塌?蘋果之外,UC伯克利、Salesforce連環(huán)論文狙擊。

作者 | ?李水青
編輯 | ?心緣

智東西6月21日?qǐng)?bào)道,自上周蘋果發(fā)表一篇論文,質(zhì)疑大模型的思考能力,并論證大模型在復(fù)雜難題上“準(zhǔn)確率崩潰”后,不少產(chǎn)業(yè)人士對(duì)其進(jìn)行了圍攻。(《蘋果AI“暴論”震動(dòng)AI圈!DeepSeek、Claude等熱門大模型只是死記的模式機(jī)器?》)近日,紐約大學(xué)名譽(yù)教授、《代數(shù)思維》和《深度學(xué)習(xí)正在遭遇瓶頸》的作者加里·馬庫(kù)斯(Gary Marcus)發(fā)文總結(jié)了反駁蘋果論點(diǎn)的7個(gè)觀點(diǎn),包括“人類也無(wú)法做到真推理”、“實(shí)驗(yàn)例子設(shè)計(jì)存在邏輯漏洞”、“推理內(nèi)容超出token限制導(dǎo)致結(jié)果失真”、“一作是實(shí)習(xí)生”等,并對(duì)此進(jìn)行了一一駁斥,證明這些觀點(diǎn)缺乏說(shuō)服力。

馬庫(kù)斯還援引全球SaaS龍頭Salesforce于5月24日發(fā)布的一篇論文,擁護(hù)蘋果的觀點(diǎn)。這篇論文提到,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級(jí)模型在測(cè)試中性能僅為35%。

此外,加州大學(xué)伯利克里分校于6月9日發(fā)表的一篇論文展示了視覺(jué)語(yǔ)言模型的脆弱性:“視覺(jué)語(yǔ)言模型的表現(xiàn)明顯比其視覺(jué)編碼器差,性能會(huì)下降到接近偶然水平。”這也被認(rèn)為是蘋果“大模型崩潰論”的有力論證。

值得一提的是,參與這場(chǎng)AI論辯的除了人類還有AI作者。此前6月10日,大模型Claude被放在arXiv論文的一作,與一名人類作者聯(lián)合“發(fā)文”質(zhì)疑蘋果的實(shí)驗(yàn)設(shè)計(jì)有問(wèn)題,強(qiáng)調(diào)所謂的“推理崩潰”其實(shí)只是token限制導(dǎo)致。

01.大模型Claude被放論文一作駁斥蘋果的“AI崩潰論”

蘋果剛剛發(fā)布一篇論文質(zhì)疑大型推理模型是“假思考”,就有大模型“本模”跳出來(lái)反駁了。6月10日,Anthropic旗下大模型Claude被一位名為L(zhǎng)awsen的人類作者放在論文一作,在arXiv平臺(tái)上“發(fā)表”了一篇題為《思維的幻覺(jué)的幻覺(jué)(The Illusion of the Illusion of Thinking)》的論文。

蘋果此前的論文報(bào)告大型推理模型在超過(guò)特定復(fù)雜度閾值的規(guī)劃難題上會(huì)表現(xiàn)出“準(zhǔn)確率崩潰”,Claude的這篇論文則試圖證明,他們發(fā)現(xiàn)這主要反映了實(shí)驗(yàn)設(shè)計(jì)的局限性,而非根本性的推理失敗。這篇論文主要攻擊了蘋果AI論文中的河內(nèi)塔實(shí)驗(yàn)。河內(nèi)塔游戲是一種經(jīng)典的游戲,它有三個(gè)柱子和多個(gè)圓盤,玩家需要將左側(cè)柱子上的所有圓盤移動(dòng)到右側(cè)柱子上,并且不能將較大的圓盤堆疊在較小的圓盤上。論文的分析揭示了三個(gè)關(guān)鍵問(wèn)題:1、河內(nèi)塔實(shí)驗(yàn)在報(bào)告的失敗點(diǎn)系統(tǒng)性地超出了模型輸出token的限制,而模型在其輸出中明確承認(rèn)了這些限制;2、作者的自動(dòng)評(píng)估框架未能區(qū)分推理失敗和實(shí)際約束,導(dǎo)致模型能力分類錯(cuò)誤;3、最令人擔(dān)憂的是,他們的“過(guò)河”基準(zhǔn)測(cè)試包含了由于船只容量不足導(dǎo)致N>5在數(shù)學(xué)上不可能出現(xiàn)的實(shí)例,但模型卻因未能解決這些無(wú)法解決的問(wèn)題而被評(píng)為失敗。當(dāng)他們控制這些實(shí)驗(yàn)結(jié)果時(shí),通過(guò)請(qǐng)求生成函數(shù)而不是詳盡的移動(dòng)列表,跨多個(gè)模型的初步實(shí)驗(yàn)表明,此前被報(bào)告為完全失敗的河內(nèi)塔實(shí)例具有很高的準(zhǔn)確率。這些發(fā)現(xiàn)凸顯了在評(píng)估AI推理能力時(shí),精心設(shè)計(jì)實(shí)驗(yàn)的重要性。這篇論文的觀點(diǎn)得到不少人的贊同。有網(wǎng)友認(rèn)為,Claude的批評(píng)證明了象征性限制扭曲了大模型的產(chǎn)出。蘋果的“推理崩潰”是技術(shù)性的,而非根本性的——研究方法終將適應(yīng)。也有人稱“token限制論證為性能指標(biāo)提供了新的視角”,并認(rèn)為“看到AI直接參與學(xué)術(shù)討論很有趣了?!?/p>

不少網(wǎng)友贊嘆“AI作為一作的時(shí)代正式到來(lái)”、“C. Opus將成為被引用次數(shù)最多的研究人員之一”、“現(xiàn)在每個(gè)人都在讀LLM的文章,甚至連研究人員都一樣”,這側(cè)面論證了大模型的強(qiáng)大能力。

但反駁的聲音依然強(qiáng)大。X平臺(tái)用戶Chomba Bupe說(shuō):“整件事都只是在重復(fù)我在推特上看到的那些觀點(diǎn)。Claude到底貢獻(xiàn)了什么,竟然被列為作者?如果語(yǔ)言模型(LM)連需要255次迭代的算法都執(zhí)行不了,那它還有什么用?”

02.蘋果AI論文七大質(zhì)疑紐約大學(xué)名譽(yù)教授:都缺乏說(shuō)服力

針對(duì)大量反駁蘋果AI論文的觀點(diǎn),紐約大學(xué)名譽(yù)教授、《代數(shù)思維》和《深度學(xué)習(xí)正在遭遇瓶頸》的作者加里·馬庫(kù)斯進(jìn)行了總結(jié),依次列出了七個(gè)論點(diǎn)并進(jìn)行了一一反駁??偟膩?lái)說(shuō),馬庫(kù)斯認(rèn)為所有這些反駁都缺乏說(shuō)服力。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道。觀點(diǎn)1:人類在處理復(fù)雜問(wèn)題和內(nèi)存需求方面存在困難。馬庫(kù)斯反駁稱:“沒(méi)錯(cuò)。但這還不夠全面。我們完全有理由期待機(jī)器去做我們做不到的事情。汽車擁有更強(qiáng)的耐力,計(jì)算器不會(huì)犯算術(shù)錯(cuò)誤。這就是我們發(fā)明計(jì)算機(jī)的原因:進(jìn)行無(wú)差錯(cuò)的重復(fù)計(jì)算。而且在很多情況下,包括論文中重點(diǎn)提到的河內(nèi)塔問(wèn)題,我們現(xiàn)有的系統(tǒng)都能完美運(yùn)行,不會(huì)出現(xiàn)任何錯(cuò)誤。AGI應(yīng)該向前邁一步。但在很多情況下,大語(yǔ)言模型反而是倒退了一步。請(qǐng)注意,他們把‘我們要構(gòu)建能夠徹底改變世界的AGI’變成了‘相信我們,我們的系統(tǒng)會(huì)犯錯(cuò),人類也會(huì)犯錯(cuò)’。蘋果論文的真正要點(diǎn)是,隨著算法復(fù)雜度和與訓(xùn)練分布的距離不斷增加,大語(yǔ)言模型不再適合用來(lái)運(yùn)行算法,就像人類不應(yīng)該充當(dāng)計(jì)算器一樣。如果我們想要實(shí)現(xiàn)AGI,就必須做得更好?!?strong>觀點(diǎn)2:大型推理模型無(wú)法解決問(wèn)題,是因?yàn)檩敵鲂枰嗟妮敵鰳?biāo)記(也就是說(shuō),正確答案太長(zhǎng),大型推理模型無(wú)法生成)。馬庫(kù)斯反駁稱:“這部分屬實(shí),但也是一個(gè)非常巧妙的觀察:大型推理模型有一個(gè)缺點(diǎn),那就是其輸出長(zhǎng)度有限。對(duì)于某些大型推理模型來(lái)說(shuō),12步河內(nèi)塔的正確答案太長(zhǎng),無(wú)法輸出,作者應(yīng)該已經(jīng)解決了這個(gè)問(wèn)題。但關(guān)鍵在于:1、這個(gè)反對(duì)意見(jiàn)雖然很巧妙,但實(shí)際上并不能解釋結(jié)果的整體模式。大型推理模型在8個(gè)盤的河內(nèi)塔問(wèn)題上失敗了,其中最優(yōu)解是255步,完全在所謂的標(biāo)記限制之內(nèi);2、編寫良好的符號(hào)人工智能系統(tǒng)通常不會(huì)遇到這個(gè)問(wèn)題,通用人工智能也不應(yīng)該遇到這個(gè)問(wèn)題。大語(yǔ)言模型的長(zhǎng)度限制是一個(gè)Bug,絕對(duì)不是一個(gè)特性。再說(shuō),如果大語(yǔ)言模型連像“河內(nèi)塔”這樣基本的計(jì)算都無(wú)法可靠地完成,你怎么能認(rèn)為它能夠正確計(jì)算軍事戰(zhàn)略(尤其是在戰(zhàn)爭(zhēng)迷霧籠罩的情況下)或分子生物學(xué)(存在許多未知數(shù))呢?蘋果團(tuán)隊(duì)要求的比現(xiàn)實(shí)世界通常要求的要簡(jiǎn)單得多?!?strong>觀點(diǎn)3:這篇論文是由一名實(shí)習(xí)生撰寫的。馬庫(kù)斯反駁稱:“這讓我很生氣,因?yàn)樗且环N人身攻擊而不是實(shí)質(zhì)內(nèi)容,它具有誤導(dǎo)性,幾乎不真實(shí),而且完全缺乏背景。第一作者確實(shí)是蘋果的實(shí)習(xí)生Parshin Shojaee,但馬庫(kù)斯強(qiáng)調(diào):1、她也是一位非常有前途的三年級(jí)博士生,曾在許多主要會(huì)議上發(fā)表過(guò)論文。2、如果你真的讀過(guò)這篇文章,就會(huì)清楚地發(fā)現(xiàn)她與擁有博士學(xué)位的Iman Mirzadeh共同承擔(dān)領(lǐng)導(dǎo)責(zé)任。3、這篇論文實(shí)際上有六位作者,而不是一位,其中四位擁有博士學(xué)位;其中一位是Yoshua Bengio的兄弟Samy Bengio,他在機(jī)器學(xué)習(xí)社區(qū)中非常有名氣4、在許多科學(xué)領(lǐng)域,像這篇論文一樣,把初級(jí)作者放在第一位,資深作者放在最后,這是一種常見(jiàn)的做法;成千上萬(wàn)篇重要論文都這么做了,而且從未因此受到批評(píng)。5、真正重要的是論文的質(zhì)量。Alfred Sturtevant在發(fā)明基因圖譜時(shí)還是一名本科生?!?strong>觀點(diǎn)4:更大的模型可能會(huì)做得更好。馬庫(kù)斯反駁稱:“沒(méi)錯(cuò),情況總是如此,我看到過(guò)一份報(bào)告稱o3-pro至少在某些時(shí)候可以解決其中一個(gè)問(wèn)題。更大的模型有時(shí)會(huì)做得更好,因?yàn)槟P捅旧碛姓嬲母倪M(jìn),有時(shí)是因?yàn)獒槍?duì)特定問(wèn)題進(jìn)行了訓(xùn)練。從外部我們永遠(yuǎn)無(wú)法知道是哪種原因。但問(wèn)題是,我們無(wú)法提前知道對(duì)于任何給定的問(wèn)題,哪個(gè)模型足夠大。蘋果的結(jié)果是,一些相當(dāng)大的模型可以在6個(gè)圓盤的河內(nèi)塔游戲中取得成功,給人一種精通的假象,但到8張圓盤時(shí)就會(huì)崩潰,這不是好的信號(hào)。人們只需要一直測(cè)試所有的東西,而幾乎沒(méi)有任何保證。有些模型可能對(duì)規(guī)模為S的任務(wù)T來(lái)說(shuō)足夠大,但在下一個(gè)規(guī)?;蚵杂胁煌娜蝿?wù)T'上會(huì)失敗,等等。這一切都變成了擲骰子游戲。”觀點(diǎn)5:這些系統(tǒng)可以用代碼解決難題。馬庫(kù)斯反駁稱:“在某些情況下確實(shí)如此,這對(duì)于神經(jīng)符號(hào)人工智能來(lái)說(shuō)是一個(gè)巨大的勝利,因?yàn)樗鼈儫o(wú)法在沒(méi)有代碼的情況下可靠地解決難題,而且代碼是符號(hào)化的。這極大地證明了我一直以來(lái)的說(shuō)法:我們需要一種能夠整合神經(jīng)網(wǎng)絡(luò)和符號(hào)算法及表示,例如邏輯、代碼、知識(shí)圖譜等的人工智能。但同時(shí),我們需要可靠地、通用地做到這一點(diǎn),而我們還沒(méi)有跨過(guò)這個(gè)門檻。重要的是,蘋果論文的目標(biāo)是了解大型推理模型如何通過(guò)推理和回溯在無(wú)人協(xié)助的情況下探索解決方案,而不是了解它如何很好地利用從網(wǎng)絡(luò)上檢索到的現(xiàn)有代碼。打個(gè)比方:學(xué)生可能會(huì)抱怨數(shù)學(xué)考試需要手算積分或微分,即使數(shù)學(xué)軟件可以立即給出正確答案。然而,老師布置問(wèn)題的目的并非尋找問(wèn)題的答案,而是評(píng)估學(xué)生對(duì)概念的理解。大語(yǔ)言模型真的理解河內(nèi)塔算法的概念嗎?這正是蘋果團(tuán)隊(duì)想要探究的。大語(yǔ)言模型能下載正確的代碼嗎?當(dāng)然可以。但如果遇到新問(wèn)題、環(huán)境瞬息萬(wàn)變等情況,在沒(méi)有概念理解的情況下下載代碼就沒(méi)什么用了?!?strong>觀點(diǎn)6:這篇論文只有四個(gè)例子,其中至少有一個(gè)(河內(nèi)塔)并不完美。馬庫(kù)斯反駁稱:“例子可能都不是完美的,但這四個(gè)例子加在一起,提供了與數(shù)十篇其他先前論文相吻合的證據(jù),他相信還會(huì)發(fā)現(xiàn)更多的例子。他自己已經(jīng)在算法應(yīng)用中發(fā)現(xiàn)了幾個(gè)類似的錯(cuò)誤,將在幾天后寫出來(lái)。紐約大學(xué)的Tal Linzen剛剛發(fā)表了另一個(gè)例子,其中模型……能夠更正簡(jiǎn)單版本的語(yǔ)言問(wèn)題(小型語(yǔ)法、短字符串),但隨著問(wèn)題變得更加復(fù)雜,準(zhǔn)確率會(huì)迅速下降。馬庫(kù)斯認(rèn)為,假以時(shí)日,我們將看到大量論文強(qiáng)化蘋果的結(jié)果?!?strong>觀點(diǎn)7:這篇論文并非新鮮事,我們?cè)缫阎肋@些模型泛化能力很差。馬庫(kù)斯反駁稱:“沒(méi)錯(cuò),但為什么我們認(rèn)為這些模型是通往通用人工智能的康莊大道呢?除了這是一項(xiàng)巧妙的研究,明確了一個(gè)重要觀點(diǎn)之外,真正的新聞是,人們終于開(kāi)始關(guān)注生成式AI的兩大致命弱點(diǎn)之一,并認(rèn)識(shí)到其重要性。順便說(shuō)一句,同時(shí)聽(tīng)到‘這是錯(cuò)的’和‘我們?cè)缇椭馈媸翘阈α恕V辽儆幸淮?,我看到一個(gè)人同時(shí)說(shuō)出了這兩句話,間隔幾分鐘。歸根結(jié)底所有這些反駁都缺乏說(shuō)服力。如果像Sam Altman這樣的人感到緊張,那是因?yàn)樗麄儜?yīng)該緊張。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道;這一次,人們終于開(kāi)始關(guān)注這個(gè)問(wèn)題了?!?/p>

03.Salesforce新研究“撞題”蘋果:多輪推理測(cè)試下準(zhǔn)確率僅35%

除了馬庫(kù)斯的一系列反駁,Salesforce最新發(fā)布的一篇論文擁護(hù)了蘋果的觀點(diǎn)。論文證明,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級(jí)模型在測(cè)試中性能僅為35%。馬庫(kù)斯認(rèn)為這足以和蘋果的論文融合證明當(dāng)前的技術(shù)不可信。讓我們來(lái)具體看看這篇論文,論文發(fā)布于2025年5月24日,題為:《CRMArena-Pro:對(duì)不同業(yè)務(wù)場(chǎng)景和互動(dòng)中的大語(yǔ)言模型智能體進(jìn)行全面評(píng)估(CRMArena-Pro:Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions)》論文提到,盡管智能體(AI Agent)在商業(yè)領(lǐng)域擁有變革潛力,但由于廣泛使用的平臺(tái)上缺乏公開(kāi)且真實(shí)的業(yè)務(wù)數(shù)據(jù),有效的性能基準(zhǔn)測(cè)試受到阻礙?,F(xiàn)有的基準(zhǔn)測(cè)試通常對(duì)其環(huán)境、數(shù)據(jù)和智能體與用戶交互缺乏保真度,對(duì)各種業(yè)務(wù)場(chǎng)景和行業(yè)的覆蓋范圍有限。為了彌補(bǔ)這些不足,Salesforce推出了CRMArena-Pro,這是一個(gè)全新的基準(zhǔn)測(cè)試,用于對(duì)各種專業(yè)環(huán)境中的大語(yǔ)言模型智能體進(jìn)行全面、真實(shí)的評(píng)估。CRMArena-Pro在CRMArena的基礎(chǔ)上進(jìn)行了擴(kuò)展,包含19項(xiàng)經(jīng)專家驗(yàn)證的任務(wù),涵蓋銷售、服務(wù)和“配置、定價(jià)和報(bào)價(jià)”流程,適用于B2B和B2C場(chǎng)景,融合了由不同角色引導(dǎo)的多輪交互和保密意識(shí)評(píng)估。

實(shí)驗(yàn)表明,領(lǐng)先的大語(yǔ)言模型在CRMArena-Pro上的單輪成功率僅為58%左右,在多輪設(shè)置下,性能顯著下降至約35%。雖然工作流執(zhí)行對(duì)于頂尖的智能體來(lái)說(shuō)更容易掌握(單輪成功率超過(guò)83%),但其他經(jīng)評(píng)估的業(yè)務(wù)技能卻面臨更大的挑戰(zhàn)。此外,智能體的固有保密意識(shí)幾乎為零;雖然有針對(duì)性的提示可以改善這種情況,但這往往會(huì)損害任務(wù)績(jī)效。

這些發(fā)現(xiàn)凸顯了當(dāng)前大語(yǔ)言模型能力與企業(yè)需求之間的巨大差距,展示了在多輪推理、保密性和多功能技能習(xí)得方面取得進(jìn)步的必要性。這篇論文同樣質(zhì)疑了當(dāng)下主流測(cè)試基準(zhǔn)的價(jià)值,并通過(guò)一個(gè)基于業(yè)務(wù)場(chǎng)景數(shù)據(jù)的新基準(zhǔn)論證了主流推理模型能力的不足。此外,其中有一句話對(duì)于很多企業(yè)來(lái)說(shuō)都是一個(gè)破壞因素:幾乎零保密性。這又攻擊了大語(yǔ)言模型在信息安全上的不足。

04.UC伯克利論文:視覺(jué)語(yǔ)言模型很脆弱,只會(huì)學(xué)習(xí)捷徑

另一篇論文展示了視覺(jué)語(yǔ)言模型(VLM)的脆弱性:“視覺(jué)語(yǔ)言模型的表現(xiàn)明顯比其視覺(jué)編碼器差,性能會(huì)下降到接近偶然水平”,X用戶Chomba Bupe認(rèn)為,這意味著語(yǔ)言模型只是忽略了來(lái)自視覺(jué)編碼器的豐富信息然后輸出內(nèi)容。

他談道:“理解視覺(jué)信息需要某種形式的抽象推理,如果沒(méi)有推理,連接到視覺(jué)編碼器(VE)的語(yǔ)言模型只會(huì)學(xué)習(xí)捷徑,即忽略來(lái)自VE的信息并編造看起來(lái)合理但毫無(wú)意義的細(xì)節(jié)?!弊屛覀兙唧w來(lái)看下這篇論文,論文由加州大學(xué)伯利克里分校于2025年6月9日發(fā)布,題為:《隱藏在顯而易見(jiàn)的地方:視覺(jué)語(yǔ)言模型忽略了它們的視覺(jué)表現(xiàn)(Hidden in plain sight: VLMs overlook their visual representations)》。論文提到,語(yǔ)言提供了一個(gè)自然的界面來(lái)指定和評(píng)估視覺(jué)任務(wù)的性能。為了實(shí)現(xiàn)這一可能性,視覺(jué)語(yǔ)言模型必須成功地整合視覺(jué)和語(yǔ)言信息。UC伯克利研究人員的工作將視覺(jué)語(yǔ)言模型與其視覺(jué)編碼器的直接讀數(shù)進(jìn)行比較,以了解它們跨模態(tài)整合的能力。在一系列以視覺(jué)為中心的基準(zhǔn)測(cè)試(例如深度估計(jì)、對(duì)應(yīng)性)中,他們發(fā)現(xiàn)視覺(jué)語(yǔ)言模型的性能明顯低于其視覺(jué)編碼器,性能下降到接近偶然水平。他們通過(guò)對(duì)整個(gè)視覺(jué)語(yǔ)言模型進(jìn)行一系列分析來(lái)探究這些結(jié)果:1、視覺(jué)表征的退化,2、對(duì)任務(wù)提示的脆弱性,以及3、語(yǔ)言模型在解決任務(wù)中的作用。他們發(fā)現(xiàn),執(zhí)行這些以視覺(jué)為中心的任務(wù)的瓶頸就在于這第三類。視覺(jué)語(yǔ)言模型無(wú)法有效地利用整個(gè)模型中易于訪問(wèn)的視覺(jué)信息,并且它們繼承了大語(yǔ)言模型中存在的語(yǔ)言先驗(yàn)。如下圖所示,在所有任務(wù)中,盡管視覺(jué)編碼器的性能存在較大差異,但視覺(jué)編碼器的表現(xiàn)均顯著優(yōu)于視覺(jué)語(yǔ)言模型評(píng)估和盲評(píng)估。此外,盡管DINOv2在6項(xiàng)任務(wù)中的5項(xiàng)里是性能最強(qiáng)的編碼器,但它在任何任務(wù)中都未使視覺(jué)語(yǔ)言模型方法達(dá)到最高性能。

05.結(jié)語(yǔ):蘋果AI論文爭(zhēng)議呼喚新評(píng)估范式

這場(chǎng)圍繞蘋果論文引發(fā)的學(xué)術(shù)論戰(zhàn)超出技術(shù)細(xì)節(jié)爭(zhēng)論,觸及大模型發(fā)展前景的信仰。一方面這種違背共識(shí)的觀點(diǎn)受到了來(lái)自多方的圍攻,另一方面,Salesforce和UC伯克利的研究則從多輪復(fù)雜推理任務(wù)的顯著低成功率、以及視覺(jué)語(yǔ)言模型對(duì)視覺(jué)信息利用的脆弱性等不同角度,提供了有力的佐證。這場(chǎng)爭(zhēng)論不僅指出了“規(guī)?;甭窂降臐撛诰窒?,更倡導(dǎo)評(píng)估范式的革新與底層架構(gòu)的突破。未來(lái)的突破點(diǎn)或許在于更深入地理解模型失效的根源,設(shè)計(jì)更能真實(shí)反映智能本質(zhì)的測(cè)試基準(zhǔn),以及探索神經(jīng)符號(hào)結(jié)合等新架構(gòu),使AI不僅能識(shí)別模式,更能進(jìn)行可靠、可泛化的計(jì)算與推理。

(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)

相關(guān)推薦