作者|周一笑
郵箱|zhouyixiao@pingwest.com
距離OpenAI發(fā)布GPT-4.1僅僅過去兩天,OpenAI在本周再次投下“重磅炸彈”——正式發(fā)布了其o系列的兩個(gè)新模型:o3和 o4-mini。
這次發(fā)布的核心被OpenAI聯(lián)合創(chuàng)始人Greg Brockman和首席研究官M(fèi)ark Chen形容“向未來邁出的質(zhì)的一步”。這兩個(gè)新模型不僅在傳統(tǒng)的編碼、數(shù)學(xué)、科學(xué)等領(lǐng)域展現(xiàn)出“迄今為止最強(qiáng)”的推理能力,更重要的是,它們被訓(xùn)練成了能夠主動(dòng)、智能地使用和組合工具來解決復(fù)雜問題的“AI系統(tǒng)”,并且首次實(shí)現(xiàn)了“用圖像思考”。
簡(jiǎn)單來說,你可以把o3和o4-mini想象成更聰明的“大腦”,它們不僅知識(shí)儲(chǔ)備更豐富、邏輯更嚴(yán)謹(jǐn),還學(xué)會(huì)了像人一樣,遇到難題時(shí)知道去網(wǎng)上查資料(網(wǎng)頁搜索)、用計(jì)算器(執(zhí)行Python代碼分析數(shù)據(jù)/文件)、看圖表(視覺輸入推理),甚至自己畫圖(生成圖像)。這標(biāo)志著ChatGPT向著一個(gè)能更獨(dú)立自主完成任務(wù)的智能體方向邁出了關(guān)鍵一步。
新的o3、o4-mini及o4-mini-high將從即日起開始替換ChatGPT Plus、Pro和Team用戶模型選擇器中的o1、o3-mini和o3-mini-high。免費(fèi)用戶也有機(jī)會(huì)通過特定的“Think”選項(xiàng)體驗(yàn)o4-mini。開發(fā)者可通過API使用o3和o4-mini,OpenAI預(yù)計(jì)在幾周內(nèi)發(fā)布o(jì)3-pro。
那么,這兩個(gè)新模型具體強(qiáng)在哪里?OpenAI官網(wǎng)和直播演示給出了詳細(xì)解答。
o3:旗艦級(jí)推理引擎
具體到兩個(gè)模型,o3 定位為OpenAI當(dāng)前最強(qiáng)大、最前沿的推理引擎。它在編碼、數(shù)學(xué)、科學(xué)和視覺感知等需要深度思考的領(lǐng)域表現(xiàn)尤為突出,是處理那些答案不明顯、需要多方面綜合分析的復(fù)雜查詢的理想選擇。
根據(jù)外部專家的嚴(yán)格評(píng)估,在處理困難的現(xiàn)實(shí)世界任務(wù)時(shí),o3犯下的嚴(yán)重錯(cuò)誤比其前代旗艦o1減少了20%,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思方面進(jìn)步顯著。發(fā)布會(huì)上的例子令人印象深刻:o3不僅能分析物理學(xué)研究海報(bào)并推斷出未明確說明的結(jié)果,還能將其與現(xiàn)有文獻(xiàn)進(jìn)行對(duì)比。
在另一個(gè)例子中,它甚至成功解決了構(gòu)造一個(gè)特定性質(zhì)的19次多項(xiàng)式這樣的高難度數(shù)學(xué)問題,其推理過程和結(jié)果的準(zhǔn)確性遠(yuǎn)超o1的表現(xiàn)。早期測(cè)試者也普遍反饋,o3作為“思考伙伴”時(shí)展現(xiàn)出的分析嚴(yán)謹(jǐn)性,以及在生物、數(shù)學(xué)、工程等領(lǐng)域生成和批判性評(píng)估新穎假設(shè)的能力,都令人印象深刻。在包括Codeforces、SWE-bench和MMMU等基準(zhǔn)測(cè)試中創(chuàng)下了新的 SOTA。
o4-mini:高性價(jià)比的“小鋼炮”
o4-mini 則是一款針對(duì)速度和成本效益優(yōu)化的“小鋼炮”。雖然體量更小,但它在數(shù)學(xué)、編碼和視覺任務(wù)上實(shí)現(xiàn)了“令人矚目的性能”,堪稱“以小博大”的典范。它在AIME 2024和2025數(shù)學(xué)競(jìng)賽基準(zhǔn)上的表現(xiàn)甚至超越了更大的模型。專家評(píng)估也指出,即使在非STEM領(lǐng)域和數(shù)據(jù)科學(xué)方面,o4-mini也優(yōu)于其前代o3-mini。得益于更高的效率,o4-mini能夠支持比o3顯著更高的使用限制,這使其非常適合需要進(jìn)行大量推理、高吞吐量的應(yīng)用場(chǎng)景。同時(shí),OpenAI表示,o3和o4-mini在交互時(shí)也應(yīng)該感覺更自然、更像對(duì)話,能更好地利用記憶和上下文信息,并提供帶有網(wǎng)絡(luò)來源引用的、更可驗(yàn)證的回應(yīng)。
o3-mini 和 o4-mini的成本與性能對(duì)比
o1 和 o3的成本與性能對(duì)比
值得關(guān)注的是,智能化程度的提升并未必然帶來成本的增加。OpenAI強(qiáng)調(diào),在許多實(shí)際應(yīng)用場(chǎng)景中,o3和o4-mini可能比它們的前代o1和o3-mini更高效,甚至更便宜。官網(wǎng)展示的AIME數(shù)學(xué)競(jìng)賽成本-性能曲線清晰地表明,o3在相同成本下性能優(yōu)于o1,而o4-mini則優(yōu)于o3-mini。這背后,是OpenAI在強(qiáng)化學(xué)習(xí)規(guī)?;系某掷m(xù)投入——據(jù)透露,開發(fā)o3所使用的訓(xùn)練計(jì)算量是o1的十倍以上,驗(yàn)證了“更多思考時(shí)間=更好性能”的趨勢(shì)同樣適用于強(qiáng)化學(xué)習(xí)。
在定價(jià)方面,o3的每百萬輸入 token 收費(fèi)為 10 美元,輸出 token 為 40 美元;而 o4-mini 的價(jià)格僅為其十分之一左右,分別為 1.1 美元和 4.4 美元。
不止于聰明,更在于“全能”
Agentic Tool Use是本次發(fā)布的亮點(diǎn)之一。過去的模型雖然也能調(diào)用工具,但往往是被動(dòng)執(zhí)行指令。而o3和o4-mini則被訓(xùn)練得能夠思考何時(shí)以及如何使用工具來給出詳盡、周到的答案。它們可以根據(jù)問題的復(fù)雜性,自主決定調(diào)用網(wǎng)頁搜索獲取最新信息、運(yùn)行Python代碼進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)、理解用戶上傳的圖片內(nèi)容,甚至生成圖表或圖像來輔助說明。
當(dāng)用戶提出“加州今年的夏季能源消耗與去年相比如何”這樣的問題時(shí),模型會(huì)自動(dòng)搜索公共數(shù)據(jù)源,結(jié)合實(shí)時(shí)信息編寫并執(zhí)行分析代碼,生成圖表直觀展示對(duì)比結(jié)果,并解釋其中的關(guān)鍵影響因素,整個(gè)過程通常在一分鐘內(nèi)完成,體現(xiàn)出強(qiáng)大的搜索、推理與多模態(tài)協(xié)同能力。
直播中Greg Brockman還提到,o3在解決一個(gè)復(fù)雜任務(wù)時(shí),曾被觀察到連續(xù)調(diào)用了高達(dá)600次工具。
另一個(gè)突破是視覺理解能力。o3和o4-mini不再僅僅是“看到”圖片,而是能將圖像信息直接整合進(jìn)它們的“思考鏈”中。用戶可以上傳白板照片、教科書圖解、手繪草圖,即使圖片模糊、顛倒或質(zhì)量不高,模型也能嘗試?yán)斫狻?/p>
更進(jìn)一步,結(jié)合工具使用能力,模型可以在推理過程中動(dòng)態(tài)地操作圖片,比如旋轉(zhuǎn)、縮放或轉(zhuǎn)換圖像,以更好地輔助分析。這使得它們?cè)诙嗄B(tài)基準(zhǔn)測(cè)試中達(dá)到了新的SOTA(State-of-the-Art)水平,能夠解決以前難以處理的視覺推理問題。例如,o3在MathVista(視覺數(shù)學(xué)推理)上準(zhǔn)確率達(dá)到86.8%,在CharXiv-Reasoning(科學(xué)圖表推理)上達(dá)到78.6%。
在演示中,OpenAI的Brandon McKenzie向o3展示了一張關(guān)于質(zhì)子等矢標(biāo)量荷的物理海報(bào),并要求它找到研究結(jié)果并與最新文獻(xiàn)對(duì)比,實(shí)際上該結(jié)果并未寫在海報(bào)上。o3準(zhǔn)確識(shí)別了相關(guān)圖表,推理出計(jì)算方法,并聯(lián)網(wǎng)查找最新估計(jì)值,指出原始數(shù)值需重整化才能與當(dāng)前研究對(duì)齊,展現(xiàn)了其理解圖像、推理及使用工具完成復(fù)雜科研任務(wù)的能力,節(jié)省了時(shí)間。
發(fā)布編程工具Codex CLI
伴隨著能力的飛躍,安全問題也得到了前所未有的重視。OpenAI表示,他們?yōu)閛3和o4-mini徹底重建了安全訓(xùn)練數(shù)據(jù)集,特別加強(qiáng)了在生物風(fēng)險(xiǎn)、惡意軟件生成、越獄企圖等敏感領(lǐng)域的拒絕能力。此外,還部署了系統(tǒng)級(jí)防護(hù),引入了一個(gè)基于人類可解釋規(guī)范訓(xùn)練的推理LLM監(jiān)控器,用于主動(dòng)標(biāo)記生物風(fēng)險(xiǎn)等前沿風(fēng)險(xiǎn)領(lǐng)域的危險(xiǎn)提示,據(jù)稱在內(nèi)部紅隊(duì)測(cè)試中成功標(biāo)記了約99%的相關(guān)對(duì)話。依據(jù)其最新的《準(zhǔn)備框架》(Preparedness Framework),經(jīng)過嚴(yán)格評(píng)估,o3和o4-mini在生物化學(xué)、網(wǎng)絡(luò)安全和AI自我改進(jìn)這三個(gè)關(guān)鍵風(fēng)險(xiǎn)領(lǐng)域的能力水平均被認(rèn)定低于“高”風(fēng)險(xiǎn)閾值。
為了進(jìn)一步賦能開發(fā)者社區(qū),OpenAI還推出了一個(gè)名為Codex CLI的實(shí)驗(yàn)性新工具。這是一個(gè)輕量級(jí)的編碼助手,可以直接在用戶的終端命令行運(yùn)行,旨在充分發(fā)揮o3、o4-mini等模型強(qiáng)大的推理能力,連接本地代碼環(huán)境,甚至支持處理截圖或草圖進(jìn)行多模態(tài)編程。Codex CLI已在GitHub上完全開源。
在直播演示中,OpenAI Agent研究團(tuán)隊(duì)成員Michael為了展示Codeex CLI的功能,截取了一張?jiān)?X上關(guān)于一個(gè)“圖像到 ASCII 風(fēng)格轉(zhuǎn)換”工具的推文截圖。他將這個(gè)截圖直接拖入終端,通過Codeex并利用o4-mini的多模態(tài)推理能力,最終成功創(chuàng)建了一個(gè)簡(jiǎn)單的ASCII風(fēng)格圖像轉(zhuǎn)換工具。
新的發(fā)布之后,行業(yè)內(nèi)的初步反響并非全然是掌聲。一些觀點(diǎn)仍然認(rèn)為這次發(fā)布更像是仍然是增量式進(jìn)步,雖然迭代速度更快了,但并未帶來顛覆性的飛躍或震撼性新功能,這或許反映了整個(gè)AI行業(yè)在激烈競(jìng)爭(zhēng)下面臨的巨大“快速交付”壓力。
同時(shí),開源社區(qū)中也存在一些失望的聲音,指出盡管模型能力日新月異,但OpenAI仍未推出真正強(qiáng)大的開源模型,這讓部分期待開放生態(tài)的開發(fā)者發(fā)出了“Wake me up when they release something open”(等他們發(fā)布開源模型再叫醒我)的調(diào)侃。
在發(fā)布的技術(shù)光環(huán)之外,市場(chǎng)層面的動(dòng)態(tài)也值得關(guān)注。發(fā)布會(huì)前后,彭博社和CNBC等媒體報(bào)道稱,OpenAI可能正就以高達(dá)30億美元收購(gòu)AI編程工具初創(chuàng)公司W(wǎng)indsurf(前身為Codeium)進(jìn)行談判。Windsurf的產(chǎn)品利用AI輔助開發(fā)者編寫、解釋代碼,其部分功能已集成OpenAI模型。若收購(gòu)屬實(shí),無疑將極大增強(qiáng)OpenAI在開發(fā)者工具和代碼生成領(lǐng)域的布局。
總體來看,OpenAI發(fā)布的o3和o4-mini,在Agentic能力和多模態(tài)深度融合方面繼續(xù)邁近,這不僅僅是模型變得更聰明了,更是朝著能夠真正理解并與我們復(fù)雜世界進(jìn)行交互的“通用智能體”的一步。從發(fā)布節(jié)奏來看,OpenAI的再次提速,留給競(jìng)爭(zhēng)對(duì)手和整個(gè)行業(yè)思考的時(shí)間,似乎又變少了。