DeepSeek的崛起不僅是技術(shù)革新,更是一場從“機(jī)器語言”到“人類語言”的范式革命,推動了AGI時代到來。各個行業(yè)的應(yīng)用場景不斷拓展,為企業(yè)數(shù)字化發(fā)展帶來了新機(jī)遇,同時也面臨諸多挑戰(zhàn)。不同企業(yè)在落地部署過程中存在諸多待解決的問題和實踐難點。
本文將圍繞與企業(yè)交流中所總結(jié)的部署落地路徑,并給出相關(guān)建議,與大家分享解讀以下核心觀點:
推理模型元年,新模型、新技術(shù)依然可期
推理模型使得大模型向決策場景邁出重要一步
企業(yè)為模型付費意愿下降,公有云推理支出增加
分享嘉賓|張揚 愛分析聯(lián)合創(chuàng)始人&首席分析師內(nèi)容已做精簡,如需獲取專家完整版視頻實錄和課件,請文末掃碼領(lǐng)取。
01、推理模型元年,新模型、新技術(shù)依然可期
整體技術(shù)情況是企業(yè)進(jìn)行推理模型落地部署和場景探索的基礎(chǔ)。從技術(shù)本身而言,今年可被視為推理模型元年,在模型和技術(shù)層面,存在許多新的迭代方向,技術(shù)路線也存在競爭。
模型方面,梳理從OpenAI o1?Preview版本發(fā)布到Grok 3發(fā)布的過程,其間不僅有OpenAI和DeepSeek,還有千問、Google的Gemini,以及智譜、訊飛、階躍星辰、Kimi等。預(yù)計3月左右,Anthropic和OpenAI有可能發(fā)布GPT 5,不同廠商在推出不同模型。
與去年下半年模型發(fā)布節(jié)奏相比,變化巨大。ChatGPT剛發(fā)布后,國內(nèi)廠商基本每月迭代一個版本,2023年大部分廠商按月或按季度更新迭代大語言模型版本。2024年下半年,可能半年都未必有新版本更新,更多更新轉(zhuǎn)向多模態(tài)模型。
進(jìn)入2025年,由于DeepSeek開源模型發(fā)布,預(yù)計2月、3月乃至整個上半年,不同廠商都會發(fā)布推理模型,且版本迭代速度加快。Grok比DeepSeek晚發(fā)布約一個月,預(yù)計豆包、Anthropic等企業(yè)也會發(fā)布新模型。
從模型本身來看,去年下半年大語言模型的Scaling Law接近極限,但目前推理模型的Scaling Law才剛剛起步,這也是版本迭代井噴的原因之一,預(yù)計2025年還會出現(xiàn)大量新的模型版本。此外,DeepSeek公開了強(qiáng)化學(xué)習(xí)(RL)這一技術(shù)路線,但它并非唯一可行路線。
此前還有過程獎勵、蒙樹等不同技術(shù)路線,以及無需思維鏈的隱式推理技術(shù)路線等,這些技術(shù)路線仍在探索中,RL是首個跑通的,但不意味著只有它可行?;诖罅啃峦评砟P秃托录夹g(shù)路線的探索,當(dāng)考慮將其落地到企業(yè)進(jìn)行部署時,鑒于模型版本不斷迭代更新,建議企業(yè)采取由淺入深、逐步推進(jìn)的方式落地推理模型。
以下列出四條由淺入深的路徑:
1. API接入:這是最基礎(chǔ)的方式,目前許多央企已在企業(yè)內(nèi)部即時通訊(IM)中嵌入推理模型,采用類似微信對DeepSeek進(jìn)行灰度測試的模式。采用API接入,一是速度快,能迅速完成部署;二是可實現(xiàn)全員使用。相較于之前接入大廠API需高額付費,接入R1雖仍需付費,但金額大幅降低,所以多數(shù)企業(yè)選擇從API接入起步。
2.本地化部署結(jié)合知識庫RAG:這是上一波大語言模型落地較為通用的方式,目前仍廣泛應(yīng)用于企業(yè)內(nèi)部,尤其在金融機(jī)構(gòu)和央企中。不過,各企業(yè)部署的R1版本有所不同,少數(shù)采用6000億參數(shù)版本,多數(shù)采用蒸餾后的千問32B版本。
3.對知識庫RAG中的提示詞工程進(jìn)行精細(xì)化處理:部分企業(yè)會將基于思維鏈的提示詞單獨提取出來,做進(jìn)一步精細(xì)化處理。當(dāng)前多數(shù)企業(yè)推進(jìn)速度最快也就到這一步,也是較為理想的實施階段。完成前三步后,一方面,全員參與使用有助于拓展新應(yīng)用場景,企業(yè)在部署模型后,更關(guān)注投資回報率(ROI)及能否開拓新場景,通過全員探索自下而上的方式較為有效;另一方面,繼續(xù)深入則不可避免涉及監(jiān)督微調(diào)(SFT)和模型蒸餾。由于推理模型不斷涌現(xiàn),難以保證三個月后R1模型不因自身迭代或新廠商模型的出現(xiàn)而被超越,這就可能需要重新進(jìn)行SFT。
4.數(shù)據(jù)相關(guān)問題:在整個過程中,R1存在一個尚不明晰的問題,即60萬思維鏈(COT)數(shù)據(jù)和20萬通用知識數(shù)據(jù)。企業(yè)在進(jìn)行強(qiáng)化學(xué)習(xí)或蒸餾時,這60萬COT數(shù)據(jù)的獲取存在較大疑問。目前,一些新開源版本約有11萬COT數(shù)據(jù)開源,未來幾個月Grok?3是否會開源COT數(shù)據(jù)尚不確定。數(shù)據(jù)開源與模型版本持續(xù)迭代同樣重要,若這些數(shù)據(jù)開源,企業(yè)進(jìn)行蒸餾和SFT時將更為順暢。
綜合考量各方面因素,建議現(xiàn)階段企業(yè)主要嘗試前三個要點,對于絕大部分企業(yè)而言,開展第四步進(jìn)行監(jiān)督微調(diào)(SFT)以及自行進(jìn)行模型蒸餾,尚未達(dá)到理想的時間窗口期。不過,少部分已進(jìn)行語言模型(LM)預(yù)訓(xùn)練的企業(yè)提出,能否基于自身已完成預(yù)訓(xùn)練的版本,開展類似R1的強(qiáng)化學(xué)習(xí)過程,以期將原本懂企業(yè)知識的預(yù)訓(xùn)練模型,轉(zhuǎn)變?yōu)榧榷髽I(yè)知識、推理能力又強(qiáng)的企業(yè)專屬推理模型。從R1的學(xué)術(shù)論文來看,該路線比SFT更為復(fù)雜。
不建議企業(yè)采用此路線。核心原因在于,在R1論文中做過類似測試。測試中,R1一方面基于千問版本進(jìn)行R1 Zero強(qiáng)化學(xué)習(xí),另一方面直接基于R1進(jìn)行蒸餾。從最終推理效果,尤其是關(guān)鍵的通用問題回答推理效果來看,R1 Zero得分為55分 ,R1蒸餾后的得分為62分,蒸餾效果優(yōu)于R1 Zero強(qiáng)化學(xué)習(xí)效果。對于32B版本或參數(shù)不到千億的版本,蒸餾效果強(qiáng)于強(qiáng)化學(xué)習(xí)。
此外,蒸餾屬于SFT范疇,而強(qiáng)化學(xué)習(xí)所需算力更多,耗費時間更長。所以,無論是從成本、時間還是效果角度分析,蒸餾的性價比更高。這是目前不建議企業(yè)復(fù)制R1強(qiáng)化學(xué)習(xí)過程的關(guān)鍵所在。這屬于第五條路徑,目前來看,該路徑還沒有特別有效的調(diào)整或優(yōu)化方式。
基于上述兩點,建議企業(yè)現(xiàn)階段更多選擇采用API接入或知識庫檢索增強(qiáng)生成方式,這與上一版大語言模型落地思路一致,是從推理模型落地路徑角度給出的具體建議和實施方式,同時還包含一些推薦配置。大部分企業(yè),尤其是春節(jié)后復(fù)工的企業(yè),在部署32B模型時,通常使用兩張A100顯卡;部署70B的Llama版本模型,大概需要四張A100顯卡。若部署遷移模型,使用A100顯卡的話,至少需要兩臺8卡機(jī)器才能運行,所需預(yù)算較高。
02、推理模型使得大模型向決策場景邁出重要一步
推理模型與傳統(tǒng)大語言模型相比,有著核心區(qū)別。若將傳統(tǒng)大語言模型形象地類比為高中生或本科生,那么推理模型則更像是在邏輯推理能力方面經(jīng)過專項訓(xùn)練的研究生。這一本質(zhì)變化使得傳統(tǒng)大語言模型多應(yīng)用于生成類場景,即當(dāng)時所謂的生成式AI;而推理模型則推動生成式場景向角色場景邁進(jìn),實現(xiàn)了重要跨越。
基于此,我們梳理了部分已知企業(yè)正在嘗試的推理模型應(yīng)用場景。
- 在能源領(lǐng)域,推理模型的角色場景在去年四五月份就有體現(xiàn),當(dāng)時出現(xiàn)的AutoGPT被用于電力負(fù)荷預(yù)測、電力價格預(yù)測以及電力交易策略優(yōu)化。然而,上一版本的大語言模型所支撐的AutoGPT難以滿足這些決策場景的需求,效果欠佳。如今,隨著推理能力的提升,電力企業(yè)基于DeepSeek新模型重新進(jìn)行決策場景的探索,依然圍繞需求預(yù)測、價格預(yù)測以及交易優(yōu)化展開,這是能源領(lǐng)域正在突破的決策場景。
- 在金融領(lǐng)域,由于授信風(fēng)控對模型的可解釋性要求較高,因此更多通過可解釋的方式來構(gòu)建角色場景。比如在反洗錢方面,傳統(tǒng)大語言模型主要協(xié)助反洗錢工作人員撰寫報告,而現(xiàn)在推理模型能夠智能識別反洗錢可能存在的新模式。此外,新型反欺詐識別、財務(wù)對賬與分析等,對于傳統(tǒng)大語言模型而言復(fù)雜度較高的場景,也成為銀行重點探索的新方向。金融和能源領(lǐng)域是目前重點突破的決策場景。
- 在制造和醫(yī)療領(lǐng)域,相關(guān)企業(yè)也在進(jìn)行嘗試,不過預(yù)期所需時間比金融和能源領(lǐng)域更長。例如,制造領(lǐng)域持續(xù)探索的智能排查、工藝自適應(yīng),以及醫(yī)療領(lǐng)域的疾病預(yù)測、風(fēng)險預(yù)測等,這些普遍是大部分企業(yè)正在嘗試的與決策高度相關(guān)的新場景。
從企業(yè)內(nèi)部場景來看,推理模型的核心發(fā)展方向是向決策場景邁進(jìn)。形象地說,推理模型就像是從本科生成長為推理能力較強(qiáng)的研究生,這是其最大的變化。這一變化帶來的結(jié)果是,上一波提及的Copilot模式,在這一波基于推理模型的場景應(yīng)用中,演變?yōu)閏o-creator,即共創(chuàng)模式。
在這個共創(chuàng)過程中,產(chǎn)研和科研領(lǐng)域的價值將得到更大程度的釋放。在研發(fā)設(shè)計階段,傳統(tǒng)大語言模型僅扮演知識問答的Copilot角色,而現(xiàn)在融入了推理邏輯,能夠從知識庫問答的方式,全面參與到整個產(chǎn)研過程中,相當(dāng)于成為了另一位專家。
推理模型在決策場景中帶來的最大變化,是推動企業(yè)從生成場景向角色場景轉(zhuǎn)變。除此之外,端側(cè)場景也發(fā)生了顯著變化,其核心的滲透變化首先體現(xiàn)在消費級端側(cè)模型的成熟。今年新上市的手機(jī),基本上將AI大模型作為標(biāo)配。這些大模型不僅局限于云端模型,更多的是在端側(cè)直接部署小參數(shù)模型,這已成為今年手機(jī)的普遍配置。
在此過程中,模型量化問題以及芯片設(shè)計適配問題均已得到解決。DeepSeek帶來的更大價值在于,端側(cè)小參數(shù)模型能夠直接基于蒸餾大幅提升推理能力,這使得手機(jī)廠商此前已開發(fā)的端側(cè)芯片模型在推理能力上實現(xiàn)了重大突破,對手機(jī)廠商而言是一大利好。
同樣,端側(cè)場景也逐漸滲透到企業(yè)領(lǐng)域,主要分為三大類場景。第一類是人員作業(yè)場景,第二類是設(shè)備作業(yè)場景,這兩類場景作業(yè)量通常較大,使用Pad終端是提升終端作業(yè)效率的有效方式,這和手機(jī)的應(yīng)用原理相似,容易理解。另外,端側(cè)還存在許多決策分析場景,這得益于端側(cè)模型推理能力的提升。設(shè)備維修、生產(chǎn)質(zhì)檢、能耗管理這三個場景,將成為2025年企業(yè)在邊緣端重點落地的場景。所以,從場景角度來看,決策場景和邊緣端場景是2025年企業(yè)目前重點推行的方向。
03?企業(yè)為模型付費意愿下降,公有云推理支出增加???????
最后,談?wù)勵A(yù)算相關(guān)的變化。先說開源模型,以DeepSeek為代表的開源模型帶來的最大變化是推理能力的增強(qiáng),過去閉源模型的推理能力領(lǐng)先開源模型一個代際。例如,側(cè)重深度推理的閉源模型原本優(yōu)勢約為50%?,目前已縮小至6%。隨著今天Grok?3發(fā)布,其在未來幾個月預(yù)計會開源,屆時大量場景的分?jǐn)?shù)將被重新刷新,開源模型和閉源模型在推理層面的能力基本拉平。
在過去的語言理解層面,各類模型的表現(xiàn)本就不相上下。對于我們已交流過的絕大部分企業(yè)而言,為閉源模型付費的意愿已降至最低點。
目前我們判斷,模型費用預(yù)算總體不會減少,只是預(yù)算分配發(fā)生轉(zhuǎn)移。一方面,許多企業(yè)采用推理模型的API調(diào)用,這是預(yù)算轉(zhuǎn)移的一個方向;另一方面,基于開源模型的部署運維以及應(yīng)用搭建,成為另一個預(yù)算流向。此外,過去企業(yè)中可能僅有10%的人使用大模型應(yīng)用,如今則幾乎全員都在使用,這必然導(dǎo)致推理算力服務(wù)預(yù)算增長。所以,從企業(yè)角度來看,今年原本預(yù)留給閉源模型的付費,基本轉(zhuǎn)移到了開源模型生態(tài)、API調(diào)用以及推理算力方面,這就是模型預(yù)算的變化。
另外,由于DeepSeek的出現(xiàn),整個大模型市場的支出遠(yuǎn)超此前預(yù)期。盡管目前企業(yè)尚未重新調(diào)整整體IT預(yù)算,畢竟2025年整體IT預(yù)算仍呈微降態(tài)勢,但AI大模型在其中所占比例以及企業(yè)投入意愿,相較于2024年末做規(guī)劃時明顯增強(qiáng)。目前我們預(yù)計,企業(yè)若對大模型進(jìn)行支出,基本會安排在整個企業(yè)IT支出的5% - 10%,而2023年、2024年這一比例約為3% - 5%,可見有明顯增長。
此外,今年除了企業(yè)側(cè)落地,過去多為私有化部署帶來費用增長,今年基于公有云支出的費用會有大幅增長,這也是今年295億支出中核心的增長方向。
掃碼領(lǐng)取完整版視頻實錄和課件
畢業(yè)于清華大學(xué)及香港中文大學(xué),杭州市金融科技創(chuàng)新項目應(yīng)用案例專家評委,原投中集團(tuán)副總裁。十余年金融行業(yè)從業(yè)經(jīng)驗,在愛分析媒體平臺發(fā)文超過 500 篇,有很深的行業(yè)影響力。