20個(gè)企業(yè)級(jí)案例揭示Agent落地真相:閉源模型吃掉85%,手搓代碼替代LangChain

0 評(píng)論 1108 瀏覽 2 收藏 15 分鐘

UC Berkeley 剛剛發(fā)布的《Measuring Agents in Production》——AI Agent 領(lǐng)域迄今最大規(guī)模的實(shí)證研究,揭開了生產(chǎn)級(jí)智能體的真實(shí)面貌:不是炫技的“全自動(dòng)超人”,而是被嚴(yán)格約束的“超級(jí)實(shí)習(xí)生”。73% 的部署只為提升生產(chǎn)力,85% 依賴閉源模型,70% 拒絕微調(diào)、死磕人工 Prompt,68% 的任務(wù)在 10 步內(nèi)必須交給人類??煽啃允亲畲笃款i,而“約束性部署”(Constrained Deployment)成為企業(yè)落地的核心策略。本文提煉四大核心發(fā)現(xiàn),帶你穿透 hype,看清 Agent 在真實(shí)世界如何“活著”。

加州大學(xué)伯克利分校(UC Berkeley)剛剛發(fā)布了一份重磅論文:《Measuring Agents in Production》。

(論文地址:https://arxiv.org/pdf/2512.04123)

這份論文,基于來自全球的真實(shí)請(qǐng)求:306名從業(yè)者深度調(diào)研,20個(gè)企業(yè)級(jí)部署案例,覆蓋 26 個(gè)行業(yè)。這是AI Agent 領(lǐng)域,迄今最大規(guī)模的實(shí)證研究。

最核心的三個(gè)信息:

  1. 生產(chǎn)力提升是Agent 落地的第一推動(dòng)力;
  2. 閉源模型、人工Prompt 和受控流程是當(dāng)前的“通行公式”;
  3. 可靠性是最大的攔路虎,人工審核依然不可或缺;

這份報(bào)告信息非常多,容我慢慢道來。

01 73%為生產(chǎn)力買單,金融成Agent 第一戰(zhàn)場(chǎng)

先說一個(gè)數(shù)字:73%的從業(yè)者表示,部署Agent的首要目的是“提高生產(chǎn)力”。

其他的動(dòng)機(jī)也非常務(wù)實(shí):63.6%是為了減少人工工時(shí),50% 是為了自動(dòng)化常規(guī)勞動(dòng)。

形成對(duì)比的是,那些難以量化的質(zhì)性收益,如“風(fēng)險(xiǎn)規(guī)避”(12.1%)和“加速故障響應(yīng)”(18.2%),排名則相對(duì)靠后。

也就是說,Agent 的落地,優(yōu)先于那些能帶來直接、可量化回報(bào)的場(chǎng)景,那些價(jià)值難以估量的質(zhì)性改進(jìn),目前還得往后稍稍。

從應(yīng)用場(chǎng)景看,Agent早已走出寫代碼或聊天機(jī)器人,深入到了更嚴(yán)肅的商業(yè)流程中。

其中,金融與銀行業(yè)是第一大戰(zhàn)場(chǎng),占比39.1% 其次是科技(24.6%)和企業(yè)服務(wù)(23.2%) 。除了這些,Agent 還在很多意想不到的地方落地:

  • 保險(xiǎn)理賠流程自動(dòng)化:代理人負(fù)責(zé)處理從保單查詢到風(fēng)險(xiǎn)識(shí)別的序列排序流程。
  • 生物醫(yī)學(xué)工作流自動(dòng)化:在科學(xué)發(fā)現(xiàn)領(lǐng)域,Agent 用于自動(dòng)化執(zhí)行復(fù)雜的實(shí)驗(yàn)和數(shù)據(jù)分析流程。
  • 企業(yè)內(nèi)部運(yùn)營(yíng)支持:涵蓋人力資源信息搜索、站點(diǎn)故障事件診斷等多個(gè)方面。

這些跨行業(yè)的成功案例證明,AI Agent已經(jīng)具備解決真實(shí)世界復(fù)雜問題的能力,并正在創(chuàng)造切實(shí)的商業(yè)價(jià)值。在實(shí)際業(yè)務(wù)場(chǎng)景里,Agent 目前的角色,更像是人類的“超級(jí)實(shí)習(xí)生”。

92.5%的Agent 直接服務(wù)于人類用戶,其中52.2%是服務(wù)于企業(yè)內(nèi)部員工 。

為什么大部分是內(nèi)部員工在用?

因?yàn)樵诮M織內(nèi)部,錯(cuò)誤后果可控,而且隨時(shí)有人盯著。

只有7.5%的Agent 是服務(wù)于其他軟件系統(tǒng)的,Agent 之間的全自動(dòng)交互還很遙遠(yuǎn)。

與很多想象的不一樣,Agent的響應(yīng)速度并不是客戶最先考慮的問題。

在生產(chǎn)環(huán)境中,66%的系統(tǒng)允許分鐘級(jí)甚至更長(zhǎng)的響應(yīng)時(shí)間。

原因很簡(jiǎn)單:相比于人類完成任務(wù)需要的數(shù)小時(shí)或數(shù)天,Agent 花幾分鐘仍然是巨大的效率提升。

這意味著,開發(fā)團(tuán)隊(duì)可以將重心放在提升輸出的質(zhì)量和可靠性上,而不是犧牲能力去追求極限的低延遲。

02 生產(chǎn)級(jí)Agent 的“極簡(jiǎn)主義”:拒絕微調(diào),死磕 Prompt

與學(xué)術(shù)界對(duì)復(fù)雜自主Agent的探索形成對(duì)比,生產(chǎn)級(jí)AI Agent的構(gòu)建哲學(xué)是“大道至簡(jiǎn)”。

從業(yè)者優(yōu)先選擇簡(jiǎn)單、可控、可維護(hù)的技術(shù)路徑,以最大程度地系統(tǒng)的可靠性。這種務(wù)實(shí)的工程選擇貫穿于模型選型、技術(shù)實(shí)現(xiàn)、核心架構(gòu)和框架使用的方方面面。在模型選擇上,閉源是絕對(duì)主流。

在20個(gè)深度案例中,85%(17個(gè))使用了閉源模型 Anthropic 的 Claude 系列和 OpenAI 的 GPT 系列是首選。

選擇閉源的核心邏輯是效率。

對(duì)于輔助專家(如醫(yī)生、高級(jí)工程師)的Agent來說,推理成本相比人力成本幾乎可以忽略不計(jì),因此團(tuán)隊(duì)傾向于選擇最強(qiáng)的模型。

開源模型更多被認(rèn)為是特定場(chǎng)景下的補(bǔ)充。只要在滿足嚴(yán)格約束條件時(shí),團(tuán)隊(duì)才會(huì)選擇開源模型,一般來說兩種情況比較常見:

  1. 成本效益:對(duì)于需要大規(guī)模、高推理的場(chǎng)景,自托管開源模型的成本優(yōu)勢(shì)凸顯。
  2. 數(shù)據(jù)隱私:受法規(guī)或企業(yè)政策限制,當(dāng)敏感數(shù)據(jù)無法突破外接環(huán)境時(shí),開源模型成為唯一選擇。

與模型選擇一樣,從業(yè)者在技術(shù)路徑上也傾向于更簡(jiǎn)單、迭代更快的方法:

拒絕微調(diào),死磕Prompt。

學(xué)術(shù)界熱衷的微調(diào)(Fine-tuning)和強(qiáng)化學(xué)習(xí)(RL),在實(shí)際應(yīng)用場(chǎng)景里極少使用。其中70%的案例直接使用現(xiàn)成模型,完全不進(jìn)行權(quán)重微調(diào)。

大家的精力都花哪了?

花在寫Prompt 上。

78%的系統(tǒng)采用全手動(dòng)或手動(dòng)+AI 輔助的方式構(gòu)建 Prompt 生產(chǎn)環(huán)境的。

Prompt 可能會(huì)非常長(zhǎng),12%的Prompt超過了10,000個(gè)Token。

這也說明,從業(yè)者更相信自己手寫的規(guī)則,而不是自動(dòng)優(yōu)化工具(如DSPy)。

為了降低Agent的不可控性,生產(chǎn)級(jí)Agent的自主性被嚴(yán)格限制在可控范圍內(nèi)。

68%的系統(tǒng)在需要人工干預(yù)前,執(zhí)行步驟不超過10步,甚至有47%的系統(tǒng)少于5步。

為什么要限制?

主要有三個(gè)原因:

  1. 保證可靠性:步數(shù)越多,錯(cuò)誤越容易累積;
  2. 控制成本:API 調(diào)用不是免費(fèi)的;
  3. 控制延遲:每多一步,用戶就得多等一會(huì);

所以,80%的案例采用了預(yù)定義的靜態(tài)工作流 比如一個(gè)保險(xiǎn)Agent,它的流程是固定的:查詢保障 -> 審查必要性 -> 識(shí)別風(fēng)險(xiǎn)。

Agent只能在已有的流程里做決定,不能自己發(fā)明新的步驟。另一個(gè)比較有意思的現(xiàn)象是,在問卷調(diào)查里,60%的人說愿意用第三方框架(LangChain 等),但在實(shí)際案例里,85%的團(tuán)隊(duì)選擇完全自研,直接調(diào)模型API。

為什么?

為了減少依賴臃腫(dependency bloat),為了獲得對(duì)系統(tǒng)的完全控制權(quán)。

這種對(duì)定制化解決方案的強(qiáng)烈偏好揭示了企業(yè)級(jí)Agent系統(tǒng)的一個(gè)關(guān)鍵成熟度指標(biāo):從通用框架向深度集成、定制定制的編排引擎演進(jìn),使得這些系統(tǒng)正成為關(guān)鍵任務(wù)基礎(chǔ),需要現(xiàn)有工具無法提供的控制水平。

03 學(xué)術(shù)榜單“失靈”,75% 的團(tuán)隊(duì)放棄基準(zhǔn)測(cè)試

基準(zhǔn)測(cè)試幾乎沒有任何參考價(jià)值。其中,75%的團(tuán)隊(duì)完全不使用基準(zhǔn)測(cè)試。

因?yàn)槊總€(gè)企業(yè)的業(yè)務(wù)都太特殊了,公開的學(xué)術(shù)榜單毫無參考價(jià)值。

剩下25%的團(tuán)隊(duì),選擇從零開始構(gòu)建自己的自定義基準(zhǔn)。

在這種情況下,人工循環(huán)驗(yàn)證(Human-in-the-loop)是主導(dǎo)的評(píng)估方法,被74.2%的從業(yè)者采用。

在開發(fā)階段,領(lǐng)域?qū)<抑苯訉彶楹万?yàn)證系統(tǒng)輸出的正確性、安全性和可靠性。

比如,醫(yī)療專家逐一驗(yàn)證醫(yī)療保健代理生成的診斷建議,是否符合臨床標(biāo)準(zhǔn)。在運(yùn)行階段,人類作為最終決策者,基于Agent提供的建議和分析采取的行動(dòng),充當(dāng)最后一個(gè)安全護(hù)欄。比如,站點(diǎn)修復(fù)工程師根據(jù)代理生成的故障分析報(bào)告,最終決定執(zhí)行哪些修復(fù)操作。

還有另一種評(píng)估方法:自動(dòng)化評(píng)估(LLM-as-a-Judge)。

其典型工作流程如下:

  1. Agent生成一個(gè)輸出。
  2. 一個(gè)“裁判”LLM對(duì)輸出進(jìn)行評(píng)估,并給出一個(gè)置信度分?jǐn)?shù)。
  3. 高分輸出被自動(dòng)接受,低分輸出則被路由給人類專家進(jìn)行審查。
  4. 同時(shí),專家會(huì)定期進(jìn)行饑餓檢查那些被自動(dòng)接受的高分輸出,以監(jiān)控“裁判”LLM的表現(xiàn),形成一個(gè)人類持續(xù)布局的閉環(huán)反饋。

雖然這種方法也有很多人在用,但沒人敢完全信任它。51.6%的團(tuán)隊(duì)使用了LLM 當(dāng)裁判,但所有這些團(tuán)隊(duì)都結(jié)合了人工驗(yàn)證。

一個(gè)典型的做法是:LLM 給個(gè)分,高分的自動(dòng)通過,低分的轉(zhuǎn)人工;同時(shí)人工還會(huì)定期抽查高分樣本。

04 核心挑戰(zhàn):可靠性,可靠性,還是可靠性

可靠性是頭號(hào)大敵37.9% 的人把“核心技術(shù)問題”(可靠性、魯棒性)列為頭號(hào)挑戰(zhàn),遠(yuǎn)超合規(guī)性(17.2%)和治理問題(3.4%)。

為什么這么難?

  • 基準(zhǔn)難建:數(shù)據(jù)稀缺、成本高昂、高度定制化;
  • 測(cè)試難做:Agent 的非確定性讓傳統(tǒng)的單元測(cè)試失效了;
  • 反饋太慢:很多時(shí)候,你不知道Agent 錯(cuò)了,結(jié)果直到幾個(gè)月后才出現(xiàn);

與可靠性相比,安全與合規(guī)性問題被認(rèn)為是次要問題。原因是,它們通??梢酝ㄟ^“約束設(shè)計(jì)”解決。常見的“約束設(shè)計(jì)”有以下四種:

  1. 復(fù)雜修改操作:嚴(yán)格限制Agent只能讀取數(shù)據(jù),界面允許其生產(chǎn)環(huán)境的狀態(tài)。例如,一個(gè)站點(diǎn)可靠性(SRE)Agent可以分析日志并生成報(bào)告,但最終的修復(fù)操作必須由人類工程師執(zhí)行。
  2. 沙盒環(huán)境:將Agent部署在與生產(chǎn)系統(tǒng)隔離的沙盒環(huán)境中。Agent在沙盒內(nèi)生成并測(cè)試代碼或配置變更,只有在通過所有驗(yàn)證后,結(jié)果才會(huì)被同步到生產(chǎn)系統(tǒng)。
  3. 限制抽象層:在Agent和生產(chǎn)工具之間構(gòu)建一個(gè)API封裝層。這個(gè)抽象層只公開必要的功能,并隱藏了內(nèi)部實(shí)現(xiàn)的細(xì)節(jié),了Agent的潛在破壞范圍。
  4. 控制:嘗試讓Agent繼承發(fā)起請(qǐng)求的用戶的訪問權(quán)限。然而,實(shí)踐表明這仍然是一個(gè)挑戰(zhàn),因?yàn)锳gent在調(diào)用工具時(shí)可能會(huì)繞過或遇到與用戶權(quán)限不一致的細(xì)粒度控制。

05 總結(jié):約束性部署的勝利

這份報(bào)告揭示了一個(gè)核心悖論:

可靠性明明是最大挑戰(zhàn),為什么這些系統(tǒng)還能上線?

答案是:“約束性部署”(Constrained Deployment)。實(shí)現(xiàn)“約束性部署”的具體模式包括:

環(huán)境約束:將Agent部署于復(fù)雜模式、內(nèi)部網(wǎng)絡(luò)或與生產(chǎn)隔離的沙盒環(huán)境中,從源頭上杜絕了Agent對(duì)關(guān)鍵系統(tǒng)的直接破壞風(fēng)險(xiǎn)。

自主性約束:將Agent的行為限定在少于10個(gè)步驟的構(gòu)成、預(yù)定義工作流程內(nèi),避免了因長(zhǎng)期自主探索而導(dǎo)致的不可預(yù)測(cè)行為和錯(cuò)誤累積。

人工:監(jiān)督將專家安置決策回路的關(guān)鍵節(jié)點(diǎn),設(shè)置成為代理輸出的最終驗(yàn)證者和執(zhí)行者,構(gòu)成了最后一個(gè)、也是人類最加固的一個(gè)安全防線。

另一個(gè)重要的啟示是,僅利用現(xiàn)有的前沿大模型和相對(duì)簡(jiǎn)單的提示工程技術(shù),就足以在超過26個(gè)不同行業(yè)中創(chuàng)造出可觀的、可量化的商業(yè)價(jià)值。

這意味著,企業(yè)不用等AGI,就能通過實(shí)際將現(xiàn)有技術(shù)確定明確的、提升范圍可控的業(yè)務(wù)問題,就能夠獲得顯著的生產(chǎn)力。

文/林白

本文由人人都是產(chǎn)品經(jīng)理作者【硅基觀察Pro】,微信公眾號(hào):【硅基觀察Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!