馬化騰點贊的Agent,正是“掛羊頭賣狗肉”的AI泡沫本身

0 評論 1461 瀏覽 0 收藏 18 分鐘

你是不是也在做Agent,卻總覺得“功能多但不精”?這篇文章講透通用Agent的五大缺陷,從幻覺難題到場景壁壘,再到資本驅(qū)動的泡沫邏輯,幫你看清“掛羊頭賣狗肉”的現(xiàn)狀,也提供一套垂直Agent的構(gòu)建思路,適合收藏反復(fù)拆讀。

最近看了一篇關(guān)于Agent比較中肯但略顯悲觀的文章:《幾乎都在掛羊頭賣狗肉,AI Agent的泡沫現(xiàn)在到底有多大?》

這篇文章價值較高,整理了多位行業(yè)一線實踐者對通用 Agent的認知。

正如原文所述,他們以Manus的新產(chǎn)品Wide Research和公司跑路、撤資事件為引,深入探討了國內(nèi)外Agent泡沫亂象的現(xiàn)實、背后原因以及未來生存規(guī)則。

在與多位偏實踐導(dǎo)向的技術(shù)專家交流后,我發(fā)現(xiàn)他們對AI的認知相當一致。以下是我對其中一些關(guān)鍵觀點的進一步解讀和拆解。

一、類Manus產(chǎn)品崛起之因

在深入探討之前,我們需要清醒認識到:今年Agent的大火,首先應(yīng)該是模型能力取得了大幅增強,其次才是在這基礎(chǔ)之上的tool-use上取得了關(guān)鍵突破。

大模型解決規(guī)劃與調(diào)度問題,Manus類AI產(chǎn)品能爆發(fā)的核心原因就是模型能力大幅增強;

工具鏈解決多模態(tài)問題,包括最近很火的MCP、Computer Use其實都算是AI多模態(tài)能力的延伸,要的就是解決AI各種“不行”的問題,這里包括了聽覺、視覺、觸覺等;

所謂的記憶和反饋迭代全部是數(shù)據(jù)工程的事情,之前一直叫RAG,可能最近還多了個稱呼上下文工程。數(shù)據(jù)工程做得好,也可以有效降低模型幻覺。

記憶體系之前不可行,現(xiàn)在可行的核心原因是模型上下文大大擴展,從現(xiàn)在來看破百萬是早晚的事。

綜上,Agent能行的原因來源于模型能力增強。

在此之下才工具鏈的繁華:“從編程到browser-use,再到computer-use,以及隨著MCP通用接口普及率的提升,Agent的tool use能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統(tǒng)進行交互?!?/p>

下圖會更清晰展示,今年Agent的爆發(fā)是由于工具鏈疊加AI:

只不過,值得一提的是通用Agent使用browser-use、computer-use還是有一些無奈之舉,因為很多網(wǎng)站并不提供API。

XX-use未必是最優(yōu)解

理想情況是讓 Agent 調(diào)用受控、可測、可審計的函數(shù)(MCP),Computer Use 作為兜底能力。

比如我們之前做的簡單實現(xiàn):《Coze+Claude實現(xiàn)Manus》。

這里就沒有使用Computer Use,一來是場景足夠單一,二來是就是想驗證下AI Code 這種方式(Claude)。

大家可以想象下,當AI編程再強大一點、理解能力更強一點,整個Agent架構(gòu)可能就閉環(huán)了,這可能也是為什么很多巨頭都在關(guān)注這塊的原因:

掌控了AI編程能力,就掌控了智能體能力擴展的“開關(guān)”。這不再是做一個應(yīng)用,而是在打造一個能夠生長應(yīng)用的平臺。

這符合OpenAI、Google等巨頭“模型吃掉一切”的終極路線圖,只不過這里面的安全性問題和實現(xiàn)難度較高,還有很長的路要走…

然后就是很多消極的聲音了:

二、消極的聲音

雖然有些不公平,但Manus成了通用Agent的代表,也是主要輸出對象…

王顯:Manus前陣子剛推出的新功能Wide Research,我覺得非常不具備競爭力,對提高產(chǎn)品競爭力沒有什么用。

他進一步的觀點就更激烈了:Manus自始至今,從產(chǎn)品角度而言,思路是完全失敗的。

在他看來,早期采用淺而寬的策略獲客可以理解,但長期無法抵御模型廠商的下沉和垂直廠商的滲透。

大家的觀點是比較一致的全部集中在能否解決問題:用戶遇到真正復(fù)雜的問題時,這個通用Agent還是幫不上忙;當一個Agent宣稱能做所有事情時,它往往在任何一個領(lǐng)域都做不到最好;…

上述的觀點有些過于激烈,因為通用Agent肯定是一個大的發(fā)展方向,只不過暫時表現(xiàn)還不佳罷了。

其中有一句話是尤其關(guān)鍵的:Manus仍然沒有解決場景壁壘的問題。

它沒有專業(yè)數(shù)據(jù)、沒有專屬工具鏈、沒有行業(yè)認證、沒有與業(yè)務(wù)深度綁定的集成,也沒有與高價值業(yè)務(wù)場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構(gòu)建場景護城河。

任何人能做就代表實現(xiàn)成本不高,但成本并不高是相對的,就算是垂直領(lǐng)域Agent也會遭遇以下問題:

  1. 精準的意圖識別:用戶的需求是莫名其妙的。智能體必須理解用戶的“言外之意”,這是用戶體驗的一道檻。需要極其精細的提示工程和大量的對話數(shù)據(jù)進行調(diào)優(yōu);
  2. 強大的工具生態(tài):智能體的能力邊界由其能調(diào)用的工具決定。一個“Manus”能否真正解決問題,取決于它能否高效使用各種服務(wù)(如訂票、查郵件、控智能家居、分析數(shù)據(jù)等)。自建工具鏈成本高昂,因此與第三方服務(wù)的集成能力至關(guān)重要;
  3. 深厚的領(lǐng)域知識:在垂直領(lǐng)域,通用知識遠遠不夠。需要將行業(yè)的SOP(標準作業(yè)程序)、私有的數(shù)據(jù)庫、專家的經(jīng)驗注入到智能體中。這部分工作是“臟活累活”,沒有捷徑,但正是構(gòu)建護城河的關(guān)鍵;

這也是為什么紅杉這么推崇OpenEvidence的原因:

AI應(yīng)用的競爭已經(jīng)從技術(shù)能力的競爭,轉(zhuǎn)向了產(chǎn)品定義、用戶體驗打磨、生態(tài)整合與垂直行業(yè)知識深度的競爭,早期的紅利屬于在垂直領(lǐng)域做得無比深入的團隊。

所以,通用Agent尚不成熟,為什么大家各自追捧?

三、期待與資本同在

王顯更是認為這場通用Agent泡沫的興起是創(chuàng)業(yè)公司和資本共謀的產(chǎn)物:

“ Manus 根本不是在做產(chǎn)品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創(chuàng)始人是拿到融資后真正深入場景做產(chǎn)品還是卷錢跑路,只有創(chuàng)始人自己才知道。產(chǎn)品非常失敗,但營銷可以說非常成功。”

張森森表示,“國內(nèi)很多 Agent 產(chǎn)品功能繁多,但基本都是快速堆疊,痛點不聚焦?!?/p>

“比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產(chǎn)品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數(shù)據(jù)分析缺少可解釋性,設(shè)計產(chǎn)出質(zhì)量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現(xiàn)。很少有明確與工作流、KPI 綁定的可交付結(jié)果。”

……

正如各位大佬所言,通用Agent尚不成熟,為什么大家各自追捧呢?

我這里給個真實案例:

前兩個月,我一好基友是某公司的高管,他們開發(fā)了一個類Manus產(chǎn)品,正在他私下跟我吐槽毫無壁壘、一個月就搞定、幻覺很多的時候,他們老板卻表示直接All In!

原因無他,馬化騰給他們產(chǎn)品點贊了!你覺得怎么樣不重要,資本覺得怎么樣很重要,并且正因為成本低,創(chuàng)業(yè)公司就更高興了…

另一方面,我這邊AI訓(xùn)練營有個學(xué)員剛?cè)谫Y一個億,他們做的是垂直領(lǐng)域的Agent創(chuàng)業(yè),而就是在那個小的領(lǐng)域,很多Manus遇到的問題,他們幾乎全遇到了:“他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差;”“成功演示的往往是任務(wù)中那 20% 的標準化部分,而真正構(gòu)成工作核心的,是那 80% 的、充滿‘長尾異?!膹?fù)雜現(xiàn)實?!?/p>

從這些角度來說,原文章真的很良心…

總而言之,這里我看到的結(jié)論是:通用Agent作為既得利益者,他們是絕不會說自己不行的,資本參與者對于他們暫時行不行不大關(guān)注,反正他們是最為了解AI的一批人,相較而言,他們比其他人容易成功

接下來開始探討Agent缺陷的根本原因

四、Agent缺陷的根本原因

這部分的論述我特別認同郭煒的觀點:(很多Agent公司)沒有真正深入到用戶場景中去做。

只不過原因這里我有更多的感受:當前國內(nèi)創(chuàng)業(yè)生存環(huán)境極差,以我這邊創(chuàng)業(yè)為例:3個月拿下了電信審批資質(zhì),APP終于可以上線;6個月了算法備案還沒下來,所以AI模塊一直沒上…

不得不說國內(nèi)創(chuàng)業(yè)環(huán)境真的很差,這變相加劇了我們對投資的渴望,這會導(dǎo)致我們明知通用Agent不行,但也會投其所好的做一個,很不好意思來說:

我們11月產(chǎn)品里面也會有個Agent,并且我們并不其他他解決太多問題,但在20%我們要求的場景,我們會要求他很好!

這里也不是技術(shù)有什么,我們做什么,而是資本關(guān)注什么,我們不得不做什么,如果沒有基本的資金,那么我們馬上就會死…

所以,與其從技術(shù)層面找Agent缺陷的根本原因,不如從環(huán)境層面看問題:國內(nèi)創(chuàng)業(yè)者因各種原因都太急躁了,根本沒辦法沉下心來做數(shù)據(jù)工程!

我之前在公司做AI項目負責(zé)人的時候,一周要匯報三次;我的基友已經(jīng)是CEO了,但每周都要面對幾個投資人的“關(guān)切”,而這些都是壓力…

如果你要問我Agent缺陷的根本原因在哪,我會說需要在每個垂直領(lǐng)域打透,專家Agent出來后,通用Agent帶一個意圖識別就好。

而這一切從技術(shù)實現(xiàn)上來說并不難,主要難在行業(yè)KnowHow的梳理和知識結(jié)構(gòu)的沉淀,而一般公司(很多資金流健康的公司也慌)哪有那個耐心資金去耗啊!

我一個管理數(shù)字分身的Agent,折騰了一年多,中間因為生存問題斷斷續(xù)續(xù)幾次了…

綜上,Agent的根本缺陷在工程在資本在決心。

五、五大鴻溝

原文犀利地指出了通用Agent“掛羊頭賣狗肉”的現(xiàn)狀,我們結(jié)合自身情況 將其根本缺陷歸結(jié)于工程、資本與決心。但這三大癥結(jié)的背后,由于實際艱難環(huán)境息息相關(guān)…

原文太長,我們就不一一拆解了,但有幾個點是很重要的:

一、MCP因上下文缺失(知識語境缺少)導(dǎo)致的耗損

不存在一個“萬能Agent”硬扛所有,而是通過A2A協(xié)議,讓多個精通各自領(lǐng)域的垂直Agent協(xié)作完成復(fù)雜任務(wù)。

二、無法根除的“幻覺”難題

通用Agent在用戶側(cè)遇冷還有一個原因是他缺少模型的可觀測性,在嚴肅的生產(chǎn)環(huán)境中,對應(yīng)用的準確率要求極高,95%都是不可接受的數(shù)字,必須達到99%。

也正是這個原因 AI Workflow 才在企業(yè)場景中大行其是,后續(xù)“Workflow(工作流)+ Agent”的混合模式會是一種選擇,用確定的流程框架,約束不確定的AI決策。

三、過度炒作的多智能體

現(xiàn)階段單智能體已經(jīng)可以很多問題,多智能體這種東西,大家聽聽就好了,不要盲目增加復(fù)雜度…

其他如什么上下文長度和模型能力,大家了解下就好…

六、結(jié)語

這里有一個問題:既然通用 Agent 現(xiàn)在不靠譜,那么有沒有靠譜的垂直Agent?

作為過去AI醫(yī)療從業(yè)者來說,被頭部 VC 押注并在醫(yī)生群體里快速破圈的OpenEvidence似乎很受看好。

原因也很簡單:他把“智能體”拆解為“行業(yè)問題→數(shù)據(jù)語義→確定性交付”這條最基本的鏈路,用工程化思維來構(gòu)建產(chǎn)品。這里用說人話的方式來做下拆解,看看他到底哪里作對了:

一、鎖定單一人群

OpenEvidence只服務(wù)持有執(zhí)業(yè)資質(zhì)的醫(yī)生,不做“萬能助手”。

這一步看似放棄了廣闊市場,實則精準砍掉了80%的歧義輸入和長尾需求,換來高密度的可驗證問題場景。

而且這類數(shù)據(jù)是越來越有用的反饋。

二、強來源與全鏈路可溯源

OpenEvidence在可溯源,高質(zhì)量溯源這塊做得非常好!

他每個回答都必須帶有引用,且來源嚴格限定于《新英格蘭醫(yī)學(xué)雜志》(NEJM)、《美國醫(yī)學(xué)會雜志》(JAMA)等經(jīng)過同行評審的權(quán)威醫(yī)學(xué)證據(jù)。

這種設(shè)計將模型的“幻覺”壓縮到了醫(yī)生可接受的專業(yè)范圍內(nèi)。

三、產(chǎn)品化“證據(jù)鏈”,而非聊天機器人

OpenEvidence的另一個核心在于他基于高質(zhì)量數(shù)據(jù)生成的可溯源CoT。

這一特性的核心不是“聊出來”的答案,而是結(jié)構(gòu)化呈現(xiàn)“證據(jù)+臨床要點”的工作流產(chǎn)品,服務(wù)于床旁快速決策這一明確場景。

高質(zhì)量的數(shù)據(jù) + 像專家醫(yī)生一樣的思考方式,大幅度降低了幻覺的可能。四、以工程確定性換取智能邊界

從內(nèi)容合作、證據(jù)管線到模型與工作流的全程可觀測,持續(xù)把“軟性智能”嵌進“硬性流程”。

正如團隊一再強調(diào)的,其核心是 “臨床證據(jù)→結(jié)構(gòu)化→可追溯”的工程秩序。

總結(jié)一句話就是:他們在數(shù)據(jù)工程基礎(chǔ)上建立了完善的飛輪系統(tǒng),這讓他們產(chǎn)品越做越好了。

這種慢慢積累數(shù)據(jù)持續(xù)打磨的方式看上去很笨,實際上卻已經(jīng)跟一般Agent拉開了差距。

綜上,與其說OpenEvidence 是一個垂直Agent “會聊天的醫(yī)生”,不如說他是一個“證據(jù)工作流”產(chǎn)品。

它用高度確定性的工作流,兜住了大模型的不確定性,這與我們在前文強調(diào)的 “Workflow + Agent”路線完全一致。

當然,這只是一種做法,也許后面其他Agent有更好的做法呢?

本文由人人都是產(chǎn)品經(jīng)理作者【葉小釵】,微信公眾號:【葉小釵】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!