剛成17億美元估值獨(dú)角獸就被罵“毒瘤”,這個(gè)90后華人團(tuán)隊(duì)主導(dǎo)開發(fā)的“AI選秀”產(chǎn)品什么來頭?

0 評(píng)論 850 瀏覽 0 收藏 13 分鐘

這個(gè)由華人團(tuán)隊(duì)打造的“AI選秀”平臺(tái)通過雙盲測試讓用戶投票評(píng)選模型,卻因52%的錯(cuò)誤率被數(shù)據(jù)標(biāo)注巨頭Surge AI直指為“行業(yè)毒瘤”。本文深度拆解LMArena從開源實(shí)驗(yàn)到商業(yè)壟斷的崛起路徑,并揭示其背后引發(fā)的AI評(píng)估體系信任危機(jī)。

在當(dāng)下的AI時(shí)代中,AI大模型已經(jīng)深入我們的生活、工作以及方方面面。但有一個(gè)問題是,大模型的數(shù)量與迭代速度幾乎到了令人眩暈的地步——從OpenAI的GPT系列、Anthropic的Claude、Google的Gemini,到層出不窮的國產(chǎn)旗艦與開源黑馬,幾乎每隔幾周就有新AI和新版本問世,并且每一次都以“屠榜”的姿態(tài)登上各色榜單。

表面上,這些排行榜為我們提供了直觀的性能坐標(biāo),但當(dāng)我們將這些高分模型真正拉進(jìn)日常任務(wù)里,常會(huì)發(fā)現(xiàn)它們有的答非所問、有的記憶不連貫導(dǎo)致邏輯斷裂、有的甚至還會(huì)自己“杜撰”。所謂“榜首”與“好用”之間,似乎隔著一道看不見的鴻溝。

那么,在參數(shù)競賽與分?jǐn)?shù)泡沫之外,究竟有沒有一種方式,能讓普通用戶乃至各行各業(yè)的從業(yè)者,更加直接且迅速地找到適合自己的、真正“好用”的AI產(chǎn)品?

別說,好像還真有。

比如LMArena。LMArena是一個(gè)AI評(píng)測平臺(tái),用戶可以在LMArena上試用各種模型并投票,最關(guān)鍵的一點(diǎn),LMArena采用的雙盲測試形式,即隨機(jī)給用戶提供模型,并且不告知模型名字,真正在AI圈里玩了一把《蒙面歌王》選秀。

從23年5月到25年5月,LMArena僅用了3年,就從一個(gè)實(shí)驗(yàn)性的開源網(wǎng)站成長為一家具備商業(yè)化運(yùn)營能力的公司,期間(5月)完成了1億美元種子輪融資,估值6億美元。而在今年1月7日,僅8個(gè)月時(shí)間,LMArena又完成了1.5億美元的A輪融資,由Felicis和加州大學(xué)投資公司(UC Investments)領(lǐng)投,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等跟投。這輪投資過后,LMArena累計(jì)融資2.5億美元,估值從6億美元飆升至17億美元,成為AI界又一獨(dú)角獸。

01 華人團(tuán)隊(duì)主導(dǎo)研發(fā),能測評(píng)AI模型的產(chǎn)品什么樣?

LMArena并非一個(gè)新AI平臺(tái),其第一次面世是在2023年5月,彼時(shí)LMArena名為Chatbot Arena(為了統(tǒng)一,下文統(tǒng)稱LMArena),由LMSYS這一開源組織創(chuàng)建。

LMSYS的“含中量”非常高。其核心成員基本都是來自斯坦福、伯克利、UCSD、CMU等全球頂尖名校的學(xué)霸,LMArena這個(gè)開源項(xiàng)目也是由華人團(tuán)隊(duì)主導(dǎo)開發(fā)的。

據(jù)調(diào)查,LMArena的成功有些“誤打誤撞”——該項(xiàng)目早期只是LMSYS為了測試自家開源模型水平而做的一個(gè)測試平臺(tái):把模型放到網(wǎng)站上,讓用戶以盲測的方式來選出更優(yōu)秀的那個(gè),由此得到的結(jié)果顯然更加公平和權(quán)威。最終結(jié)果是,LMArena從一個(gè)用戶“測著玩”的開源網(wǎng)站,發(fā)展成了AI界的金牌裁判。

從2023年5月到24年期間,不僅Claude、GPT-4、Gemini、DeepSeek等知名大模型都陸續(xù)接入LMArena,隨著模型能力的擴(kuò)展,LMArena也切入了更多AI細(xì)分賽道,支持對(duì)搜索、圖像、代碼、實(shí)時(shí)網(wǎng)頁開發(fā)等AI生成能力的評(píng)估。而在這個(gè)過程中,LMArena逐漸成為了“模型能力試金石”,成為大模型背后公司們爭搶的“宣發(fā)陣地”。

(圖源:LMArena官網(wǎng))

也正是基于此,LMArena找到了商業(yè)化的切入口。此前,LMArena面向的主要是C端普通用戶,而普通用戶在使用LMArena時(shí)是完全免費(fèi)的,他們能為LMArena提供的是流量和數(shù)據(jù)。據(jù)悉,截至目前LMArena的每月活躍用戶數(shù)量超過500萬,覆蓋了150多個(gè)國家,月對(duì)話量達(dá)6000萬次,上線至今累計(jì)真實(shí)人機(jī)對(duì)話已經(jīng)超過2.5億次,此外累計(jì)用戶投票次數(shù)也超過5000萬次。

而在大模型公司將LMArena視作重要陣地并紛紛入駐之后,LMArena在25年9月推出了一項(xiàng)名為“AI Evaluations”的B2B付費(fèi)服務(wù),形式是提供定制化評(píng)測。簡單來說,就是AI企業(yè)或者實(shí)驗(yàn)室付費(fèi)給LMArena,通過其眾包社區(qū)對(duì)模型進(jìn)行評(píng)估,基于LMArena在C端用戶群體之間的聲量,這些經(jīng)過驗(yàn)證的AI很容易獲得普通用戶的好感。根據(jù)LMArena數(shù)據(jù),其付費(fèi)服務(wù)上線不到4個(gè)月(截至25年12月底),ARR就從0沖到了3000萬美元,包括OpenAI、Google、xAI等在內(nèi)的頭部AI企業(yè)都是LMArena的合作用戶。

其次值得注意的是,LMArena目前還有一項(xiàng)新興的收入來源——Private Arenas,該功能允許模型開發(fā)者使用內(nèi)部或敏感數(shù)據(jù)來評(píng)估專有系統(tǒng),而無需將結(jié)果公開。

此外,LMArena下一步商業(yè)化的方向還包括“評(píng)估工具與分析服務(wù)商業(yè)化”和“API與SDK訪問權(quán)限”,前者能提供針對(duì)不同領(lǐng)域模型的定制化工具和AI能力相關(guān)的診斷報(bào)告;后者則能讓AI企業(yè)將LMArena的評(píng)估流程和編程方式集成到自身訓(xùn)練、發(fā)布或者監(jiān)控等工作流中使用。

這樣一來,LMArena就同時(shí)打通了B端和C端,一方面,保證了C端用戶體驗(yàn),維持住了高活躍;另一方面,給AI企業(yè)提供了大量真實(shí)用戶數(shù)據(jù),一定程度上解決了模型開發(fā)調(diào)優(yōu)過程中的一些盲點(diǎn);其次,其提供的私人定制服務(wù)和領(lǐng)域,解決了AI企業(yè)無法在公域測試評(píng)估模型的痛點(diǎn);最后,也為他們提供了一個(gè)理想的宣發(fā)陣地。

更值得關(guān)注的是,作為首個(gè)AI評(píng)測類產(chǎn)品,LMArena幾乎已經(jīng)“壟斷”了這個(gè)市場,也因此成為資方們的“首選”。Felicis從種子輪的跟投方變成A輪的領(lǐng)投方,就很好地證明了這一點(diǎn)。

02 有潛力,也有風(fēng)險(xiǎn)

LMArena的火爆,展示了AI評(píng)測市場的潛力。但也是LMArena,讓我們注意到了AI評(píng)測類產(chǎn)品目前存在的隱憂。

2025年底,美國數(shù)據(jù)標(biāo)注公司Surge AI發(fā)布了一篇文章,稱LMArena是AI界的毒瘤。

(圖源:Surge AI官網(wǎng)blog)

先提一下,Surge AI由美籍華裔Edwin Chen創(chuàng)立,是AI數(shù)據(jù)標(biāo)注領(lǐng)域的絕對(duì)頭部企業(yè)。這家企業(yè)和其背后的創(chuàng)始人有著相當(dāng)傳奇的色彩:團(tuán)隊(duì)不足100人、沒有經(jīng)歷過融資、不過分營銷,但卻在成立第一天就開始盈利,并且成立不到4年?duì)I收就突破了10億美元,創(chuàng)始人Edwin Chen則是在38歲達(dá)成身家180億美元成就,進(jìn)入2025年福布斯億萬富豪榜。

也正是基于Surge AI在“數(shù)據(jù)”領(lǐng)域的影響力,此文章發(fā)布后一度在全球引發(fā)了非常激烈的討論。過程是這樣的:Surge AI對(duì)LMArena的500組投票數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)錯(cuò)誤率有52%,且39%的投票結(jié)果和現(xiàn)實(shí)情況完全相悖。

(圖源:Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》)

他們還給出了幾組示例,比如詢問兩個(gè)AI模型關(guān)于蛋糕烤盤的問題,A表示“9英寸圓形蛋糕盤和9×13英寸長方形烤盤尺寸相同”,B則通過嚴(yán)謹(jǐn)計(jì)算給出了正確答案。但用戶投票卻給了A,原因是A的回答更自信。

(圖源:Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》)

借由這個(gè)示例,Sruge AI表示,這些AI的評(píng)估者并非專業(yè)人士,并且由于當(dāng)代人幾乎都受到TikTok等短視頻的影響,他們更偏好表情符號(hào)和回答長度而非數(shù)據(jù)質(zhì)量,因此他們?cè)u(píng)估得到的結(jié)果可以想見也并不嚴(yán)謹(jǐn),但他們的決定,卻能一定程度上決定AI模型的發(fā)展方向,并且影響AI開發(fā)者的決策。

比如Meta發(fā)布的Maverick模型,在接入LMArena的版本中就完全靠攏用戶傾好,增加了不少emoji,并且憑借用戶投票沖入LMArena榜單TOP2,而實(shí)際公開版本卻完全不同,在三方榜單上的排名和LMArena排名一度相差30名。

(圖源:Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》)

如果AI模型們都朝著排版更好看、符號(hào)表情更豐富的方向,追求排名和用戶點(diǎn)擊,而不是打造更真實(shí)可靠、安全的數(shù)據(jù)和內(nèi)容,堅(jiān)守立場和原則,就好比明星聽從粉絲的要求來決定妝造和事業(yè)方向,那么勢必會(huì)破壞應(yīng)有秩序。雖然我們也看到有AI產(chǎn)品在堅(jiān)持自己的立場,但如果能引領(lǐng)行業(yè)的AI企業(yè)不做出調(diào)整和表率作用,那么屆時(shí)AI領(lǐng)域極有可能會(huì)倒退。

而這個(gè)經(jīng)由LMArena為代表的AI評(píng)測類產(chǎn)品引發(fā)的思考,或許會(huì)成為未來整個(gè)AI領(lǐng)域都要面對(duì)的嚴(yán)肅議題。

03 寫在最后

最后,Scale AI和LMArena的“戰(zhàn)爭”還在持續(xù)。為了解決他們自己提出的質(zhì)疑,Scale AI在25年9月推出了Seal showdown平臺(tái),在這一平臺(tái)上,評(píng)估者從普通用戶變成了律師、醫(yī)生、教授等付費(fèi)專家們,以增加評(píng)估結(jié)果的專業(yè)度和嚴(yán)謹(jǐn)性。雖然目前效果還未可知,但站在第三方視角,揚(yáng)帆出海認(rèn)為這可能并非解決此類事件的最佳答案。這條賽道最終會(huì)如何發(fā)展?或許還需要時(shí)間來解答——我們期待下一個(gè)AI評(píng)測爆品的出現(xiàn)。

參考文章:

1.LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

2.Report:LMArena Business Breakdown&Founding Story | Contrary Research

https://research.contrary.com/company/lmarena

作者丨汪醬編輯丨火狐貍

本文由人人都是產(chǎn)品經(jīng)理作者【揚(yáng)帆出海】,微信公眾號(hào):【揚(yáng)帆出?!?,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!