剛成17億美元估值獨(dú)角獸就被罵“毒瘤”，這個(gè)90后華人團(tuán)隊(duì)主導(dǎo)開發(fā)的“AI選秀”產(chǎn)品什么來頭？

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

剛成17億美元估值獨(dú)角獸就被罵“毒瘤”，這個(gè)90后華人團(tuán)隊(duì)主導(dǎo)開發(fā)的“AI選秀”產(chǎn)品什么來頭？

揚(yáng)帆出海

2026-01-11

0 評(píng)論 850 瀏覽 0 收藏

13 分鐘

這個(gè)由華人團(tuán)隊(duì)打造的“AI選秀”平臺(tái)通過雙盲測試讓用戶投票評(píng)選模型，卻因52%的錯(cuò)誤率被數(shù)據(jù)標(biāo)注巨頭Surge AI直指為“行業(yè)毒瘤”。本文深度拆解LMArena從開源實(shí)驗(yàn)到商業(yè)壟斷的崛起路徑，并揭示其背后引發(fā)的AI評(píng)估體系信任危機(jī)。

在當(dāng)下的AI時(shí)代中，AI大模型已經(jīng)深入我們的生活、工作以及方方面面。但有一個(gè)問題是，大模型的數(shù)量與迭代速度幾乎到了令人眩暈的地步——從OpenAI的GPT系列、Anthropic的Claude、Google的Gemini，到層出不窮的國產(chǎn)旗艦與開源黑馬，幾乎每隔幾周就有新AI和新版本問世，并且每一次都以“屠榜”的姿態(tài)登上各色榜單。

表面上，這些排行榜為我們提供了直觀的性能坐標(biāo)，但當(dāng)我們將這些高分模型真正拉進(jìn)日常任務(wù)里，常會(huì)發(fā)現(xiàn)它們有的答非所問、有的記憶不連貫導(dǎo)致邏輯斷裂、有的甚至還會(huì)自己“杜撰”。所謂“榜首”與“好用”之間，似乎隔著一道看不見的鴻溝。

那么，在參數(shù)競賽與分?jǐn)?shù)泡沫之外，究竟有沒有一種方式，能讓普通用戶乃至各行各業(yè)的從業(yè)者，更加直接且迅速地找到適合自己的、真正“好用”的AI產(chǎn)品？

別說，好像還真有。

比如LMArena。LMArena是一個(gè)AI評(píng)測平臺(tái)，用戶可以在LMArena上試用各種模型并投票，最關(guān)鍵的一點(diǎn)，LMArena采用的雙盲測試形式，即隨機(jī)給用戶提供模型，并且不告知模型名字，真正在AI圈里玩了一把《蒙面歌王》選秀。

從23年5月到25年5月，LMArena僅用了3年，就從一個(gè)實(shí)驗(yàn)性的開源網(wǎng)站成長為一家具備商業(yè)化運(yùn)營能力的公司，期間（5月）完成了1億美元種子輪融資，估值6億美元。而在今年1月7日，僅8個(gè)月時(shí)間，LMArena又完成了1.5億美元的A輪融資，由Felicis和加州大學(xué)投資公司（UC Investments）領(lǐng)投，a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners等跟投。這輪投資過后，LMArena累計(jì)融資2.5億美元，估值從6億美元飆升至17億美元，成為AI界又一獨(dú)角獸。

01 華人團(tuán)隊(duì)主導(dǎo)研發(fā)，能測評(píng)AI模型的產(chǎn)品什么樣？

LMArena并非一個(gè)新AI平臺(tái)，其第一次面世是在2023年5月，彼時(shí)LMArena名為Chatbot Arena（為了統(tǒng)一，下文統(tǒng)稱LMArena），由LMSYS這一開源組織創(chuàng)建。

LMSYS的“含中量”非常高。其核心成員基本都是來自斯坦福、伯克利、UCSD、CMU等全球頂尖名校的學(xué)霸，LMArena這個(gè)開源項(xiàng)目也是由華人團(tuán)隊(duì)主導(dǎo)開發(fā)的。

據(jù)調(diào)查，LMArena的成功有些“誤打誤撞”——該項(xiàng)目早期只是LMSYS為了測試自家開源模型水平而做的一個(gè)測試平臺(tái)：把模型放到網(wǎng)站上，讓用戶以盲測的方式來選出更優(yōu)秀的那個(gè)，由此得到的結(jié)果顯然更加公平和權(quán)威。最終結(jié)果是，LMArena從一個(gè)用戶“測著玩”的開源網(wǎng)站，發(fā)展成了AI界的金牌裁判。

從2023年5月到24年期間，不僅Claude、GPT-4、Gemini、DeepSeek等知名大模型都陸續(xù)接入LMArena，隨著模型能力的擴(kuò)展，LMArena也切入了更多AI細(xì)分賽道，支持對(duì)搜索、圖像、代碼、實(shí)時(shí)網(wǎng)頁開發(fā)等AI生成能力的評(píng)估。而在這個(gè)過程中，LMArena逐漸成為了“模型能力試金石”，成為大模型背后公司們爭搶的“宣發(fā)陣地”。

（圖源：LMArena官網(wǎng)）

也正是基于此，LMArena找到了商業(yè)化的切入口。此前，LMArena面向的主要是C端普通用戶，而普通用戶在使用LMArena時(shí)是完全免費(fèi)的，他們能為LMArena提供的是流量和數(shù)據(jù)。據(jù)悉，截至目前LMArena的每月活躍用戶數(shù)量超過500萬，覆蓋了150多個(gè)國家，月對(duì)話量達(dá)6000萬次，上線至今累計(jì)真實(shí)人機(jī)對(duì)話已經(jīng)超過2.5億次，此外累計(jì)用戶投票次數(shù)也超過5000萬次。

而在大模型公司將LMArena視作重要陣地并紛紛入駐之后，LMArena在25年9月推出了一項(xiàng)名為“AI Evaluations”的B2B付費(fèi)服務(wù)，形式是提供定制化評(píng)測。簡單來說，就是AI企業(yè)或者實(shí)驗(yàn)室付費(fèi)給LMArena，通過其眾包社區(qū)對(duì)模型進(jìn)行評(píng)估，基于LMArena在C端用戶群體之間的聲量，這些經(jīng)過驗(yàn)證的AI很容易獲得普通用戶的好感。根據(jù)LMArena數(shù)據(jù)，其付費(fèi)服務(wù)上線不到4個(gè)月（截至25年12月底），ARR就從0沖到了3000萬美元，包括OpenAI、Google、xAI等在內(nèi)的頭部AI企業(yè)都是LMArena的合作用戶。

其次值得注意的是，LMArena目前還有一項(xiàng)新興的收入來源——Private Arenas，該功能允許模型開發(fā)者使用內(nèi)部或敏感數(shù)據(jù)來評(píng)估專有系統(tǒng)，而無需將結(jié)果公開。

此外，LMArena下一步商業(yè)化的方向還包括“評(píng)估工具與分析服務(wù)商業(yè)化”和“API與SDK訪問權(quán)限”，前者能提供針對(duì)不同領(lǐng)域模型的定制化工具和AI能力相關(guān)的診斷報(bào)告；后者則能讓AI企業(yè)將LMArena的評(píng)估流程和編程方式集成到自身訓(xùn)練、發(fā)布或者監(jiān)控等工作流中使用。

這樣一來，LMArena就同時(shí)打通了B端和C端，一方面，保證了C端用戶體驗(yàn)，維持住了高活躍；另一方面，給AI企業(yè)提供了大量真實(shí)用戶數(shù)據(jù)，一定程度上解決了模型開發(fā)調(diào)優(yōu)過程中的一些盲點(diǎn)；其次，其提供的私人定制服務(wù)和領(lǐng)域，解決了AI企業(yè)無法在公域測試評(píng)估模型的痛點(diǎn)；最后，也為他們提供了一個(gè)理想的宣發(fā)陣地。

更值得關(guān)注的是，作為首個(gè)AI評(píng)測類產(chǎn)品，LMArena幾乎已經(jīng)“壟斷”了這個(gè)市場，也因此成為資方們的“首選”。Felicis從種子輪的跟投方變成A輪的領(lǐng)投方，就很好地證明了這一點(diǎn)。

02 有潛力，也有風(fēng)險(xiǎn)

LMArena的火爆，展示了AI評(píng)測市場的潛力。但也是LMArena，讓我們注意到了AI評(píng)測類產(chǎn)品目前存在的隱憂。

2025年底，美國數(shù)據(jù)標(biāo)注公司Surge AI發(fā)布了一篇文章，稱LMArena是AI界的毒瘤。

（圖源：Surge AI官網(wǎng)blog）

先提一下，Surge AI由美籍華裔Edwin Chen創(chuàng)立，是AI數(shù)據(jù)標(biāo)注領(lǐng)域的絕對(duì)頭部企業(yè)。這家企業(yè)和其背后的創(chuàng)始人有著相當(dāng)傳奇的色彩：團(tuán)隊(duì)不足100人、沒有經(jīng)歷過融資、不過分營銷，但卻在成立第一天就開始盈利，并且成立不到4年?duì)I收就突破了10億美元，創(chuàng)始人Edwin Chen則是在38歲達(dá)成身家180億美元成就，進(jìn)入2025年福布斯億萬富豪榜。

也正是基于Surge AI在“數(shù)據(jù)”領(lǐng)域的影響力，此文章發(fā)布后一度在全球引發(fā)了非常激烈的討論。過程是這樣的：Surge AI對(duì)LMArena的500組投票數(shù)據(jù)進(jìn)行了分析，發(fā)現(xiàn)錯(cuò)誤率有52%，且39%的投票結(jié)果和現(xiàn)實(shí)情況完全相悖。

（圖源：Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》）

他們還給出了幾組示例，比如詢問兩個(gè)AI模型關(guān)于蛋糕烤盤的問題，A表示“9英寸圓形蛋糕盤和9×13英寸長方形烤盤尺寸相同”，B則通過嚴(yán)謹(jǐn)計(jì)算給出了正確答案。但用戶投票卻給了A，原因是A的回答更自信。

（圖源：Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》）

借由這個(gè)示例，Sruge AI表示，這些AI的評(píng)估者并非專業(yè)人士，并且由于當(dāng)代人幾乎都受到TikTok等短視頻的影響，他們更偏好表情符號(hào)和回答長度而非數(shù)據(jù)質(zhì)量，因此他們?cè)u(píng)估得到的結(jié)果可以想見也并不嚴(yán)謹(jǐn)，但他們的決定，卻能一定程度上決定AI模型的發(fā)展方向，并且影響AI開發(fā)者的決策。

比如Meta發(fā)布的Maverick模型，在接入LMArena的版本中就完全靠攏用戶傾好，增加了不少emoji，并且憑借用戶投票沖入LMArena榜單TOP2，而實(shí)際公開版本卻完全不同，在三方榜單上的排名和LMArena排名一度相差30名。

（圖源：Surge AI官網(wǎng)blog-《LMArena is a cancer on AI》）

如果AI模型們都朝著排版更好看、符號(hào)表情更豐富的方向，追求排名和用戶點(diǎn)擊，而不是打造更真實(shí)可靠、安全的數(shù)據(jù)和內(nèi)容，堅(jiān)守立場和原則，就好比明星聽從粉絲的要求來決定妝造和事業(yè)方向，那么勢必會(huì)破壞應(yīng)有秩序。雖然我們也看到有AI產(chǎn)品在堅(jiān)持自己的立場，但如果能引領(lǐng)行業(yè)的AI企業(yè)不做出調(diào)整和表率作用，那么屆時(shí)AI領(lǐng)域極有可能會(huì)倒退。

而這個(gè)經(jīng)由LMArena為代表的AI評(píng)測類產(chǎn)品引發(fā)的思考，或許會(huì)成為未來整個(gè)AI領(lǐng)域都要面對(duì)的嚴(yán)肅議題。

03 寫在最后

最后，Scale AI和LMArena的“戰(zhàn)爭”還在持續(xù)。為了解決他們自己提出的質(zhì)疑，Scale AI在25年9月推出了Seal showdown平臺(tái)，在這一平臺(tái)上，評(píng)估者從普通用戶變成了律師、醫(yī)生、教授等付費(fèi)專家們，以增加評(píng)估結(jié)果的專業(yè)度和嚴(yán)謹(jǐn)性。雖然目前效果還未可知，但站在第三方視角，揚(yáng)帆出海認(rèn)為這可能并非解決此類事件的最佳答案。這條賽道最終會(huì)如何發(fā)展？或許還需要時(shí)間來解答——我們期待下一個(gè)AI評(píng)測爆品的出現(xiàn)。

參考文章：

1.LMArena is a cancer on AI

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

2.Report:LMArena Business Breakdown&Founding Story | Contrary Research

https://research.contrary.com/company/lmarena

作者丨汪醬編輯丨火狐貍

本文由人人都是產(chǎn)品經(jīng)理作者【揚(yáng)帆出海】，微信公眾號(hào)：【揚(yáng)帆出?！?，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App