做題家vs科學(xué)家:一個(gè)30B模型如何顛覆萬(wàn)億參數(shù)的AI軍備競(jìng)賽

0 評(píng)論 714 瀏覽 0 收藏 19 分鐘

當(dāng)AI行業(yè)陷入萬(wàn)億參數(shù)的軍備競(jìng)賽時(shí),MiroThinker 1.5用30B參數(shù)重新定義了智能的本質(zhì)。這款模型通過(guò)‘科學(xué)家模式’的訓(xùn)練理念,將主動(dòng)查證、多輪校驗(yàn)與自我修正內(nèi)化為核心能力,在多個(gè)基準(zhǔn)測(cè)試中媲美甚至超越超大模型。本文深度解析其Interactive Scaling技術(shù)如何突破傳統(tǒng)Scaling Law的天花板,為AI發(fā)展路徑提供全新思路。

整個(gè)行業(yè)都在比誰(shuí)的參數(shù)更大、誰(shuí)的上下文更長(zhǎng)時(shí),你有沒(méi)有想過(guò)一個(gè)問(wèn)題:智能的本質(zhì)到底是什么?是把整個(gè)互聯(lián)網(wǎng)塞進(jìn)參數(shù)里,還是學(xué)會(huì)如何在需要時(shí)精準(zhǔn)地找到并驗(yàn)證信息?當(dāng)所有人都在用蠻力堆砌萬(wàn)億參數(shù)的”做題家模型”時(shí),陳天橋和代季峰卻選擇了一條完全相反的路:用30B參數(shù)的”科學(xué)家模型”,跑出了萬(wàn)億參數(shù)模型的性能。這不是什么漸進(jìn)式改良,而是對(duì)整個(gè)AI發(fā)展路徑的根本性反思。

2026年1月5日,由陳天橋和清華AI學(xué)者代季峰聯(lián)合發(fā)起的MiroMind團(tuán)隊(duì),正式發(fā)布了自研旗艦搜索智能體模型MiroThinker 1.5。這個(gè)消息本身并不算特別,畢竟最近幾個(gè)月幾乎每周都有新模型發(fā)布。但當(dāng)我深入了解后發(fā)現(xiàn),這個(gè)模型背后代表的思路,可能會(huì)徹底改變我們對(duì)AI能力邊界的認(rèn)知。它用僅30B參數(shù)的版本,在多個(gè)基準(zhǔn)測(cè)試中跑出了與萬(wàn)億參數(shù)模型旗鼓相當(dāng)甚至更好的表現(xiàn)。更關(guān)鍵的是,它的推理成本只有同類模型的1/20,推理速度還更快。這聽(tīng)起來(lái)像是在違反物理定律,但MiroMind團(tuán)隊(duì)卻找到了一個(gè)非常有說(shuō)服力的解釋:他們沒(méi)有讓模型變成一個(gè)死記硬背的”做題家”,而是訓(xùn)練它成為一個(gè)會(huì)主動(dòng)查證、反復(fù)驗(yàn)證、不斷修正的”科學(xué)家”。

參數(shù)競(jìng)賽的盡頭在哪里

我一直在思考一個(gè)問(wèn)題:為什么大模型發(fā)展到現(xiàn)在,大家都在拼命堆參數(shù)?從幾十億到幾百億,再到現(xiàn)在動(dòng)輒上萬(wàn)億,參數(shù)規(guī)模的增長(zhǎng)似乎永無(wú)止境。背后的邏輯其實(shí)很簡(jiǎn)單,就是所謂的Scaling Law:模型越大,能力越強(qiáng)。這個(gè)規(guī)律在過(guò)去幾年確實(shí)有效,每次參數(shù)翻倍,模型性能都會(huì)有顯著提升。但我越來(lái)越感覺(jué)到,這條路可能正在接近它的天花板。

想想看,把參數(shù)從1000億增加到10000億,需要10倍的算力、10倍的訓(xùn)練時(shí)間、10倍的成本。但性能提升有10倍嗎?顯然沒(méi)有。邊際收益遞減的規(guī)律在這里體現(xiàn)得淋漓盡致。更重要的是,即使你把整個(gè)互聯(lián)網(wǎng)的內(nèi)容都塞進(jìn)模型參數(shù)里,它還是會(huì)出現(xiàn)幻覺(jué),還是會(huì)在遇到訓(xùn)練數(shù)據(jù)中沒(méi)見(jiàn)過(guò)的問(wèn)題時(shí)給出錯(cuò)誤答案。因?yàn)樗举|(zhì)上只是在做模式匹配和統(tǒng)計(jì)推斷,并不是真正的理解和推理。

MiroMind團(tuán)隊(duì)提出的”做題家模式”這個(gè)比喻特別貼切。傳統(tǒng)大模型就像一個(gè)死記硬背的學(xué)生,試圖把所有知識(shí)都裝進(jìn)腦子里,考試時(shí)靠記憶和題感作答。這種方法在應(yīng)對(duì)見(jiàn)過(guò)的問(wèn)題時(shí)確實(shí)有效,但一旦遇到新問(wèn)題,就只能靠概率猜測(cè),給出一個(gè)”看起來(lái)合理”的答案。這就是為什么大模型經(jīng)常會(huì)一本正經(jīng)地胡說(shuō)八道,因?yàn)樗鼈儾⒉恢雷约翰恢朗裁矗皇歉鶕?jù)統(tǒng)計(jì)規(guī)律拼湊出一個(gè)答案。

而MiroThinker 1.5代表的是另一種思路,團(tuán)隊(duì)稱之為”科學(xué)家模式”。它不是試圖記住所有知識(shí),而是學(xué)會(huì)如何進(jìn)行研究:遇到問(wèn)題先提出假設(shè),然后主動(dòng)去外部世界查找證據(jù),發(fā)現(xiàn)證據(jù)不符就修正假設(shè),再次查證,不斷迭代直到證據(jù)收斂。這個(gè)過(guò)程和真正的科學(xué)研究如出一轍,也是人類解決復(fù)雜問(wèn)題的方式。關(guān)鍵區(qū)別在于,它不是在參數(shù)空間里閉門造車,而是不斷與外部世界交互驗(yàn)證。

MiroThinker-v1.5

Interactive Scaling:智能增長(zhǎng)的第三維度

我認(rèn)為MiroMind團(tuán)隊(duì)最大的貢獻(xiàn),不是做出了一個(gè)性能更好的模型,而是系統(tǒng)性地提出了”Interactive Scaling”這個(gè)概念。過(guò)去我們談?wù)撃P湍芰Φ臄U(kuò)展,主要關(guān)注兩個(gè)維度:模型參數(shù)規(guī)模和上下文長(zhǎng)度。參數(shù)越大,理論上能存儲(chǔ)的知識(shí)越多;上下文越長(zhǎng),能處理的信息越多。但MiroMind指出了第三個(gè)維度:與外部世界的交互頻率和深度。

這個(gè)觀點(diǎn)聽(tīng)起來(lái)簡(jiǎn)單,但意義深遠(yuǎn)。傳統(tǒng)的Scaling Law本質(zhì)上是在擴(kuò)展模型的”內(nèi)存”,試圖把世界知識(shí)都裝進(jìn)參數(shù)里。但世界是無(wú)限的,參數(shù)是有限的。無(wú)論你的模型有多大,總有它沒(méi)見(jiàn)過(guò)的知識(shí)、沒(méi)學(xué)過(guò)的概念、沒(méi)經(jīng)歷過(guò)的情況。而Interactive Scaling的思路是:與其把有限的算力都用來(lái)擴(kuò)大內(nèi)存,不如訓(xùn)練模型學(xué)會(huì)高效地”借力”——在需要時(shí)快速?gòu)耐獠渴澜绔@取信息。

MiroThinker 1.5在訓(xùn)練階段就把這種交互能力內(nèi)化了。它不是把Interactive Scaling當(dāng)作推理時(shí)的外掛功能,而是從訓(xùn)練開(kāi)始就系統(tǒng)性地強(qiáng)化這種行為模式。具體來(lái)說(shuō),訓(xùn)練過(guò)程中會(huì)刻意削弱對(duì)”單次完美推理”的獎(jiǎng)勵(lì),轉(zhuǎn)而強(qiáng)化三種核心能力:主動(dòng)求證、多輪校驗(yàn)與自我修正、以及對(duì)推理捷徑的系統(tǒng)性過(guò)濾。

主動(dòng)求證這個(gè)能力特別關(guān)鍵。模型被訓(xùn)練成會(huì)把每個(gè)關(guān)鍵判斷拆解為可驗(yàn)證的子假設(shè),然后主動(dòng)發(fā)起對(duì)外查詢、檢索和比對(duì)。它不會(huì)滿足于給出一個(gè)”看起來(lái)合理”的答案,而是要找到可靠的信源支撐。如果輸出缺乏證據(jù)支持,在訓(xùn)練中會(huì)被系統(tǒng)性懲罰。這就培養(yǎng)了模型的一種本能:在不確定時(shí),先查證再判斷。

多輪校驗(yàn)與自我修正則讓模型學(xué)會(huì)了”慢思考”。推理不再是一次性的線性路徑,而是可以反復(fù)回溯和修正的過(guò)程。當(dāng)模型發(fā)現(xiàn)證據(jù)沖突時(shí),它會(huì)顯式調(diào)整假設(shè),重新查證,而不是帶著錯(cuò)誤繼續(xù)推下去。這就避免了傳統(tǒng)思維鏈推理中常見(jiàn)的問(wèn)題:一旦某一步出錯(cuò),后面的所有推理都會(huì)隨著錯(cuò)誤累積而崩潰。

最后是反幻覺(jué)機(jī)制。訓(xùn)練中不僅評(píng)估答案是否正確,更關(guān)注答案是如何得到的。那些依賴統(tǒng)計(jì)相關(guān)性、模式記憶或隱含先驗(yàn)而繞過(guò)證據(jù)驗(yàn)證的路徑,都會(huì)被標(biāo)記為低質(zhì)量推理。這種訓(xùn)練方式讓模型形成了一種習(xí)慣:在高風(fēng)險(xiǎn)結(jié)論前,必須先查證再收斂。

通過(guò)這種方式,MiroThinker 1.5用更小的參數(shù)規(guī)模,換來(lái)了更高的智能密度。它不需要記住所有知識(shí),只需要知道如何在需要時(shí)快速、精準(zhǔn)地找到并驗(yàn)證信息。這就是為什么30B參數(shù)的模型能跑出萬(wàn)億參數(shù)模型的性能——因?yàn)樗闹悄茉鲩L(zhǎng)空間不在內(nèi)部參數(shù),而在外部交互。

時(shí)序敏感訓(xùn)練:破解因果律的關(guān)鍵

除了Interactive Scaling,MiroThinker 1.5還有一個(gè)獨(dú)特的技術(shù)創(chuàng)新:時(shí)序敏感訓(xùn)練沙盒。這個(gè)技術(shù)解決了一個(gè)長(zhǎng)期困擾大模型的根本性問(wèn)題——如何真正預(yù)測(cè)未來(lái),而不是復(fù)述已知結(jié)果。

我發(fā)現(xiàn)很多人在談?wù)摯竽P偷?#8221;預(yù)測(cè)能力”時(shí),其實(shí)混淆了兩個(gè)概念。傳統(tǒng)大模型在訓(xùn)練時(shí)通常處于一種”上帝視角”,它在訓(xùn)練數(shù)據(jù)里早已”見(jiàn)過(guò)結(jié)果”,所學(xué)到的往往只是如何復(fù)述這些結(jié)果,而不是真正的預(yù)測(cè)。這就像讓學(xué)生做練習(xí)題,但題目和答案都已經(jīng)告訴他了,他只需要記住就行。這種訓(xùn)練方式培養(yǎng)不出真正的預(yù)測(cè)能力。

MiroMind團(tuán)隊(duì)設(shè)計(jì)的時(shí)序敏感訓(xùn)練沙盒,為模型戴上了一個(gè)”緊箍咒”:嚴(yán)格約束只能使用當(dāng)前可見(jiàn)的信息,在信息可見(jiàn)性受限的情況下做出判斷。這個(gè)約束貫穿整個(gè)訓(xùn)練過(guò)程,模型的每一步推理都只能訪問(wèn)當(dāng)前時(shí)間戳之前的信息,從機(jī)制上徹底杜絕了”未來(lái)信息泄露”的可能性。

具體實(shí)現(xiàn)上,團(tuán)隊(duì)構(gòu)建了一個(gè)可控?cái)?shù)據(jù)合成引擎,能夠生成覆蓋多任務(wù)類型、難度和時(shí)間戳都可控的訓(xùn)練數(shù)據(jù)。關(guān)鍵是,每道題目的”正確答案”不是靜態(tài)標(biāo)簽,而是隨時(shí)間戳動(dòng)態(tài)演化的。模型必須在嚴(yán)格的信息可見(jiàn)性約束下,基于當(dāng)時(shí)可獲取的信息做出判斷,而校驗(yàn)過(guò)程同樣會(huì)顯式引入時(shí)間戳約束,確保推演與評(píng)分都符合真實(shí)世界的時(shí)序邏輯。

更令我感興趣的是,這些預(yù)測(cè)不是”玄學(xué)”或事后諸葛亮,而是可以完全復(fù)盤驗(yàn)證的。團(tuán)隊(duì)提供的每個(gè)案例都有完整的思考過(guò)程記錄,可以看到模型是如何收集信息、如何分析情緒面和板塊走勢(shì)、如何在多個(gè)候選中做出選擇的。這種可驗(yàn)證性正是時(shí)序敏感訓(xùn)練帶來(lái)的:模型被迫學(xué)會(huì)在信息不完備、噪聲存在、信號(hào)延遲的真實(shí)條件下進(jìn)行推演與修正。

實(shí)測(cè)體驗(yàn):城鎮(zhèn)人口增長(zhǎng)

我花了相當(dāng)長(zhǎng)時(shí)間測(cè)試MiroThinker 1.5的實(shí)際表現(xiàn),選了一個(gè)需要跨時(shí)間數(shù)據(jù)分析的問(wèn)題:”從1949年到2009年,中國(guó)城鎮(zhèn)人口數(shù)量年均增長(zhǎng)百分之多少?”這個(gè)問(wèn)題特別有意思,因?yàn)樗枰P驼业娇煽康臍v史統(tǒng)計(jì)數(shù)據(jù),理解年均增長(zhǎng)率的計(jì)算方法,還要確保數(shù)據(jù)源的權(quán)威性。

MiroThinker 1.5的回答過(guò)程讓我印象深刻。它首先梳理了自己需要收集的所有信息:1949年中國(guó)城鎮(zhèn)人口基數(shù)、2009年城鎮(zhèn)人口數(shù)據(jù)、數(shù)據(jù)來(lái)源的可靠性驗(yàn)證。然后逐一查證,還會(huì)在每個(gè)步驟中反思驗(yàn)證當(dāng)前數(shù)據(jù)的準(zhǔn)確性。比如它會(huì)交叉對(duì)比國(guó)家統(tǒng)計(jì)局、歷年統(tǒng)計(jì)年鑒等多個(gè)權(quán)威來(lái)源的數(shù)據(jù),確保數(shù)字的一致性。

最終給出的結(jié)論很嚴(yán)謹(jǐn),整個(gè)推理過(guò)程透明可見(jiàn),數(shù)據(jù)來(lái)源清晰標(biāo)注,計(jì)算步驟完整展示。我注意到MiroThinker 1.5從不會(huì)直接給出一個(gè)數(shù)字就完事,而是會(huì)呈現(xiàn)完整的數(shù)據(jù)獲取、驗(yàn)證和計(jì)算過(guò)程,讓用戶可以完全復(fù)現(xiàn)和檢驗(yàn)。

實(shí)測(cè)城鎮(zhèn)居民增長(zhǎng)案例

通過(guò)這些實(shí)測(cè),我最深刻的感受是:MiroThinker 1.5確實(shí)實(shí)現(xiàn)了從”給答案”到”找答案”的轉(zhuǎn)變。它不是告訴你一個(gè)結(jié)論讓你相信,而是展示完整的研究過(guò)程讓你理解。這種透明性和可驗(yàn)證性,對(duì)于需要高置信度決策的場(chǎng)景來(lái)說(shuō),價(jià)值遠(yuǎn)超一個(gè)簡(jiǎn)單的答案。

想自己試試的朋友可以訪問(wèn):https://dr.miromind.ai/

基準(zhǔn)測(cè)試:用數(shù)據(jù)說(shuō)話

當(dāng)然,實(shí)際體驗(yàn)只是一方面,更客觀的評(píng)價(jià)還是要看基準(zhǔn)測(cè)試。MiroThinker 1.5在多個(gè)權(quán)威基準(zhǔn)測(cè)試中的表現(xiàn)都達(dá)到了全球第一梯隊(duì)水平。

在BrowseComp測(cè)試中,MiroThinker 1.5的表現(xiàn)尤為亮眼。這是一個(gè)專門針對(duì)網(wǎng)頁(yè)檢索類大模型的基準(zhǔn)測(cè)試,要求模型能夠在互聯(lián)網(wǎng)環(huán)境中高效搜索、理解和整合信息。MiroThinker 1.5的235B版本在英文測(cè)試中得分69.8%,在中文版本中更是達(dá)到71.5%,直接刷新了此前ChatGPT-Agent保持的榜單紀(jì)錄。

BrowseComp 性能對(duì)比

在GAIA驗(yàn)證集測(cè)試中,MiroThinker 1.5達(dá)到了82.4%的準(zhǔn)確率。GAIA是一個(gè)評(píng)估AI agent真實(shí)世界任務(wù)完成能力的基準(zhǔn),包含需要多步推理、工具使用和復(fù)雜決策的任務(wù)。這個(gè)成績(jī)超過(guò)了OpenAI Deep Research的67.4%,證明了MiroThinker 1.5在復(fù)雜任務(wù)處理上的優(yōu)勢(shì)。

HLE測(cè)試的結(jié)果同樣令人印象深刻。這是一個(gè)號(hào)稱”人類終極測(cè)試”的基準(zhǔn),包含大量需要深度推理和世界知識(shí)的問(wèn)題。MiroThinker 1.5在HLE-Text測(cè)試中達(dá)到29.5%,與DeepSeek-V3.1的29.8%幾乎持平,而后者的參數(shù)規(guī)模要大得多。

更值得關(guān)注的是FutureX基準(zhǔn)測(cè)試。這是一個(gè)專門評(píng)估模型預(yù)測(cè)未來(lái)事件能力的基準(zhǔn),MiroMind在2025年9月15日登頂排行榜第一,并保持了4個(gè)月的第一。他們將GPT-5對(duì)未來(lái)事件的預(yù)測(cè)準(zhǔn)確率提升了11%,這個(gè)提升幅度非常顯著。

這對(duì)AI行業(yè)意味著什么

我認(rèn)為MiroThinker 1.5的意義遠(yuǎn)超一個(gè)性能優(yōu)異的模型本身。它代表了AI發(fā)展路徑的一次重要反思,提出了一個(gè)根本性問(wèn)題:我們是要繼續(xù)在參數(shù)規(guī)模的紅海里拼資源,還是探索更智能、更高效的增長(zhǎng)路徑?

過(guò)去幾年,AI行業(yè)陷入了一種”軍備競(jìng)賽”的狀態(tài)。每家公司都在比拼誰(shuí)的模型更大、誰(shuí)的訓(xùn)練數(shù)據(jù)更多、誰(shuí)的算力更強(qiáng)。這種競(jìng)爭(zhēng)推動(dòng)了技術(shù)進(jìn)步,但也導(dǎo)致了資源的極度消耗和邊際收益的遞減。當(dāng)模型參數(shù)從千億增加到萬(wàn)億,訓(xùn)練成本可能增加十倍,但性能提升可能只有30%。這種投入產(chǎn)出比顯然是不可持續(xù)的。

MiroThinker 1.5的出現(xiàn),提供了一個(gè)完全不同的思路:與其把有限的算力都用來(lái)擴(kuò)大模型內(nèi)部的知識(shí)存儲(chǔ),不如訓(xùn)練模型學(xué)會(huì)如何高效地與外部世界交互。這個(gè)思路的核心在于認(rèn)識(shí)到,智能不等于全知,而是等于會(huì)學(xué)習(xí)、會(huì)查證、會(huì)推理。一個(gè)30B參數(shù)的模型,如果知道如何精準(zhǔn)地從外部世界獲取信息,就能解決那些需要萬(wàn)億參數(shù)才能記住的問(wèn)題。

從技術(shù)演進(jìn)的角度看,Interactive Scaling可能會(huì)成為繼模型規(guī)模、上下文長(zhǎng)度之后的第三個(gè)核心擴(kuò)展維度。未來(lái)的模型競(jìng)爭(zhēng),可能不再是比誰(shuí)的參數(shù)更多,而是比誰(shuí)的交互能力更強(qiáng)、驗(yàn)證機(jī)制更嚴(yán)密、自我修正能力更好。這種轉(zhuǎn)變會(huì)從根本上改變AI系統(tǒng)的架構(gòu)設(shè)計(jì)和訓(xùn)練方法。

對(duì)于開(kāi)發(fā)者和企業(yè)來(lái)說(shuō),這意味著更低的部署成本和更高的可解釋性。一個(gè)30B參數(shù)的模型可以在單張RTX 4090上運(yùn)行,這讓更多中小企業(yè)和個(gè)人開(kāi)發(fā)者能夠使用先進(jìn)的AI能力。而且由于MiroThinker 1.5的推理過(guò)程是透明可見(jiàn)的,企業(yè)可以更好地理解和控制AI的決策過(guò)程,這對(duì)于需要合規(guī)性和可審計(jì)性的應(yīng)用場(chǎng)景特別重要。

網(wǎng)站:https://dr.miromind.ai/

Github代碼:https://github.com/MiroMindAI/MiroThinker

Hugging Face模型:https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

本文由人人都是產(chǎn)品經(jīng)理作者【深思圈】,微信公眾號(hào):【深思圈】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!