Scaling Law沒死,它只是換了個活法

0 評論 750 瀏覽 0 收藏 15 分鐘

當業(yè)界熱議Scaling Law失效時,Gemini 3的突破卻證明算力擴張依然有效,只是從單一的預訓練擴展演進為預訓練、后訓練、推理計算三條技術(shù)路徑的并行進化。本文深度解析頭部廠商在算力軍備競賽中的戰(zhàn)略布局,揭示模型能力持續(xù)突破背后的真實邏輯。

Scaling Law撞墻了,這話AI圈已經(jīng)聽了一年多。

從Gary Marcus的減收益批評,到坊間關(guān)于 OpenAI下一代模型“Orion” 進展不順的傳聞,再到 GPT-5 發(fā)布時不少人感到“并不驚艷”。進步是有的,但沒有那種讓人眼前一亮的躍升。連 Ilya 都說,我們正從擴展時代回到研究時代。大力出奇跡的配方,似乎真的到頭了。

然后Gemini 3來了。Gemini 3 不只是變強,而是跨越了過去兩年 Google 所有被批評的點,第一次在全面維度,能力、推理、速度、成本、生態(tài),真正追上和整體超越 OpenAI??床坏饺魏螇?。

關(guān)鍵是,Gemini 3不是靠換一套全新架構(gòu)做到的。Google說,突破來自預訓練和后訓練兩個階段的配方升級。具體怎么升級的,外界只能猜測,也許是Google積累了25年的獨家數(shù)據(jù)終于派上用場,也許是找到了處理數(shù)據(jù)的新技術(shù)。但不管原因是什么,Google愿意公開說”預訓練仍有改進空間”,這本身就是一個信號:Scaling的兩條主線:預訓練和后訓練,都還沒走到頭。

大模型訓練變成了“重資產(chǎn)游戲”

Gemini聯(lián)合負責人Oriol Vinyals說得更直接:2.5到3.0之間的性能躍遷是他們見過最大的一次,“看不到任何墻”。

同一時間,馬斯克的xAI宣布其超算集群Colossus已擴展到20萬塊GPU,目標是100萬塊。OpenAI、Anthropic、微軟也在砸下數(shù)千億美元擴建數(shù)據(jù)中心。

如果Scaling Law真的死了,這些人在賭什么?

墻不存在

先看最直接的證據(jù)。

Gemini 3證明了算法改進遇上更好的算力,預訓練Scaling依然有效。前DeepMind的研究科學家Oriol Vinyals把Gemini 3的提升歸功于預訓練和后訓練的雙重改進,不是換了一套全新的方法論,而是把現(xiàn)有方法做得更好,換句話說,不是Scaling不行了,是之前的方法還不夠好。

黃仁勛提出了一個更系統(tǒng)的框架:現(xiàn)在有三條Scaling曲線同時在起作用,預訓練Scaling、后訓練Scaling、以及推理時Scaling(test-time compute)。傳統(tǒng)的預訓練Scaling是用更多數(shù)據(jù)和算力訓練更大的模型;后訓練Scaling是通過RLHF、DPO等技術(shù)在訓練后繼續(xù)優(yōu)化;推理時Scaling則是讓模型在回答問題時花更多時間“思考”,比如OpenAI的o1系列。

Sam Altman在2025年初的博客里寫得更直白。他說,模型的智能水平大致等于用于訓練和運行它的資源的對數(shù)。這聽起來像是壞消息,但反過來理解,只要你愿意持續(xù)投入,模型就會持續(xù)變好。曲線沒有彎曲,只是斜率需要用對數(shù)坐標來理解。

Google DeepMind的CEO Demis Hassabis態(tài)度同樣明確。他在一次公開活動上說,現(xiàn)有系統(tǒng)的擴展必須推到極限,因為它至少會是最終AGI系統(tǒng)的關(guān)鍵組成部分,甚至可能就是全部。

如果Scaling Law真的撞墻了,你很難解釋為什么整個行業(yè)還在以前所未有的速度往里砸錢。這些人在賭什么?即使退一步說,算力可以用于推理而非訓練,但這種規(guī)模的投入也需要模型能力的持續(xù)提升來支撐,否則推理什么呢,一個能力停滯的模型,值得為它建造價值萬億美元的基礎(chǔ)設(shè)施嗎?

他們吵的不是同一件事

不過,如果你仔細聽各方的表態(tài),會發(fā)現(xiàn)一個有意思的現(xiàn)象,大家嘴里說的Scaling Law,可能根本不是同一個東西。

傳統(tǒng)意義上的Scaling Law很簡單:更多數(shù)據(jù)、更大模型、更多算力,等于更強性能。這是2020年OpenAI那篇著名論文確立的范式,也是過去幾年大模型競賽的底層邏輯。如果你說的是這條曲線,那確實在放緩。數(shù)據(jù)快被用完了,單純堆參數(shù)的邊際收益在下降,這是事實。

但現(xiàn)在行業(yè)里討論的Scaling,早就不只是這一個維度了。

黃仁勛提出的三階段框架就是一個例子。預訓練是第一階段,相當于讓模型上大學,獲取廣泛的基礎(chǔ)知識。后訓練是第二階段,相當于讀研,針對特定領(lǐng)域深造。測試時計算是第三階段,相當于讓模型在回答問題之前先想一想,而不是脫口而出。o1、DeepSeek-R1這些推理模型的出現(xiàn),本質(zhì)上就是在第三階段做文章。

還有一個更有意思的視角,來自IBM的一檔播客Mixture of Experts。幾位嘉賓討論Gemini 3的時候提出了一個觀點:我們是不是應該把它叫做Scaling Experimentation Law,而不是Scaling Law?他們的意思是,算力增加的真正作用,不是直接轉(zhuǎn)化成智能,而是讓研究人員能夠更快地跑實驗、試錯、迭代。更多的算力等于更快的實驗速度,等于更好的算法,最終等于更強的模型。這才是Scaling的真正含義。所以哪怕繼續(xù)Scale的收益下降,頭部公司也有不能不跟的博弈壓力。

從這個角度看,Ilya Sutskever說的回歸研究時代,和其他人說的Scaling Law沒死,其實并不矛盾。Ilya的意思是,那個簡單粗暴的配方用完了,不能再指望光靠堆資源就能出奇跡。但他從來沒說算力不重要,他說的是我們帶著大型計算機回到了研究時代。算力是前提,但不再是唯一的變量。

當然,Ilya的表態(tài)也不能完全當作純粹的技術(shù)判斷來聽。他現(xiàn)在在做Safe Superintelligence,走的是少商業(yè)化、重基礎(chǔ)研究的路線。說擴展時代結(jié)束、研究時代回歸,某種程度上也是在為自己的新公司找一個差異化的敘事。

所以,與其問Scaling死沒死,不如問,哪條曲線在放緩、哪條曲線在加速。

各方立場

說到立場和利益,這場爭論里每個人的位置其實都很清楚。

英偉達是最明顯的。無論Scaling Law怎么演變,無論你是堆預訓練、堆后訓練還是堆推理,都需要GPU。三條曲線變成一條還是十條,對他來說沒區(qū)別,只要大家還在Scaling,他就是賣鏟子的那個人。所以他當然要說沒死,而且要說還有三條。

OpenAI、Google、Anthropic這些模型公司也是一樣。他們正在建造或者規(guī)劃中的數(shù)據(jù)中心,投資規(guī)模是百億甚至千億美元級別的。這些錢已經(jīng)花出去了,或者已經(jīng)承諾出去了。這時候說Scaling Law失效,相當于說自己在做一筆糟糕的投資。從公司利益的角度,他們必須相信,也必須讓投資人相信,Scaling仍然有效。

馬斯克的xAI也是這個邏輯。他多次警告,目前 AI 最大的中長期瓶頸會從芯片,轉(zhuǎn)向電力生產(chǎn)和電網(wǎng),數(shù)據(jù)中心和 AI 集群會在未來幾年吃掉極其可觀的全球電力,對電網(wǎng)形成硬約束。再結(jié)合他瘋狂堆GPU、建算力超級工廠/超級集群的行為,很難說他主觀上相信再堆算力也沒什么提升。

看起來站在另一邊的是Ilya和他的SSI。但仔細想想,他的位置其實也合理。SSI融資規(guī)模和OpenAI、Google不在一個量級,拼算力拼不過。這時候說Scaling時代結(jié)束、研究突破更重要,既是技術(shù)判斷,也是競爭策略。他需要讓投資人相信,有另一條路可以通向超級智能,而那條路也許不需要萬億美元的基礎(chǔ)設(shè)施。

另一種是“世界模型派”,Yann LeCun和李飛飛都認為靠現(xiàn)在這一套 LLM 路線,怎么 scale 都很難做出真正AGI。Yann LeCun創(chuàng)辦了一家專注世界模型的公司AMI,他認為LLM很有用,但只是“高級自動補全”,真正通用的智能需要世界模型 + 自監(jiān)督學習 + 規(guī)劃 + 持久記憶 + 具身交互 的新架構(gòu)。

李飛飛創(chuàng)立的 World Labs 把賭注壓在 world models 和空間智能上,主攻能重建和生成 3D 世界的基礎(chǔ)模型,而不是再做一套更大的聊天 LLM。從這個意義上說,它們都代表了一條有別于“單純把語言模型做大”的 scaling 路線,世界模型意味著學到環(huán)境的動態(tài)和結(jié)構(gòu),而不是只學 token。

所以這場爭論,與其說是技術(shù)分歧,不如說是各方在自己的位置上講述對自己有利的不同版本的故事。

DeepSeek的一句話

在這場爭論里,中國AI公司是一個特殊的存在,而DeepSeek可能是最有代表性的案例。

過去一年,DeepSeek靠著極高的算力利用效率,用遠低于硅谷同行的成本做出了能打的模型。這一度被解讀為Scaling Law的反例,你看,不用砸那么多錢也能做出好東西。

但這可能是一個誤讀。

DeepSeek真正證明的是,架構(gòu)優(yōu)化和工程能力可以讓你在同樣的算力預算下獲得更好的結(jié)果。用他們自己的話說,是把Scaling曲線往更省算力的方向平移了。但曲線本身還在那里,你想往上走,還是要投入更多資源。

這一點在DeepSeek-V3.2的技術(shù)報告里說得很清楚。他們在結(jié)論部分直接承認,模型在世界知識廣度上的不足,根本原因是總訓練算力比前沿閉源模型少。要補這個短板,只有一個辦法,擴大預訓練算力。

翻譯成白話:我們要買更多卡了。這可能會在接下一代模型上應驗。

對中國AI公司來說,這是一個現(xiàn)實的處境。算法優(yōu)化、工程效率,這些是現(xiàn)階段的護城河,但不是永久的。長期來看,如果Scaling Law繼續(xù)有效,算力就是繞不過去的坎。而在芯片受限的情況下,這意味著要么找到其他的路,要么在有限的資源里把效率做到極致。

苦澀的教訓:只要我 GPU 足夠多、算力足夠大,我就能碾壓你們

Scaling Law死了,Scaling Law萬歲

回到最初的問題,Scaling Law到底死沒死?

從目前的證據(jù)來看,答案是沒有。Gemini 3的表現(xiàn)、各家公司的持續(xù)投入、技術(shù)演進的方向,都指向同一個結(jié)論,Scaling仍然有效,只是方式變了。

過去那種簡單粗暴的配方,更大、更多、更強,確實在遇到瓶頸。但Scaling的內(nèi)涵正在變化。預訓練、后訓練、測試時計算,三個階段都有各自的增長曲線。算力的價值也從直接轉(zhuǎn)化成智能,變成了加速實驗和迭代的基礎(chǔ)設(shè)施。

對頭部廠商而言,Scaling不僅是技術(shù)問題,更是資產(chǎn)負債表問題。已經(jīng)宣布和在建的數(shù)據(jù)中心項目,未來會持續(xù)壓在頭上,要求模型能力不斷提高來消化這些投入。

所以這不意味著一切都很樂觀,模型在變強,但變強的速度是否足以支撐當前的估值和投資規(guī)模,這是另一個問題。

華爾街有句話:“趨勢是你的朋友,直到它不是?!盨caling Law也一樣,它會一直有效,直到它不有效。但那一天,顯然還沒到來。

作者|周一笑
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!