梁文鋒DeepSeek新論文!接棒何愷明和字節(jié),又穩(wěn)了穩(wěn)AI的“地基”

0 評論 570 瀏覽 0 收藏 11 分鐘

十年未變的Transformer底層架構(gòu)迎來突破!DeepSeek提出mHC新方法,用"數(shù)學護欄"解決多路徑信號傳輸穩(wěn)定性難題。這不僅是殘差連接的升級,更是中國AI團隊在基礎(chǔ)架構(gòu)領(lǐng)域的一次硬核"秀肌肉"。

2026年的第一天,DeepSeek 在 arXiv 上發(fā)布了一篇新論文《mHC: Manifold-Constrained Hyper-Connections》,提出了名為 mHC(流形約束超連接) 的宏觀架構(gòu)的創(chuàng)新。

聽名字就很抽象,但若簡單總結(jié),這是 Transformer最底層組件殘差連接(Residual Connection)的一次重要改進。

這不只是一個技術(shù)細節(jié)的優(yōu)化,如果把它放到更大的背景下,事情會更有意思,殘差連接是2015年何愷明提出的,此后十年間幾乎沒有根本性的改動。DeepSeek這次動的,是Transformer架構(gòu)中最古老、也最基礎(chǔ)的那塊磚。

另外值得注意的是,DeepSeek創(chuàng)始人梁文鋒也出現(xiàn)在論文的19位作者名單中。

01 十年接力:從何愷明到DeepSeek

要理解mHC的價值,需要先回顧一段技術(shù)演進史。

2015年,何愷明等人在微軟亞洲研究院提出ResNet(殘差網(wǎng)絡)。 在此之前,神經(jīng)網(wǎng)絡越深、訓練越困難,梯度消失問題幾乎無解。殘差連接的核心思想很簡單:讓信息可以”跳過”某些層直接傳遞,用公式表達就是y = x + F(x)。這個設計使訓練上百層甚至上千層的網(wǎng)絡成為可能,何愷明因此拿下CVPR 2016最佳論文獎。

2017年,Transformer 問世,殘差連接成為標配。從 GPT 系列到 Claude,從 Llama 到 DeepSeek,幾乎所有主流大模型都建立在這個基礎(chǔ)之上。

ResNet、Hyper-Connections(無約束)和 mHC(流形約束)的架構(gòu)對比圖。

2024年9月,字節(jié)跳動發(fā)表Hyper-Connections(超連接)論文。 研究者發(fā)現(xiàn),傳統(tǒng)殘差連接雖然穩(wěn)定,但信息通道的寬度受限,就像一條單車道公路,路面再平整,通行能力終究有限。他們提出將單一殘差流擴展為多流并行架構(gòu),讓不同深度的特征通過多條通道交換信息。實驗顯示,這能顯著提升模型性能,在MoE模型上甚至實現(xiàn)了1.8倍的收斂加速。但問題隨之而來,訓練變得不穩(wěn)定了。

而DeepSeek最新發(fā)布的mHC這篇論文要解決的,正是Hyper-Connections帶來的穩(wěn)定性問題。

從何愷明到字節(jié)再到DeepSeek,這是一場跨越十年的接力。

在Reddit上,有網(wǎng)友用一個比喻來解釋這段演進:

就像織毛衣。以前我們只用單股線,容易打結(jié)也容易斷。現(xiàn)在改用多股線一起織,毛衣更結(jié)實、花紋更漂亮。但問題是線太多容易亂成一團。所以我們發(fā)明了一個智能理線器,讓多股線排列整齊,既保留了多股線的優(yōu)點,又像單股線一樣順滑好織。

翻譯一下就是,ResNet是單股線(穩(wěn)定但通道有限),Hyper-Connections是多股線(性能更強但容易“亂”),mHC就是那個智能理線器。

02 Hyper-Connections為什么會“翻車”?

原始殘差連接之所以穩(wěn)定,核心在于保持了“恒等映射”屬性,信號通過連接后,能量不會被放大。你輸入多少,輸出就是多少,像一個能量守恒系統(tǒng)。

但Hyper-Connections為了增強表達能力,引入了可學習的連接權(quán)重矩陣。這些矩陣打破了恒等映射的約束,導致幾個嚴重問題:

· 信號爆炸:權(quán)重矩陣可能讓信號每經(jīng)過一層就被放大,幾十上百層累積下來呈指數(shù)級增長

· Loss尖峰:訓練過程中損失函數(shù)突然暴漲,甚至導致訓練崩潰

· 規(guī)模受限:模型越大、層數(shù)越多,問題越嚴重

mHC 在不犧牲訓練目標的前提下,比 HC 顯著更穩(wěn)定。

這是一個“富人的問題”,只有在訓練超大規(guī)模模型(比如270億參數(shù)以上)時才會顯現(xiàn)。普通研究者可能永遠不會遇到,但對DeepSeek這種體量的玩家來說,這是必須解決的工程難題。

03 mHC的核心創(chuàng)新:給連接矩陣加“數(shù)學護欄”

DeepSeek的解決方案是將連接權(quán)重矩陣約束在一個特定的數(shù)學空間上,雙隨機矩陣(Doubly Stochastic Matrix)。

它核心是這樣:所有元素非負,每一行的元素加起來等于1,每一列的元素加起來也等于1。

為什么這個約束有效?因為當信號通過這樣的矩陣變換時,輸出實際上是輸入各分量的凸組合,可以理解為一種“加權(quán)平均”。根據(jù)數(shù)學性質(zhì),凸組合的結(jié)果不會超過輸入的最大值。換句話說,信號不會被無限放大,能量守恒得到保證。

從數(shù)學角度看,雙隨機矩陣的譜范數(shù)恒小于等于1,這意味著對應的線性變換是”非擴張的”——無論前向傳播還是反向傳播,信號都不會被無限放大。

具體實現(xiàn)上,DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法:對矩陣交替進行行歸一化和列歸一化,迭代幾次就能收斂到雙隨機矩陣。論文實驗表明,僅需3次迭代就能達到足夠精度,而且整個過程可微分,支持端到端訓練。

太艱深了?

沒關(guān)系,重點是,這個方案的優(yōu)雅之處在于,它沒有引入任何新的超參數(shù)需要調(diào)節(jié),也沒有改變模型的表達能力,只是給原本的權(quán)重矩陣套上了一個數(shù)學上可證明的安全邊界。

實驗結(jié)果驗證了這一設計的有效性:在 7B 規(guī)模的 Dense 模型訓練中,mHC 模型全程沒有出現(xiàn)任何 Loss 尖峰。在 MoE 模型上,收斂速度提升了約 1.8 倍。

04 DeepSeek“秀肌肉”的一種方式

把mHC放到DeepSeek近兩年的發(fā)展脈絡中看,會發(fā)現(xiàn)一條主線,在有限資源下,通過架構(gòu)創(chuàng)新最大化效率。mHC可以說是對此的延續(xù),用數(shù)學約束解決工程問題,用架構(gòu)創(chuàng)新突破資源瓶頸。

值得一提的是,Twitter用戶@nathancgy4(Kimi研究員)表示,一位DeepSeek研究員在和他的交流中認為2025年最值得關(guān)注的兩大架構(gòu)創(chuàng)新是muon和hyper-connections。前者已被Kimi深度探索,而后者正是mHC的技術(shù)根基。這意味著mHC可能只是DeepSeek在這條路上的第一步。

如果mHC被整合進下一代模型,再結(jié)合此前的一系列技術(shù)和工程創(chuàng)新,我們可能會看到一個在效率、性能和穩(wěn)定性上全面升級的架構(gòu)。

法國 AI 研究實驗室 Pleias 聯(lián)合創(chuàng)始人 Alexander Doria 在讀完論文后給出了一個評價,這表面上是一篇架構(gòu)論文,實際上是一篇“秀肌肉”的硬核工程論文。

因為理論上完美的數(shù)學方案(Sinkhorn-Knopp 迭代),如果直接跑在現(xiàn)有的訓練框架上,會帶來巨大的計算延遲和顯存開銷。

為了讓這個“數(shù)學護欄”真正落地,DeepSeek 并沒有調(diào)用現(xiàn)成的庫,而是直接手寫了底層的 CUDA 內(nèi)核代碼,利用算子融合(Operator Fusion)技術(shù),把復雜的數(shù)學計算硬生生塞進了毫秒級的訓練循環(huán)里。同時,他們采用了激進的“選擇性重計算”策略,并在多卡訓練中開辟專用計算流來掩蓋通信延遲。

這才是前沿實驗室(Frontier Lab)的標志——不僅要有算法靈感,還得有能力為了驗證這個靈感,把整個訓練環(huán)境的內(nèi)核、內(nèi)存管理、節(jié)點通信全部重寫一遍。

這種把想法穩(wěn)定、高效地落地到算力體系中的工程能力,可能就是DeepSeek最大的優(yōu)勢。

作者|周一笑
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!