DeepSeek-V3.2 技術(shù)報告解讀

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

賽博禪心

2025-12-04

0 評論 1943 瀏覽 1 收藏

14 分鐘

開源大模型領(lǐng)域迎來重磅突破！DeepSeek 推理能力追平 GPT-5-High，高算力版更是拿下 IMO 和 IOI 金牌，核心得益于 DSA 稀疏注意力機制、超預(yù)訓(xùn)練 10% 的后訓(xùn)練投入及大規(guī)模合成數(shù)據(jù)三大創(chuàng)新。這篇報告解讀深度拆解其技術(shù)邏輯與性能表現(xiàn)，揭秘開源模型的突圍路徑。

這是一篇報告解讀，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

先說結(jié)論

DeepSeek-V3.2在推理能力上追平 GPT-5-High，在部分指標(biāo)上超越
DeepSeek-V3.2-Speciale（高算力版）在 2025 年 IMO 和 IOI 拿了金牌，推理能力接近 Gemini-3.0-Pro

怎么做到的？三件事

DSA（DeepSeek Sparse Attention）一種稀疏注意力機制，大幅降低長上下文的計算成本
后訓(xùn)練加碼把后訓(xùn)練的計算預(yù)算提到預(yù)訓(xùn)練的 10% 以上
大規(guī)模合成數(shù)據(jù)生成了 1，800 個環(huán)境、85，000 個任務(wù)，全是合成的

下面一個一個說

DSA：把注意力從 O(L2) 降到 O(Lk)

傳統(tǒng)的 Transformer 注意力機制是 O(L2) 復(fù)雜度，L 指的是序列長度

簡單說一下

計算機領(lǐng)域，通常用 O(x) 來說明復(fù)雜度：比如 O(L) 的含義是隨著 L 增加，則復(fù)雜度線性增加；而 O(L2) 的意思是按長度的平方倍增加。文本長度翻 2 倍，計算量翻 4 倍；長度翻 10 倍，計算量翻 100 倍

這長上下文場景中，這個復(fù)雜度就成了大問題，推理慢，后訓(xùn)練也很難做所以你很少會見到超過 128k 的上下文（ GPT-3.5 最早默認(rèn) 4k 上下文）

DeepSeek 的解決方案是 DSA，核心思路是：并非每個 token 都看全部上下文，只看最相關(guān)的 k 個 token

這樣計算量就變成 O(Lk)，k 是個固定值（2048），不再隨文本長度爆炸式增長

具體實現(xiàn)分兩步：

第一步：Lightning Indexer

一個輕量級的打分器，給每個歷史 token 打分，決定哪些值得關(guān)注

這個打分器用 ReLU 激活函數(shù)，可以跑在 FP8 精度，算力開銷很小

第二步：Fine-grained Token Selection

根據(jù) Lightning Indexer 的打分，只選 top-k 個 token 做真正的注意力計算

在 DeepSeek-V3.2 里，k = 2048

雖然 Lightning Indexer 本身還是 O(L2)，但它比主注意力輕很多，整體效率大幅提升

DSA 訓(xùn)練的兩個階段

階段一：Dense Warm-up

先凍住主模型，只訓(xùn)練 Lightning Indexer

訓(xùn)練目標(biāo)是讓 Indexer 的輸出分布對齊主注意力的分布

用 KL 散度做 loss

只訓(xùn)練了 1000 步，共 2.1B tokens

階段二：Sparse Training

放開所有參數(shù)，讓模型適應(yīng)稀疏注意力模式

繼續(xù)用 KL 散度對齊 Indexer 和主注意力

訓(xùn)練了 15000 步，共 943.7B tokens

效果怎么樣？

在 128K 長度的 prefilling 階段，V3.2 的成本基本不隨位置增長，V3.1-Terminus 是線性增長

并且：性能沒降

在 ChatbotArena 的 Elo 評分上，V3.2-Exp 和 V3.1-Terminus 基本持平

在獨立的長上下文評測（AA-LCR、Fiction.liveBench）上，V3.2-Exp 甚至更好

后訓(xùn)練加碼：預(yù)算超過預(yù)訓(xùn)練的 10%

過去，開源模型的后訓(xùn)練投入普遍不足，這限制了它們在難任務(wù)上的表現(xiàn)

DeepSeek 的做法是：大力出奇跡

具體數(shù)字是：后訓(xùn)練的計算預(yù)算超過預(yù)訓(xùn)練成本的 10%

這是很激進的配置

后訓(xùn)練流程分兩步

第一步：專家蒸餾（Specialist Distillation）

為每個任務(wù)領(lǐng)域訓(xùn)練一個專門的「專家模型」六個領(lǐng)域：數(shù)學(xué)、編程、通用邏輯推理、通用智能體、代碼智能體、搜索智能體

每個領(lǐng)域都支持 thinking 和 non-thinking 兩種模式每個專家都用大規(guī)模 RL 訓(xùn)練

訓(xùn)練好之后，用專家模型生成領(lǐng)域數(shù)據(jù)，給最終模型用第二步：混合 RL 訓(xùn)練（Mixed RL Training）

把推理、智能體、人類對齊三類任務(wù)合并成一個 RL 階段

用 GRPO（Group Relative Policy Optimization）算法

這樣做的好處是：避免多階段訓(xùn)練的災(zāi)難性遺忘

GRPO 的幾個關(guān)鍵改進

論文詳細說了四個穩(wěn)定化技巧：

1. Unbiased KL Estimate

原來的 K3 estimator 在某些情況下會給低概率 token 分配過大的梯度權(quán)重，導(dǎo)致訓(xùn)練不穩(wěn)定

DeepSeek 用重要性采樣修正了這個問題Off-Policy Sequence Masking

把偏離當(dāng)前策略太遠的負(fù)樣本 mask 掉

直覺是：從自己的錯誤里學(xué)比從不相關(guān)的錯誤里學(xué)更有效Keep Routing

MoE 模型的專家路由在推理和訓(xùn)練時可能不一致

DeepSeek 保存推理時的路由路徑，訓(xùn)練時強制復(fù)用Keep Sampling Mask

Top-p 采樣時的截斷 mask 也保存下來，訓(xùn)練時復(fù)用

保證采樣策略和訓(xùn)練策略一致

大規(guī)模智能體數(shù)據(jù)合成

泛化能力，是大模型在智能體場景的另一個短板

原因很簡單：沒有足夠多樣的訓(xùn)練環(huán)境

DeepSeek 的解決方案是：自己合成

具體數(shù)據(jù)代碼智能體 24,667 個任務(wù)（真實環(huán)境，提取的提示）

搜索智能體 50,275 個任務(wù)（真實環(huán)境，合成的提示）

通用智能體 4,417 個任務(wù)（合成環(huán)境，合成提示）

代碼解釋器 5,908 個任務(wù)（真實環(huán)境，提取的提示）