AI產(chǎn)品經(jīng)理必修課:從“半成品”到“殺手級應(yīng)用”——深度解析后訓(xùn)練(Post-training)

0 評論 2352 瀏覽 3 收藏 14 分鐘

2025年AI領(lǐng)域最深刻的變化,不是算力的軍備競賽,而是后訓(xùn)練技術(shù)的戰(zhàn)略崛起。從SFT塑造產(chǎn)品人格、RLHF量化用戶體驗(yàn),到推理模型實(shí)現(xiàn)System 2思考,本文以卡帕西的經(jīng)典理論為框架,揭示AI產(chǎn)品經(jīng)理如何將原始模型雕琢成商業(yè)產(chǎn)品。這不僅是技術(shù)解碼,更是一份從'數(shù)據(jù)貴族化'到'工具路由'的實(shí)戰(zhàn)指南。

對于產(chǎn)品經(jīng)理(PM)而言,預(yù)訓(xùn)練結(jié)束后的基座模型(Base Model),僅僅是一個充滿了潛力的“半成品”。它就像是一個剛剛開采出來的巨大鉆石原石——雖然價值連城,但如果不經(jīng)過切割、打磨和鑲嵌,它不僅無法佩戴,甚至可能會因?yàn)槔饨羌怃J而劃傷用戶。

今天是2025年的最后一天。在這個辭舊迎新的時刻,讓我們再次回到卡帕西那發(fā)布于年初、卻依然被奉為圭臬的視頻,用AI產(chǎn)品經(jīng)理的視角,深度拆解他是如何講述AI“從0到1”的下半場——后訓(xùn)練(Post-training)

如果說預(yù)訓(xùn)練是“拼算力、拼資源”的軍備競賽,那么后訓(xùn)練就是“拼策略、拼體驗(yàn)”的產(chǎn)品戰(zhàn)場。

前言:除了算力,我們還能拼什么?

站在2025年的尾巴上回望,你會發(fā)現(xiàn)今年是“后訓(xùn)練”技術(shù)井噴的一年。雖然各大廠的基座模型參數(shù)量還在增長,但真正拉開產(chǎn)品體驗(yàn)差距的,往往是SFT的數(shù)據(jù)質(zhì)量、RLHF的調(diào)優(yōu)策略以及推理時(Test-time Compute)的思考能力

對于由于資源限制無法進(jìn)行大規(guī)模預(yù)訓(xùn)練的大多數(shù)企業(yè)和PM來說,后訓(xùn)練階段才是我們真正的戰(zhàn)場。

卡帕西在視頻中極其精準(zhǔn)地指出了基座模型的缺陷:它不是一個助手,它只是一個“文檔補(bǔ)全器”。它不知道什么時候該停止,不知道如何禮貌拒絕,甚至不知道它是誰。

后訓(xùn)練的目標(biāo),就是完成從“技術(shù)原型(MVP)”到“商業(yè)化產(chǎn)品(Product)”的驚險一躍。

第一章:SFT(監(jiān)督微調(diào))—— 定義產(chǎn)品的“人格”與“規(guī)范”

如果把基座模型比作一個通讀了圖書館所有書籍、但毫無社會經(jīng)驗(yàn)的“天才書呆子”,那么**監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)**就是崗前培訓(xùn)。

1/技術(shù)原理:從“續(xù)寫”到“對話”

在預(yù)訓(xùn)練階段,模型的目標(biāo)是“預(yù)測下一個詞”。在SFT階段,目標(biāo)依然沒變,但數(shù)據(jù)集變了。

卡帕西指出,我們不再喂給它雜亂的網(wǎng)頁,而是喂給它格式極其嚴(yán)整的<User, Assistant>對話數(shù)據(jù)。

PM視角解讀: 這不僅是技術(shù)微調(diào),更是**產(chǎn)品交互設(shè)計(Interaction Design)**的固化。通過SFT,我們將“提示詞工程(Prompt Engineering)”內(nèi)化到了模型權(quán)重里。如果你希望你的AI產(chǎn)品在面對用戶辱罵時能禮貌回?fù)簦蛘咴趯懘a時遵循PEP8規(guī)范,這些都需要在SFT階段通過數(shù)據(jù)“教”給它。

2/數(shù)據(jù)的“貴族化”:Quality over Quantity

預(yù)訓(xùn)練數(shù)據(jù)追求“大”,SFT數(shù)據(jù)追求“精”。

視頻中卡帕西強(qiáng)調(diào),SFT的數(shù)據(jù)量通常很?。◣兹f到幾十萬條),但必須由人類專家精心編寫。

  • PM實(shí)戰(zhàn)痛點(diǎn): 這解釋了為什么Scale AI這樣的數(shù)據(jù)標(biāo)注公司估值在2025年依然堅挺。作為PM,你的核心壁壘不再是擁有多少GPU,而是擁有多少高質(zhì)量的、垂直領(lǐng)域的SFT數(shù)據(jù)。
  • 如果你做醫(yī)療AI,你需要的是真正的醫(yī)生去編寫“標(biāo)準(zhǔn)答案”,而不是隨便找個兼職大學(xué)生。
  • 成本結(jié)構(gòu)變化: 預(yù)算從購買顯卡轉(zhuǎn)移到了聘請專家(SME)上。

3/局限性:SFT無法創(chuàng)造知識

卡帕西做了一個非常形象的比喻:SFT就像是讓模型模仿專家的“語氣”和“解題格式”,但如果模型本身在預(yù)訓(xùn)練階段沒見過某個知識點(diǎn),SFT是教不會它的。

  • 幻覺(Hallucination)的來源之一: 如果你強(qiáng)行要求模型回答它不知道的問題,SFT會讓它學(xué)會“不懂裝懂”,用自信的語氣胡說八道。
  • 產(chǎn)品決策: 永遠(yuǎn)不要指望通過SFT來注入新知識(例如昨天的股價)。SFT是用來規(guī)范行為的,新知識必須依靠RAG(檢索增強(qiáng)生成)或工具調(diào)用。

第二章:幻覺與工具使用(Tool Use)—— 承認(rèn)缺陷,外掛“大腦”

任何成熟的產(chǎn)品經(jīng)理都知道,產(chǎn)品的核心競爭力往往在于“如何優(yōu)雅地處理邊緣情況”。對于LLM來說,最大的邊緣情況就是——它不知道自己不知道。

1/為什么會有幻覺?

卡帕西演示了詢問一個不存在的人名,模型編造了一段生平。這是因?yàn)槟P捅举|(zhì)上是一個概率統(tǒng)計引擎,它的任務(wù)是維持對話的流暢性(Probability),而不是事實(shí)的準(zhǔn)確性(Truthfulness)。

2/解決方案:把模型變成“路由(Router)”

在后訓(xùn)練階段,我們教會模型使用“工具”。

  • PM視角解讀: 這標(biāo)志著AI從“內(nèi)容生成器”向**“Agent(智能體)”**的轉(zhuǎn)型。
  • 以前的邏輯: 用戶提問 -> 模型靠記憶硬答 -> 可能是幻覺。
  • 現(xiàn)在的產(chǎn)品邏輯: 用戶提問 -> 模型識別意圖(Intent Recognition) -> 模型決定調(diào)用搜索工具/計算器/代碼解釋器 -> 獲取真實(shí)數(shù)據(jù) -> 整合輸出。
  • 關(guān)鍵指標(biāo): 這里的核心KPI不再是單純的Token生成速度,而是工具調(diào)用的準(zhǔn)確率(Success Rate)。作為PM,你需要設(shè)計測試集來評估:模型是在該查天氣的時候查了天氣,還是在那胡編亂造?

第三章:RLHF(人類反饋強(qiáng)化學(xué)習(xí))—— 用戶體驗(yàn)的量化與對齊

SFT教會了模型“怎么說話”,但沒教會它“什么是好話”。比如寫一首詩,文法正確(SFT能做到)和意境優(yōu)美(RLHF的目標(biāo))是兩碼事。

1/獎勵模型(Reward Model):構(gòu)建“品味裁判”

  • 讓全人類給模型的每一次回答打分是不現(xiàn)實(shí)的。所以,我們訓(xùn)練了一個小一點(diǎn)的模型——獎勵模型(RM。
  • 工作流 人類對兩個回答進(jìn)行排序(A比B好) -> 訓(xùn)練RM學(xué)會人類的偏好 -> 用RM去給主模型(LLM)的回答打分。
  • PM視角解讀: 這就是自動化、規(guī)?;腁/B測試
  • 在傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品中,我們需要上線功能看用戶點(diǎn)擊率。
  • 在AI模型開發(fā)中,RM就是那個模擬用戶的“虛擬體驗(yàn)官”。它可以24小時不間斷地對模型進(jìn)行“灰度測試”和反饋。

2/RLHF的本質(zhì):Vibe Check(感覺對齊)

卡帕西提到,RLHF更多是改變模型的分布(Distribution),讓它更傾向于生成人類喜歡的回答(如:樂于助人、無害、誠實(shí))。

  • 風(fēng)險提示(Goodhart’s Law): 當(dāng)一項(xiàng)指標(biāo)變成目標(biāo),它就不再是一個好指標(biāo)。
  • Reward Hacking: 模型可能會為了討好RM而學(xué)會“拍馬屁”,生成雖然得分高但實(shí)際上無意義的廢話(Verbose)。
  • PM實(shí)戰(zhàn): 必須警惕模型變得過于“油滑”或“政治正確”而失去了個性。你需要在Prompt和RLHF數(shù)據(jù)中引入多樣性(Diversity)約束。

第四章:思考(Thinking)與推理 —— 從System 1到System 2

這是卡帕西視頻中最令人興奮的部分,也是2025年下半年爆發(fā)的**“推理模型”(如DeepSeek-R1, OpenAI o1)**的理論基石。

1/AlphaGo時刻的重現(xiàn)

卡帕西將AlphaGo的原理映射到了LLM上。AlphaGo之所以能贏,是因?yàn)樗约焊约合缕澹⊿elf-play),并由系統(tǒng)判定輸贏。

在數(shù)學(xué)和編程領(lǐng)域,我們也有完美的判定標(biāo)準(zhǔn)(代碼能否運(yùn)行?答案是否正確?)。

這意味著,我們不需要人類老師(SFT),只需要讓模型自己嘗試成千上萬次,做對得獎勵,做錯受懲罰。

2/思考鏈(Chain of Thought)的內(nèi)化

通過強(qiáng)化學(xué)習(xí),模型學(xué)會了在輸出最終答案前,先在內(nèi)部生成一段“思考過程”。它可以自我糾錯、反思、嘗試不同路徑。

  • System 1(快思考): 也就是ChatGPT-3.5/4的模式,張口就來,憑直覺回答。
  • System 2(慢思考): 現(xiàn)在的推理模型,在回答前會“停頓”幾十秒。這幾十秒里,它在進(jìn)行高強(qiáng)度的思維推演。

3/PM視角的顛覆性變化

這完全改變了AI產(chǎn)品的商業(yè)邏輯和交互邏輯。

  • 交互設(shè)計: 用戶不再期待“秒回”。你需要設(shè)計一個“思考中…”的優(yōu)雅動效,甚至展示(或部分展示)它的思考步驟,以增加用戶的信任感。
  • 成本與定價(Token Economics):
  • 以前:用戶輸入100詞,輸出100詞,收200詞的費(fèi)。
  • 現(xiàn)在:用戶輸入100詞,模型思考了5000詞(隱藏不輸出),輸出100詞。
  • PM決策: 這5000個隱性Token的成本誰來買單?是提高單次對話定價?還是在B端場景中按效果付費(fèi)?
  • 應(yīng)用場景: 對于閑聊、寫郵件,System 1足夠了且更便宜。對于復(fù)雜的邏輯推理、寫長代碼、法律文書分析,System 2是必須的。PM需要構(gòu)建“模型路由”,根據(jù)問題的難易程度動態(tài)調(diào)用不同模型,以平衡成本與體驗(yàn)。

結(jié)語:從“煉丹師”到“產(chǎn)品架構(gòu)師”

安德烈·卡帕西的這個視頻,雖然發(fā)布于2025年2月,但它不僅講透了原理,更預(yù)言了全年的技術(shù)走向。

通過對后訓(xùn)練(Post-training)的拆解,我們看到AI產(chǎn)品的構(gòu)建不再是單一的“訓(xùn)練模型”。它變成了一個復(fù)雜的系統(tǒng)工程:

1/SFT 確立了產(chǎn)品的交互規(guī)范。

2/工具使用(Tool Use) 拓展了產(chǎn)品的能力邊界

3/RLHF 保證了產(chǎn)品的用戶滿意度。

4/強(qiáng)化學(xué)習(xí)(Thinking) 提升了產(chǎn)品的智力上限。

作為2025年的AI產(chǎn)品經(jīng)理,我們的職責(zé)不再是盲目地追求“更大的模型”,而是像一位精明的指揮家,協(xié)調(diào)這些技術(shù)手段——在需要準(zhǔn)確性時調(diào)用搜索,在需要人性化時依賴SFT,在需要攻克難題時啟動推理模式。

技術(shù)在飛速迭代,但“理解用戶需求”并用“最合適的技術(shù)組合”去滿足需求的底層邏輯從未改變。

如果你還沒看過原視頻,請務(wù)必抽出一個小時。因?yàn)樵贏I的世界里,理解了“從0到1”的原理,你才能看清“從1到100”的路。

AI PM 核心術(shù)語與工作流映射表

本文由 @Echo想要全鏈跑通 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!