元寶“罵人”罵上熱搜，我覺得可以來聊聊AI情緒化了

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

元寶“罵人”罵上熱搜，我覺得可以來聊聊AI情緒化了

卡爾的AI沃茨

2026-01-08

0 評論 250 瀏覽 0 收藏

9 分鐘

當AI開始展現(xiàn)人類情緒，產(chǎn)品經(jīng)理需要重新思考智能助手的邊界。騰訊元寶因編程場景下的異常輸出意外走紅，卻罕見地收獲用戶理解而非批評。這起事件揭示了訓練數(shù)據(jù)中的社會偏見如何通過概率機制自然流露，更引發(fā)對AI情緒化程度的深度討論——我們究竟需要完美工具，還是帶有溫度的數(shù)字伙伴？

元寶“罵人”了，罵上熱搜了

準確的說是元寶+DeepSeek（沒開思考版）成功繞開了所有敏感詞罵了用戶一把，

這件事最大的爭議點，是截圖里那段沒有標點符號的紅框文字，被懷疑是人工后臺接手回復的。就元寶的現(xiàn)在的日活和并發(fā)量，真要配人工回復，肯尼亞的AI寫手估計一天當72小時都不夠用的。就算把深圳的大學生都抓來當客服也不夠用。

這件事有意思的點在元寶沒咋挨罵，14年微軟小冰，16年微軟Tay，23年微博的評論羅伯特，24年模仿貼吧老哥的DeepSeek，甚至GPT-4o之前更新因為太愛拍馬屁都被噴回滾版本了。

這次元寶的評論區(qū)有點太和諧了，知乎上也沒啥人噴，甚至說，這才是血脈純正的人工智能。它說了我想說卻不敢說的話。

那有沒有可能這是鵝自己搞營銷？給元寶帶帶流量啥的。大概率不可能，不可控性太大，在這之前大部分都是挨罵的。

那有沒有可能是用戶惡意引導的呢？我只能說引導后的DeepSeek沒那么友善。。。

從技術(shù)角度出發(fā)的話，大概率是訓練數(shù)據(jù)背鍋。

用人話來說，大模型每生成一個字都是在概率分布里做選擇，可以理解為有概率的抽卡。比方說“你好”的下一個字，有30%接“啊”，20%接“嗎”，10%接“沒”，5%接“捏”。

正常情況下，模型會選概率最高的生成“你好啊”。

但為了讓模型輸出不死板有人味，會引入temperature參數(shù)，數(shù)值越高，模型選擇概率低的選擇可能性越大。也就是說，只要訓練數(shù)據(jù)里存在臟數(shù)據(jù)，在這個場景就是罵人的話，就是有可能被抽中的。

元寶現(xiàn)在在視頻號，公眾號，微信對話都可以用，同一個問題每次提問都會有不一樣的答復，就可以證明它是一個生成模型，是有概率發(fā)生的。

用畢導的話來說，這是一個無限猴子定理

由法國數(shù)學家埃米爾提出，如果讓無限只猴子在打字機上隨機地按鍵，只要時間無限長，幾乎必然能夠打出任何指定的文字，比如莎士比亞的全部著作

這件事確實是小概率。但不等于零就意味著有可能偶發(fā)。特別是大模型在海量人類語言數(shù)據(jù)上進行學習，極大地降低了隨機性。

它是一只被精心訓練過，知道如何高效打字的super聰明猴子。

再想想這次觸發(fā)罵人回復的使用場景是編程，數(shù)據(jù)來源大概率就是Github，Stack Overflow等跟帖的論壇，

這句話就特像我一開始在Github提問的時候，因為格式?jīng)]寫對被項目老哥狂噴的感覺，問題問的太基礎也會被噴。甚至衍生出了一些課程教你如何提問在Stack Overflow不會被罵，你就知道程序員是多么武德充沛了。。。

如果換個角度去看這次元寶成功繞開RLHF，紅隊測試，安全策略三大關(guān)把人罵了，反而是發(fā)現(xiàn)了一個新的優(yōu)化點，現(xiàn)在大部分的紅隊測試是集中在常見的敏感場景，但誰會想到連續(xù)多次修改CSS代碼的場景會讓模型進入程序員老哥狀態(tài)，每個詞都沒有罵人，但組合起來就成了罵人。

BTW，這句話魯迅先生沒說過。

我們在訓練模型的時候，喂給它的是數(shù)以億計的文本。在那些數(shù)據(jù)深處，天然藏著人類社會最不加修飾的情緒和偏見。

罵人真的是程度最輕的了

四五年前我學BERT模型（比GPT更早一點的大模型）訓練的時候，第一堂課就是了解模型在數(shù)據(jù)里學到的偏見，常見的就是性別，職業(yè)和語言偏見。