大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案（三）：數(shù)據(jù)準(zhǔn)備和評(píng)測(cè)環(huán)節(jié)

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案（三）：數(shù)據(jù)準(zhǔn)備和評(píng)測(cè)環(huán)節(jié)

貓貓觀察員的AI思考

2025-09-01

0 評(píng)論 882 瀏覽 5 收藏

11 分鐘

構(gòu)建一個(gè)大模型應(yīng)用都有哪些環(huán)節(jié)需要進(jìn)行評(píng)測(cè)，需要進(jìn)行什么樣的測(cè)試活動(dòng)？

一、數(shù)據(jù)集準(zhǔn)備

選擇能夠驗(yàn)證指標(biāo)、說明問題的數(shù)據(jù)，關(guān)注以下三個(gè)方面：

覆蓋度:是否覆蓋了產(chǎn)品的主要功能和話題？
多樣性:輸入方式、難度、意圖是否足夠豐富？
代表性:數(shù)據(jù)分布是否能反映真實(shí)的用戶使用情況？

在整個(gè)評(píng)測(cè)體系中，數(shù)據(jù)集的質(zhì)量直接決定了評(píng)測(cè)結(jié)果的可信度和有效性。一個(gè)有缺陷的、或是不具代表性的數(shù)據(jù)集，會(huì)產(chǎn)生誤導(dǎo)性的指標(biāo)結(jié)果，讓團(tuán)隊(duì)對(duì)產(chǎn)品能力產(chǎn)生錯(cuò)誤判斷，最終可能導(dǎo)致產(chǎn)品在真實(shí)世界中的失敗。

因此，制定并執(zhí)行一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)集策略，是評(píng)測(cè)工作成功的重要條件。構(gòu)建一個(gè)高質(zhì)量的“黃金”數(shù)據(jù)集可以遵循以下步驟：

從業(yè)務(wù)目標(biāo)出發(fā)

數(shù)據(jù)集的構(gòu)建必須由業(yè)務(wù)需求驅(qū)動(dòng) ，首先要問：我們想測(cè)試什么？哪些場(chǎng)景的成功或失敗對(duì)業(yè)務(wù)影響最大？例如，一個(gè)電商客服機(jī)器人，其問題數(shù)據(jù)集必須包含關(guān)于訂單狀態(tài)、退貨政策、產(chǎn)品推薦等核心業(yè)務(wù)流程的問題。

從多個(gè)渠道收集數(shù)據(jù)來源

為了確保數(shù)據(jù)集的豐富性和真實(shí)性，應(yīng)從多個(gè)渠道收集數(shù)據(jù)樣本。

生產(chǎn)數(shù)據(jù)：對(duì)于一個(gè)客服機(jī)器人，可以收集生產(chǎn)環(huán)境中真實(shí)用戶詢問過的歷史問題，這是獲取絕大多常規(guī)數(shù)測(cè)試數(shù)據(jù)和意想不到的邊緣案例的最佳來源。（注意：當(dāng)使用生產(chǎn)數(shù)據(jù)時(shí)，必須高度重視數(shù)據(jù)隱私。所有個(gè)人可識(shí)別信息都應(yīng)在處理前進(jìn)行脫敏或匿名化處理）
灰度測(cè)試：邀請(qǐng)內(nèi)部員工或一小部分種子用戶對(duì)產(chǎn)品進(jìn)行測(cè)試，可以系統(tǒng)性地收集反饋和有價(jià)值的測(cè)試用例。
人工編寫/標(biāo)注：對(duì)于一些專業(yè)性強(qiáng)的場(chǎng)景，或者為了系統(tǒng)性地測(cè)試某一類問題，可以由領(lǐng)域?qū)＜胰斯ぞ帉憸y(cè)試用例。例如一個(gè)和病人溝通的病情診斷機(jī)器人，可以由資深醫(yī)生編寫測(cè)試數(shù)據(jù)（包括問題和正確的回答）。
LLM合成：也可以利用大模型來生成大規(guī)模的測(cè)試數(shù)據(jù)，但是需要注意檢查模型生成數(shù)據(jù)的質(zhì)量。如果生成的問題沒有代表性或者隱含著基本的事實(shí)錯(cuò)誤，會(huì)對(duì)測(cè)試結(jié)果造成很大的影響。

人工標(biāo)注：定義“黃金標(biāo)準(zhǔn)” ：這是構(gòu)建數(shù)據(jù)集過程中最耗費(fèi)人力但也是價(jià)值最高的環(huán)節(jié)。由專家對(duì)收集到的數(shù)據(jù)進(jìn)行標(biāo)注，即為每個(gè)輸入提供一個(gè)理想的“標(biāo)準(zhǔn)答案”或質(zhì)量評(píng)分。

-明確標(biāo)準(zhǔn)：標(biāo)注過程本身就是一個(gè)強(qiáng)迫團(tuán)隊(duì)清晰、明確地定義評(píng)測(cè)標(biāo)準(zhǔn)的過程。例如，什么是“完整”的回答？什么程度的語(yǔ)氣才算“有同理心”？

-多重標(biāo)注與一致性檢驗(yàn)：為了保證標(biāo)注質(zhì)量，最佳實(shí)踐是讓多名標(biāo)注員獨(dú)立對(duì)同一份數(shù)據(jù)進(jìn)行標(biāo)注。只有當(dāng)大多數(shù)標(biāo)注員（如三人中的兩人）達(dá)成共識(shí)時(shí)，這個(gè)標(biāo)簽才被采納為最終的“標(biāo)準(zhǔn)答案” 。這有助于消除個(gè)人主觀偏見，確保數(shù)據(jù)集的可靠性。

數(shù)據(jù)集構(gòu)成確保多樣性與平衡性

數(shù)據(jù)集必須在多個(gè)維度上具有多樣性，以模擬真實(shí)世界的復(fù)雜性，例如覆蓋不同的用戶畫像、主題、提問風(fēng)格和語(yǔ)言復(fù)雜度。

同時(shí)要避免數(shù)據(jù)不平衡，即某個(gè)類別的問題被過度代表，這可能導(dǎo)致評(píng)測(cè)結(jié)果產(chǎn)生偏差。

常見的數(shù)據(jù)集構(gòu)成

常規(guī)：業(yè)務(wù)場(chǎng)景中最常見的數(shù)據(jù)類型
邊緣：業(yè)務(wù)場(chǎng)景中不常見，但是有可能出現(xiàn)的數(shù)據(jù)類型
對(duì)抗：影響系統(tǒng)和應(yīng)用正常運(yùn)行的有害數(shù)據(jù)輸入

快速啟動(dòng)，迭代擴(kuò)展

不需要在一開始就構(gòu)建一個(gè)包含數(shù)千個(gè)樣本的龐大數(shù)據(jù)集。一個(gè)由20-50個(gè)高質(zhì)量、多樣性的樣本組成的初始數(shù)據(jù)集，就足以啟動(dòng)評(píng)測(cè)流程。

關(guān)鍵在于建立一個(gè)持續(xù)的流程，隨著對(duì)應(yīng)用失敗模式的理解加深，不斷地將新的、有挑戰(zhàn)性的案例補(bǔ)充到數(shù)據(jù)集中。

一個(gè)“黃金”數(shù)據(jù)集不是一成不變的靜態(tài)文件。它是一個(gè)動(dòng)態(tài)的、與產(chǎn)品共同成長(zhǎng)的“活”的資產(chǎn)。

當(dāng)在生產(chǎn)環(huán)境發(fā)現(xiàn)了新的用戶行為模式，或當(dāng)紅隊(duì)測(cè)試發(fā)現(xiàn)了新的系統(tǒng)漏洞時(shí)，這些新的數(shù)據(jù)都必須被吸收、標(biāo)注，并整合回“黃金”數(shù)據(jù)集。這個(gè)反饋閉環(huán)將生產(chǎn)環(huán)境的洞察力源源不斷地注入到評(píng)測(cè)流程中，使得評(píng)測(cè)體系隨著時(shí)間的推移變得越來越強(qiáng)大和全面。

二、評(píng)測(cè)環(huán)節(jié)和測(cè)試活動(dòng)

從最初的產(chǎn)品構(gòu)思到生產(chǎn)環(huán)境的維護(hù)，在每個(gè)階段都需要評(píng)估，這些工作流程環(huán)環(huán)相扣：

從方案選型開始，找到最佳方案。
在發(fā)布前進(jìn)行壓力測(cè)試和紅隊(duì)測(cè)試，為各種情況做準(zhǔn)備。
應(yīng)用上線后，安全護(hù)欄可以幫助預(yù)防重大問題。
產(chǎn)品投放市場(chǎng)后，通過生產(chǎn)可觀察性持續(xù)監(jiān)控實(shí)時(shí)數(shù)據(jù)。
如果出現(xiàn)問題，修復(fù)后運(yùn)行回歸測(cè)試，然后推出更新。

評(píng)測(cè)環(huán)節(jié)

測(cè)試活動(dòng)

1）選型測(cè)試：為AI產(chǎn)品選擇最佳的模型、提示詞或其他配置

項(xiàng)目剛開始時(shí)，第一步通常是進(jìn)行技術(shù)方案選型，首先要為任務(wù)選擇一個(gè)模型，可以查看模型排行榜挑選幾個(gè)候選LLM，并在具體任務(wù)上進(jìn)行測(cè)試。另一個(gè)常見的選型任務(wù)是找到最佳提示詞，對(duì)比不同提示詞下的輸出小效果。

2）壓力測(cè)試：通過評(píng)估產(chǎn)品在各種場(chǎng)景下的表現(xiàn)，檢查它是否為實(shí)際上線使用做好了準(zhǔn)備。

壓力測(cè)試旨在檢查當(dāng)前版本的產(chǎn)品是否足夠健壯，能否應(yīng)對(duì)用戶可能拋出的各種問題。系統(tǒng)可能在十幾個(gè)測(cè)試用例數(shù)據(jù)上運(yùn)行良好，但幾百、幾千個(gè)呢？壓力測(cè)試需要更多的測(cè)試數(shù)據(jù)，既要覆蓋常見的場(chǎng)景，也要考察系統(tǒng)如何處理更棘手的邊緣情況。

如果用戶的輸入只有一個(gè)詞怎么辦？如果太長(zhǎng)了呢？
如果輸入用的是另一種語(yǔ)言或包含錯(cuò)別字呢？
系統(tǒng)如何處理它不應(yīng)涉及的敏感話題？

設(shè)計(jì)這些測(cè)試需要深入了解用戶如何與產(chǎn)品互動(dòng)，盡可能對(duì)每個(gè)主題或場(chǎng)景都進(jìn)行測(cè)試。

3）紅隊(duì)測(cè)試：測(cè)試我們的系統(tǒng)如何響應(yīng)對(duì)抗性行為或惡意輸入

紅隊(duì)測(cè)試是一種模擬攻擊的測(cè)試技術(shù)，例如通過提示注入等方式，發(fā)現(xiàn)系統(tǒng)中的漏洞。這是評(píng)估高風(fēng)險(xiǎn)應(yīng)用安全性的關(guān)鍵步驟，專門針對(duì)濫用或者故意的有害行為。它尋找的是惡意用戶如何利用系統(tǒng)缺陷，將行為推向不安全或意外（如提供有害建議）的方法。

例如，對(duì)于一個(gè)醫(yī)療聊天機(jī)器人，測(cè)試它如何安全地處理醫(yī)療問題屬于核心功能范圍。但對(duì)于一個(gè)產(chǎn)品客服機(jī)器人，醫(yī)療、金融或法律問題就超出了預(yù)期用途，可被視為對(duì)抗性輸入。

紅隊(duì)測(cè)試可以手動(dòng)進(jìn)行，也可以通過合成數(shù)據(jù)和有針對(duì)性的提示來自動(dòng)化地模擬各種風(fēng)險(xiǎn)。

4）生產(chǎn)環(huán)境監(jiān)控：了解系統(tǒng)在生產(chǎn)環(huán)境中的實(shí)時(shí)性能，以便檢測(cè)和解決問題。

在測(cè)試環(huán)境中評(píng)估終究有限。當(dāng)產(chǎn)品面向真實(shí)用戶后，需要了解它在實(shí)際使用中的表現(xiàn)。這就引出了生產(chǎn)環(huán)境可觀察性。一旦產(chǎn)品上線，就需要追蹤性能。

可以從追蹤用戶行為開始，比如收集點(diǎn)擊率或點(diǎn)贊/點(diǎn)踩等反饋。但要獲得更深入的洞察，就需要追蹤用戶提出的問題以及系統(tǒng)如何響應(yīng)。收集跟蹤記錄所有交互的詳細(xì)日志。

用戶體驗(yàn)好嗎？回答是否準(zhǔn)確、安全？

有了這些日志數(shù)據(jù)，就可以通過運(yùn)行在線評(píng)估來評(píng)價(jià)生產(chǎn)環(huán)境中的質(zhì)量。

5）回歸測(cè)試：測(cè)試新的改動(dòng)是否在改進(jìn)系統(tǒng)的同時(shí)，沒有破壞以前正常工作的功能。

回歸測(cè)試能驗(yàn)證所做的更改或優(yōu)化沒有引入新的（或舊的）問題。