大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案(三):數(shù)據(jù)準(zhǔn)備和評(píng)測(cè)環(huán)節(jié)

0 評(píng)論 882 瀏覽 5 收藏 11 分鐘

構(gòu)建一個(gè)大模型應(yīng)用都有哪些環(huán)節(jié)需要進(jìn)行評(píng)測(cè),需要進(jìn)行什么樣的測(cè)試活動(dòng)?

一、數(shù)據(jù)集準(zhǔn)備

選擇能夠驗(yàn)證指標(biāo)、說明問題的數(shù)據(jù),關(guān)注以下三個(gè)方面:

  1. 覆蓋度:是否覆蓋了產(chǎn)品的主要功能和話題?
  2. 多樣性:輸入方式、難度、意圖是否足夠豐富?
  3. 代表性:數(shù)據(jù)分布是否能反映真實(shí)的用戶使用情況?

在整個(gè)評(píng)測(cè)體系中,數(shù)據(jù)集的質(zhì)量直接決定了評(píng)測(cè)結(jié)果的可信度和有效性。一個(gè)有缺陷的、或是不具代表性的數(shù)據(jù)集,會(huì)產(chǎn)生誤導(dǎo)性的指標(biāo)結(jié)果,讓團(tuán)隊(duì)對(duì)產(chǎn)品能力產(chǎn)生錯(cuò)誤判斷,最終可能導(dǎo)致產(chǎn)品在真實(shí)世界中的失敗。

因此,制定并執(zhí)行一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)集策略,是評(píng)測(cè)工作成功的重要條件。構(gòu)建一個(gè)高質(zhì)量的“黃金”數(shù)據(jù)集可以遵循以下步驟:

從業(yè)務(wù)目標(biāo)出發(fā)

數(shù)據(jù)集的構(gòu)建必須由業(yè)務(wù)需求驅(qū)動(dòng) ,首先要問:我們想測(cè)試什么?哪些場(chǎng)景的成功或失敗對(duì)業(yè)務(wù)影響最大?例如,一個(gè)電商客服機(jī)器人,其問題數(shù)據(jù)集必須包含關(guān)于訂單狀態(tài)、退貨政策、產(chǎn)品推薦等核心業(yè)務(wù)流程的問題。

從多個(gè)渠道收集數(shù)據(jù)來源

為了確保數(shù)據(jù)集的豐富性和真實(shí)性,應(yīng)從多個(gè)渠道收集數(shù)據(jù)樣本 。

  • 生產(chǎn)數(shù)據(jù):對(duì)于一個(gè)客服機(jī)器人,可以收集生產(chǎn)環(huán)境中真實(shí)用戶詢問過的歷史問題,這是獲取絕大多常規(guī)數(shù)測(cè)試數(shù)據(jù)和意想不到的邊緣案例的最佳來源。(注意:當(dāng)使用生產(chǎn)數(shù)據(jù)時(shí),必須高度重視數(shù)據(jù)隱私。所有個(gè)人可識(shí)別信息都應(yīng)在處理前進(jìn)行脫敏或匿名化處理)
  • 灰度測(cè)試:邀請(qǐng)內(nèi)部員工或一小部分種子用戶對(duì)產(chǎn)品進(jìn)行測(cè)試,可以系統(tǒng)性地收集反饋和有價(jià)值的測(cè)試用例。
  • 人工編寫/標(biāo)注:對(duì)于一些專業(yè)性強(qiáng)的場(chǎng)景,或者為了系統(tǒng)性地測(cè)試某一類問題,可以由領(lǐng)域?qū)<胰斯ぞ帉憸y(cè)試用例。例如一個(gè)和病人溝通的病情診斷機(jī)器人,可以由資深醫(yī)生編寫測(cè)試數(shù)據(jù)(包括問題和正確的回答)。
  • LLM合成:也可以利用大模型來生成大規(guī)模的測(cè)試數(shù)據(jù),但是需要注意檢查模型生成數(shù)據(jù)的質(zhì)量。如果生成的問題沒有代表性或者隱含著基本的事實(shí)錯(cuò)誤,會(huì)對(duì)測(cè)試結(jié)果造成很大的影響。

人工標(biāo)注:定義“黃金標(biāo)準(zhǔn)” : 這是構(gòu)建數(shù)據(jù)集過程中最耗費(fèi)人力但也是價(jià)值最高的環(huán)節(jié)。由專家對(duì)收集到的數(shù)據(jù)進(jìn)行標(biāo)注,即為每個(gè)輸入提供一個(gè)理想的“標(biāo)準(zhǔn)答案”或質(zhì)量評(píng)分 。

-明確標(biāo)準(zhǔn):標(biāo)注過程本身就是一個(gè)強(qiáng)迫團(tuán)隊(duì)清晰、明確地定義評(píng)測(cè)標(biāo)準(zhǔn)的過程。例如,什么是“完整”的回答?什么程度的語(yǔ)氣才算“有同理心”?

-多重標(biāo)注與一致性檢驗(yàn):為了保證標(biāo)注質(zhì)量,最佳實(shí)踐是讓多名標(biāo)注員獨(dú)立對(duì)同一份數(shù)據(jù)進(jìn)行標(biāo)注。只有當(dāng)大多數(shù)標(biāo)注員(如三人中的兩人)達(dá)成共識(shí)時(shí),這個(gè)標(biāo)簽才被采納為最終的“標(biāo)準(zhǔn)答案” 。這有助于消除個(gè)人主觀偏見,確保數(shù)據(jù)集的可靠性。

數(shù)據(jù)集構(gòu)成確保多樣性與平衡性

數(shù)據(jù)集必須在多個(gè)維度上具有多樣性,以模擬真實(shí)世界的復(fù)雜性,例如覆蓋不同的用戶畫像、主題、提問風(fēng)格和語(yǔ)言復(fù)雜度 。

同時(shí)要避免數(shù)據(jù)不平衡,即某個(gè)類別的問題被過度代表,這可能導(dǎo)致評(píng)測(cè)結(jié)果產(chǎn)生偏差。

常見的數(shù)據(jù)集構(gòu)成

  • 常規(guī):業(yè)務(wù)場(chǎng)景中最常見的數(shù)據(jù)類型
  • 邊緣:業(yè)務(wù)場(chǎng)景中不常見,但是有可能出現(xiàn)的數(shù)據(jù)類型
  • 對(duì)抗:影響系統(tǒng)和應(yīng)用正常運(yùn)行的有害數(shù)據(jù)輸入

快速啟動(dòng),迭代擴(kuò)展

不需要在一開始就構(gòu)建一個(gè)包含數(shù)千個(gè)樣本的龐大數(shù)據(jù)集。一個(gè)由20-50個(gè)高質(zhì)量、多樣性的樣本組成的初始數(shù)據(jù)集,就足以啟動(dòng)評(píng)測(cè)流程。

關(guān)鍵在于建立一個(gè)持續(xù)的流程,隨著對(duì)應(yīng)用失敗模式的理解加深,不斷地將新的、有挑戰(zhàn)性的案例補(bǔ)充到數(shù)據(jù)集中。

一個(gè)“黃金”數(shù)據(jù)集不是一成不變的靜態(tài)文件。它是一個(gè)動(dòng)態(tài)的、與產(chǎn)品共同成長(zhǎng)的“活”的資產(chǎn)。

當(dāng)在生產(chǎn)環(huán)境發(fā)現(xiàn)了新的用戶行為模式,或當(dāng)紅隊(duì)測(cè)試發(fā)現(xiàn)了新的系統(tǒng)漏洞時(shí),這些新的數(shù)據(jù)都必須被吸收、標(biāo)注,并整合回“黃金”數(shù)據(jù)集 。這個(gè)反饋閉環(huán)將生產(chǎn)環(huán)境的洞察力源源不斷地注入到評(píng)測(cè)流程中,使得評(píng)測(cè)體系隨著時(shí)間的推移變得越來越強(qiáng)大和全面。

二、評(píng)測(cè)環(huán)節(jié)和測(cè)試活動(dòng)

從最初的產(chǎn)品構(gòu)思到生產(chǎn)環(huán)境的維護(hù), 在每個(gè)階段都需要評(píng)估,這些工作流程環(huán)環(huán)相扣:

  1. 方案選型開始,找到最佳方案。
  2. 在發(fā)布前進(jìn)行壓力測(cè)試紅隊(duì)測(cè)試,為各種情況做準(zhǔn)備。
  3. 應(yīng)用上線后,安全護(hù)欄可以幫助預(yù)防重大問題。
  4. 產(chǎn)品投放市場(chǎng)后,通過生產(chǎn)可觀察性持續(xù)監(jiān)控實(shí)時(shí)數(shù)據(jù)。
  5. 如果出現(xiàn)問題,修復(fù)后運(yùn)行回歸測(cè)試,然后推出更新。

評(píng)測(cè)環(huán)節(jié)

測(cè)試活動(dòng)

1)選型測(cè)試:為AI產(chǎn)品選擇最佳的模型、提示詞或其他配置

項(xiàng)目剛開始時(shí),第一步通常是進(jìn)行技術(shù)方案選型,首先要為任務(wù)選擇一個(gè)模型, 可以查看模型排行榜挑選幾個(gè)候選LLM,并在具體任務(wù)上進(jìn)行測(cè)試。另一個(gè)常見的選型任務(wù)是找到最佳提示詞,對(duì)比不同提示詞下的輸出小效果。

2)壓力測(cè)試:通過評(píng)估產(chǎn)品在各種場(chǎng)景下的表現(xiàn),檢查它是否為實(shí)際上線使用做好了準(zhǔn)備。

壓力測(cè)試旨在檢查當(dāng)前版本的產(chǎn)品是否足夠健壯,能否應(yīng)對(duì)用戶可能拋出的各種問題。 系統(tǒng)可能在十幾個(gè)測(cè)試用例數(shù)據(jù)上運(yùn)行良好,但幾百、幾千個(gè)呢?壓力測(cè)試需要更多的測(cè)試數(shù)據(jù),既要覆蓋常見的場(chǎng)景,也要考察系統(tǒng)如何處理更棘手的邊緣情況。

  • 如果用戶的輸入只有一個(gè)詞怎么辦?如果太長(zhǎng)了呢?
  • 如果輸入用的是另一種語(yǔ)言或包含錯(cuò)別字呢?
  • 系統(tǒng)如何處理它不應(yīng)涉及的敏感話題?

設(shè)計(jì)這些測(cè)試需要深入了解用戶如何與產(chǎn)品互動(dòng),盡可能對(duì)每個(gè)主題或場(chǎng)景都進(jìn)行測(cè)試。

3)紅隊(duì)測(cè)試:測(cè)試我們的系統(tǒng)如何響應(yīng)對(duì)抗性行為或惡意輸入

紅隊(duì)測(cè)試是一種模擬攻擊的測(cè)試技術(shù),例如通過提示注入等方式,發(fā)現(xiàn)系統(tǒng)中的漏洞。這是評(píng)估高風(fēng)險(xiǎn)應(yīng)用安全性的關(guān)鍵步驟,專門針對(duì)濫用或者故意的有害行為。它尋找的是惡意用戶如何利用系統(tǒng)缺陷,將行為推向不安全或意外(如提供有害建議)的方法。

例如,對(duì)于一個(gè)醫(yī)療聊天機(jī)器人,測(cè)試它如何安全地處理醫(yī)療問題屬于核心功能范圍。但對(duì)于一個(gè)產(chǎn)品客服機(jī)器人,醫(yī)療、金融或法律問題就超出了預(yù)期用途,可被視為對(duì)抗性輸入。

紅隊(duì)測(cè)試可以手動(dòng)進(jìn)行,也可以通過合成數(shù)據(jù)和有針對(duì)性的提示來自動(dòng)化地模擬各種風(fēng)險(xiǎn)。

4)生產(chǎn)環(huán)境監(jiān)控:了解系統(tǒng)在生產(chǎn)環(huán)境中的實(shí)時(shí)性能,以便檢測(cè)和解決問題。

在測(cè)試環(huán)境中評(píng)估終究有限。當(dāng)產(chǎn)品面向真實(shí)用戶后, 需要了解它在實(shí)際使用中的表現(xiàn)。這就引出了生產(chǎn)環(huán)境可觀察性。一旦產(chǎn)品上線, 就需要追蹤性能。

可以從追蹤用戶行為開始,比如收集點(diǎn)擊率或點(diǎn)贊/點(diǎn)踩等反饋。但要獲得更深入的洞察, 就需要追蹤用戶提出的問題以及系統(tǒng)如何響應(yīng)。收集跟蹤記錄所有交互的詳細(xì)日志。

用戶體驗(yàn)好嗎?回答是否準(zhǔn)確、安全?

有了這些日志數(shù)據(jù), 就可以通過運(yùn)行在線評(píng)估來評(píng)價(jià)生產(chǎn)環(huán)境中的質(zhì)量。

5)回歸測(cè)試:測(cè)試新的改動(dòng)是否在改進(jìn)系統(tǒng)的同時(shí),沒有破壞以前正常工作的功能。

回歸測(cè)試能驗(yàn)證所做的更改或優(yōu)化沒有引入新的(或舊的)問題。

  • 修復(fù)一個(gè)問題后,會(huì)不會(huì)影響其他功能?
  • 微調(diào)一個(gè)提示后,有多少以前的輸出會(huì)改變?這些改變是好是壞?

系統(tǒng)化的回歸測(cè)試可以安全地在現(xiàn)有系統(tǒng)之上進(jìn)行迭代,確保在做出改進(jìn)的同時(shí),沒有引入新的問題。

本文由 @Mrs.Data 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!