AI產(chǎn)品設(shè)計(jì)實(shí)戰(zhàn)案例:安全生產(chǎn)培訓(xùn)試卷生成系統(tǒng)

0 評論 1236 瀏覽 4 收藏 40 分鐘

你是否也在思考如何把AI真正用在業(yè)務(wù)場景中?這篇文章通過一個(gè)真實(shí)案例——安全培訓(xùn)試卷生成系統(tǒng),手把手拆解AI產(chǎn)品設(shè)計(jì)的關(guān)鍵步驟,讓你從“想做”到“能做”,少走彎路。

AI產(chǎn)品設(shè)計(jì)實(shí)戰(zhàn)案例:安全生產(chǎn)培訓(xùn)試卷生成系統(tǒng)

為什么要寫這個(gè)案例?

前面寫了《AI賦能產(chǎn)品設(shè)計(jì)的轉(zhuǎn)型思維:從確定性到探索性》的理論文檔,提到了AI產(chǎn)品經(jīng)理需要具備四個(gè)核心能力:AI認(rèn)知能力、業(yè)務(wù)理解能力、原型構(gòu)建能力和評估優(yōu)化能力。

理論有了,但具體怎么用呢?

說到這個(gè)安全培訓(xùn)試卷生成系統(tǒng),其實(shí)就是我們專門搭建的一個(gè)”實(shí)驗(yàn)室”,用來驗(yàn)證前面提到的那些設(shè)計(jì)理念到底靠不靠譜。為什么選這個(gè)場景呢?說實(shí)話,這個(gè)痛點(diǎn)太普遍了——你看,傳統(tǒng)的人工出題,一套卷子要折騰好幾個(gè)小時(shí),而且質(zhì)量還不穩(wěn)定;換成AI來做吧,又擔(dān)心它”胡說八道”,特別是涉及安全規(guī)范這種容不得半點(diǎn)馬虎的內(nèi)容。

所以我們就想,能不能通過這個(gè)具體的案例,把那四個(gè)核心能力的作用機(jī)制給”解剖”出來?從最開始的需求梳理,到后來的技術(shù)選型,再到原型測試和效果調(diào)優(yōu),每一步都對應(yīng)著不同的能力要求。通過這樣一個(gè)完整的設(shè)計(jì)過程,你就能很直觀地看到,這些能力在實(shí)際工作中是怎么發(fā)揮作用的了。

不過,在深入具體的設(shè)計(jì)方案之前,我們先得搞清楚一個(gè)根本問題:AI產(chǎn)品的設(shè)計(jì)思路到底和傳統(tǒng)軟件有什么不同?這個(gè)認(rèn)知差異,直接決定了后面所有設(shè)計(jì)決策的方向。

傳統(tǒng)軟件 vs AI產(chǎn)品:設(shè)計(jì)理念的根本差異

在設(shè)計(jì)這個(gè)演示系統(tǒng)時(shí),最大的感受就是AI產(chǎn)品和傳統(tǒng)軟件的設(shè)計(jì)思路完全不一樣:

傳統(tǒng)軟件:設(shè)計(jì)功能框架

  • 用戶說“我要一個(gè)出題系統(tǒng)”,我們就設(shè)計(jì)題庫管理、組卷規(guī)則、導(dǎo)出功能等模塊
  • 關(guān)注的是功能邏輯是否完整,操作流程是否合理
  • 產(chǎn)品經(jīng)理負(fù)責(zé)功能設(shè)計(jì),內(nèi)容質(zhì)量由專門的內(nèi)容團(tuán)隊(duì)負(fù)責(zé)
  • 功能一旦開發(fā)完成,表現(xiàn)相對固定和可預(yù)期

AI產(chǎn)品:設(shè)計(jì)智能結(jié)果

  • 用戶說“我要一個(gè)出題系統(tǒng)”,我們要思考的是如何讓AI生成“高質(zhì)量試卷”
  • 關(guān)注的是最終輸出結(jié)果是否滿足用戶真實(shí)需求
  • 產(chǎn)品經(jīng)理要對內(nèi)容質(zhì)量和智能化效果負(fù)責(zé)
  • 系統(tǒng)需要根據(jù)使用反饋持續(xù)優(yōu)化和學(xué)習(xí)

這種差異帶來的設(shè)計(jì)挑戰(zhàn)

  • 傳統(tǒng)軟件設(shè)計(jì)功能邊界清晰,AI產(chǎn)品要設(shè)計(jì)的是“智能邊界”
  • 傳統(tǒng)軟件用戶學(xué)會操作就行,AI產(chǎn)品用戶要學(xué)會“調(diào)教”
  • 傳統(tǒng)軟件出問題改代碼,AI產(chǎn)品出問題要調(diào)數(shù)據(jù)和策略
  • 傳統(tǒng)軟件追求功能穩(wěn)定,AI產(chǎn)品追求結(jié)果優(yōu)化

AI產(chǎn)品設(shè)計(jì)面臨的業(yè)務(wù)難點(diǎn)

具體到這個(gè)安全培訓(xùn)試卷生成系統(tǒng),我們發(fā)現(xiàn)AI產(chǎn)品設(shè)計(jì)還面臨幾個(gè)典型的業(yè)務(wù)挑戰(zhàn):

  1. 用戶需求模糊:用戶往往只能提出模糊的需求,比如”我要一個(gè)能自動生成安全試卷的系統(tǒng)”。但具體要什么樣的試卷?給誰用?考什么內(nèi)容?這些都不明確。傳統(tǒng)軟件可以邊做邊調(diào)整,但AI系統(tǒng)如果輸入不明確,輸出質(zhì)量很高差。
  2. 專業(yè)性要求高:安全培訓(xùn)涉及法規(guī)條文、操作規(guī)程等專業(yè)內(nèi)容,有嚴(yán)格的準(zhǔn)確性要求。而大模型經(jīng)常會”胡編亂造”,如何確保生成內(nèi)容的準(zhǔn)確性是個(gè)關(guān)鍵問題。
  3. 個(gè)性化需求復(fù)雜:不同崗位的安全要求完全不同,不同層級人員的認(rèn)知水平也有差異。同樣的安全知識,如何針對不同人群設(shè)計(jì)不同的考試內(nèi)容?
  4. AI輸出不穩(wěn)定:同樣的輸入,AI可能產(chǎn)生質(zhì)量差異很大的輸出。如何建立穩(wěn)定的質(zhì)量控制機(jī)制?

明確了這些設(shè)計(jì)理念上的差異和業(yè)務(wù)挑戰(zhàn)后,我們就可以開始具體的系統(tǒng)設(shè)計(jì)了。接下來,讓我們看看如何將這些理論認(rèn)知轉(zhuǎn)化為實(shí)際的產(chǎn)品方案。

系統(tǒng)設(shè)計(jì)目標(biāo)和預(yù)期效果

這個(gè)演示系統(tǒng)設(shè)計(jì)的目標(biāo)場景是:某制造企業(yè)有30多個(gè)不同崗位,每個(gè)崗位都有自己的安全操作規(guī)程,傳統(tǒng)的培訓(xùn)方式是人工出題,一份試卷要花好幾天時(shí)間。

系統(tǒng)設(shè)計(jì)目標(biāo)是:根據(jù)崗位、培訓(xùn)目標(biāo)、考試時(shí)長等要求,自動生成專業(yè)的安全培訓(xùn)試卷。從輸入需求到生成試卷,整個(gè)過程控制在10分鐘以內(nèi)。

預(yù)期達(dá)到的效果:

  • 生成的試卷質(zhì)量能夠滿足專業(yè)要求
  • 不同崗位的試卷體現(xiàn)出差異化
  • 系統(tǒng)運(yùn)行穩(wěn)定,減少錯(cuò)誤內(nèi)容
  • 顯著提升培訓(xùn)部門的工作效率

有了明確的目標(biāo),下一步就是如何實(shí)現(xiàn)。經(jīng)過反復(fù)思考和測試,我們總結(jié)出了一套相對成熟的設(shè)計(jì)方法,可以概括為四個(gè)關(guān)鍵步驟。

設(shè)計(jì)思路:四個(gè)關(guān)鍵步驟

整個(gè)系統(tǒng)設(shè)計(jì)可以總結(jié)為四個(gè)步驟。每一步都對應(yīng)一個(gè)核心問題,也都有具體的解決方案。

第一步:把模糊需求變成明確輸入

傳統(tǒng)軟件開發(fā)關(guān)注的是設(shè)計(jì)通用的功能規(guī)則和操作流程,比如”題庫管理”、”組卷規(guī)則”、”導(dǎo)出功能”等,不需要考慮具體的業(yè)務(wù)內(nèi)容。但AI系統(tǒng)要直接生成具體的業(yè)務(wù)內(nèi)容,必須處理內(nèi)容的多樣性需求——同樣是”安全試卷”,電工、焊工、管理人員需要的內(nèi)容完全不同,入職培訓(xùn)和專項(xiàng)考核的側(cè)重點(diǎn)也不一樣,這就要求輸入信息必須足夠具體和準(zhǔn)確。

系統(tǒng)架構(gòu)的核心設(shè)計(jì)思路

在整個(gè)系統(tǒng)設(shè)計(jì)中,最關(guān)鍵的思考是:如何區(qū)分不同類型的信息,并為每種類型設(shè)計(jì)最合適的處理策略?

基于對AI能力邊界的深入分析,我們將所有信息分為三個(gè)層次:

  1. 重要數(shù)據(jù):個(gè)性化程度高,無法通過通用知識推理獲得,必須依賴企業(yè)私有知識庫檢索。比如”電工崗位”需要匹配該企業(yè)的具體電工安全規(guī)程,而不是通用的電工知識。
  2. 輔助數(shù)據(jù):通用推理可以獲得基本質(zhì)量的結(jié)果,但通過知識庫檢索能顯著提升質(zhì)量。比如”培訓(xùn)目標(biāo)”和”培訓(xùn)場景”,AI有基礎(chǔ)判斷能力,但結(jié)合企業(yè)具體案例會更精準(zhǔn)。
  3. 非重要數(shù)據(jù):AI的通用推理能力已經(jīng)足夠處理,知識庫檢索的效果可能不如通用推理,甚至更差。比如”考試時(shí)長”主要影響題目數(shù)量分配,這是AI擅長的邏輯推理。

這種分層思路直接決定了后續(xù)的技術(shù)架構(gòu):重要數(shù)據(jù)走知識庫檢索路徑,輔助數(shù)據(jù)采用”檢索+推理”混合策略,非重要數(shù)據(jù)主要依靠AI推理。這樣既保證了個(gè)性化質(zhì)量,又避免了不必要的檢索開銷。

基于這個(gè)核心設(shè)計(jì)思路,我們設(shè)計(jì)了一個(gè)”四門檻”機(jī)制。這四個(gè)門檻的設(shè)定依據(jù)來源于業(yè)務(wù)判斷的核心維度:

門檻設(shè)定的思考邏輯:

  1. 培訓(xùn)對象:具體是什么崗位?電工、焊工、還是管理人員?不同崗位的知識基礎(chǔ)、風(fēng)險(xiǎn)接觸程度、責(zé)任范圍完全不同,這直接決定了試卷的難度基準(zhǔn)和知識點(diǎn)選擇范圍。電工需要掌握電氣安全操作規(guī)程,焊工關(guān)注焊接作業(yè)風(fēng)險(xiǎn)防控,管理人員則側(cè)重安全管理制度和應(yīng)急處置。AI雖然具備通用安全知識,但缺乏崗位特異性信息時(shí),無法準(zhǔn)確匹配專業(yè)深度和實(shí)用性要求。
  2. 培訓(xùn)目標(biāo):是基礎(chǔ)安全意識培訓(xùn),還是專項(xiàng)技能考核?目標(biāo)決定了培訓(xùn)內(nèi)容的深度和廣度,影響知識點(diǎn)的選擇邏輯和考核重點(diǎn)的分布?;A(chǔ)安全意識培訓(xùn)注重普及性和理解性,題目設(shè)計(jì)偏向概念解釋和基本判斷;專項(xiàng)技能考核強(qiáng)調(diào)操作性和應(yīng)用性,需要結(jié)合具體工作場景設(shè)計(jì)實(shí)操題目。
  3. 考試時(shí)長:60分鐘還是90分鐘?時(shí)長約束直接影響題目數(shù)量配置、難度梯度設(shè)計(jì)和答題節(jié)奏控制,這是AI無法通過推理獲得的硬性約束。60分鐘適合20-25道題的快節(jié)奏考核,題目設(shè)計(jì)需要簡潔明了;90分鐘可以容納30-35道題,允許設(shè)置更多綜合分析題和案例題。
  4. 培訓(xùn)場景:日常培訓(xùn)、入職培訓(xùn)、還是事故后的專項(xiàng)培訓(xùn)?場景決定了培訓(xùn)的緊迫性、側(cè)重點(diǎn)和實(shí)用性要求,影響案例選擇和題目表述方式。日常培訓(xùn)注重知識鞏固和習(xí)慣養(yǎng)成,題目偏向?qū)嵱眯?;入職培?xùn)強(qiáng)調(diào)基礎(chǔ)知識全覆蓋和規(guī)范意識建立;事故后專項(xiàng)培訓(xùn)具有針對性和警示性,要求深度剖析事故原因。

當(dāng)用戶只說”我要一份電工試卷”時(shí),系統(tǒng)會引導(dǎo)補(bǔ)充其他信息。比如會問:”這是給新入職的電工,還是給有經(jīng)驗(yàn)的老師傅?”、”主要考核基礎(chǔ)安全知識,還是包括應(yīng)急處置?”

這個(gè)機(jī)制看起來增加了用戶的操作步驟,但實(shí)際效果很好。這樣的引導(dǎo)讓用戶對自己的培訓(xùn)需求也更清晰了。

解決了需求輸入的問題,接下來面臨的挑戰(zhàn)是:如何讓AI準(zhǔn)確理解這些輸入信息的深層含義?這就需要引入AI分析環(huán)節(jié)。

第二步:讓AI理解用戶真正想要什么

拿到用戶的四個(gè)關(guān)鍵信息后,系統(tǒng)要做的不是簡單地把這些信息傳給AI,而是要讓AI真正理解用戶的深層需求。這就像一個(gè)有經(jīng)驗(yàn)的培訓(xùn)師,既要聽懂用戶說了什么,還要理解用戶沒說出來的那些期望。

我們在實(shí)際測試中發(fā)現(xiàn),同樣”電工安全培訓(xùn)”,新入職的電工和有十年經(jīng)驗(yàn)的老師傅,需要的內(nèi)容完全不一樣。新人需要從基礎(chǔ)概念開始,老師傅更關(guān)心新法規(guī)和特殊情況處理。

分析用戶畫像

要搞清楚培訓(xùn)對象的基本情況:

  • 管理層(總經(jīng)理、部門負(fù)責(zé)人):一般本科以上學(xué)歷,能接受復(fù)雜的理論內(nèi)容,更關(guān)注全面性和深度
  • 技術(shù)人員(工程師、技師):??频奖究茖W(xué)歷,偏好實(shí)用性強(qiáng)的內(nèi)容,理論和實(shí)踐并重
  • 操作工人(一線員工、司機(jī)):高中到專科學(xué)歷,更喜歡直觀易懂的內(nèi)容,重實(shí)踐輕理論

這個(gè)分析不是為了”歧視”,而是為了讓培訓(xùn)更有效。我們測試過,給操作工人出太多理論題,通過率會很低;給管理層出太多基礎(chǔ)操作題,他們會覺得浪費(fèi)時(shí)間。

理解培訓(xùn)目標(biāo)

用戶說的培訓(xùn)目標(biāo)往往比較籠統(tǒng),系統(tǒng)要能夠細(xì)化:

  • 如果是“合規(guī)培訓(xùn)”,重點(diǎn)應(yīng)該放在法規(guī)條文的記憶和理解上
  • 如果是“技能提升”,要多設(shè)計(jì)實(shí)際操作和問題分析的題目
  • 如果是“管理能力”,需要加入決策判斷和綜合評價(jià)類題目

優(yōu)化考試參數(shù)

根據(jù)不同人群的特點(diǎn),系統(tǒng)會自動調(diào)整考試的具體參數(shù):

  • 管理崗位:注意力能保持75分鐘左右,可以設(shè)計(jì)復(fù)雜題型,理論和實(shí)踐比例6:4
  • 技術(shù)崗位:注意力60分鐘,中等復(fù)雜度,理論實(shí)踐比例4:6
  • 操作崗位:注意力45分鐘,題目要簡潔明了,理論實(shí)踐比例3:7

推斷培訓(xùn)場景

系統(tǒng)會從多個(gè)角度推斷具體的培訓(xùn)場景:

  • 從目標(biāo)推斷:提到“入職”就是新員工培訓(xùn),提到“提升”就是在職培訓(xùn)
  • 從人員推斷:新員工對應(yīng)基礎(chǔ)培訓(xùn),管理層對應(yīng)管理培訓(xùn)
  • 從意圖推斷:如果強(qiáng)調(diào)“考核”,就是效果評估場景

系統(tǒng)輸出的分析結(jié)果

經(jīng)過分析后,系統(tǒng)會給出一個(gè)詳細(xì)的分析報(bào)告,比如針對”電工技師安全培訓(xùn)”的分析結(jié)果:

{

“用戶畫像”: {

“學(xué)歷水平”:”??频奖究?#8221;,

“理解能力”:”較強(qiáng)”,

“抽象思維”:”中等”,

“注意力時(shí)長”:”60分鐘”,

“學(xué)習(xí)偏好”:”偏重實(shí)際應(yīng)用”

},

“崗位分析”: {

“風(fēng)險(xiǎn)等級”:”高風(fēng)險(xiǎn)”,

“核心技能”: [“電氣安全操作”,”設(shè)備維護(hù)”,”應(yīng)急處置”],

“掌握程度”: [“理解”,”掌握”,”應(yīng)用”],

“主要風(fēng)險(xiǎn)”: [“觸電事故”,”設(shè)備故障”,”違規(guī)操作”]

},

“培訓(xùn)重點(diǎn)”: {

“認(rèn)知層次”: [“應(yīng)用”,”分析”],

“重點(diǎn)領(lǐng)域”: [“操作規(guī)程”,”安全防護(hù)”,”應(yīng)急響應(yīng)”],

“考核方式”:”情景化考核”, “深度要求”:”專業(yè)級”

},

“考試設(shè)計(jì)”: {

“題目總數(shù)”:42,

“時(shí)間分配”: {

“重點(diǎn)題”:”18題×2.5分鐘”,

“一般題”:”18題×2分鐘”,

“基礎(chǔ)題”:”6題×1分鐘”

},

“難度分布”: {

“基礎(chǔ)”:”35%”,

“中等”:”45%”,

“困難”:”20%”

},

“題型比例”: {

“單選”:”50%”,

“多選”:”25%”,

“情景分析”:”15%”,

“判斷”:”10%”

}

}

}

系統(tǒng)內(nèi)部的協(xié)作機(jī)制

這個(gè)分析結(jié)果會傳遞給后面的各個(gè)模塊:

  • 意圖識別模塊:再次確認(rèn)用戶的真實(shí)需求,避免理解偏差
  • 知識點(diǎn)篩選模塊:根據(jù)用戶畫像和崗位特點(diǎn),從知識庫中挑選最合適的內(nèi)容
  • 課程設(shè)計(jì)模塊:基于學(xué)習(xí)特點(diǎn),安排合理的內(nèi)容順序和學(xué)習(xí)路徑
  • 試卷生成模塊:按照考試參數(shù),設(shè)計(jì)題型和難度分布
  • 知識提取模塊:為所有模塊提供準(zhǔn)確的專業(yè)知識支撐

整個(gè)流程就像一個(gè)經(jīng)驗(yàn)豐富的培訓(xùn)團(tuán)隊(duì)在協(xié)作:分析師負(fù)責(zé)理解需求,內(nèi)容專家負(fù)責(zé)選擇材料,教學(xué)設(shè)計(jì)師負(fù)責(zé)安排課程,考試專家負(fù)責(zé)出題,知識專家負(fù)責(zé)保證專業(yè)性。

第三步:從知識庫中挑選合適的內(nèi)容

有了前面的分析結(jié)果,接下來就要從企業(yè)的知識庫中挑選出最適合的培訓(xùn)內(nèi)容。這個(gè)過程不是簡單的關(guān)鍵詞匹配,而是要綜合考慮多個(gè)因素。

怎么給知識點(diǎn)分類

在安全培訓(xùn)中,不同知識點(diǎn)的重要性差別很大。我們把知識點(diǎn)分成三個(gè)等級:

  • A級-生命攸關(guān):直接關(guān)系生命安全的核心知識,比如高壓電操作、有毒氣體防護(hù)等,這些必須100%覆蓋,一個(gè)都不能少
  • B級-安全關(guān)鍵:重要的安全管理和技術(shù)要求,比如設(shè)備維護(hù)規(guī)程、應(yīng)急預(yù)案等,根據(jù)具體崗位靈活選擇
  • C級-合規(guī)要求:法規(guī)合規(guī)和基礎(chǔ)管理要求,比如培訓(xùn)記錄、檢查制度等,主要起補(bǔ)充作用

知識點(diǎn)的標(biāo)準(zhǔn)格式

每個(gè)知識點(diǎn)在系統(tǒng)中都有統(tǒng)一的格式,包含這些信息:

{

“知識點(diǎn)ID”:”KP_1_1″,

// 知識點(diǎn)唯一標(biāo)識”標(biāo)題”:”安全生產(chǎn)的立法宗旨與基本原則”,

// 知識點(diǎn)標(biāo)題”內(nèi)容”:”詳細(xì)的知識點(diǎn)內(nèi)容…”,

// 完整知識點(diǎn)描述”核心原理”:”預(yù)防為主的風(fēng)險(xiǎn)管理原理”,

// 核心原理”關(guān)聯(lián)風(fēng)險(xiǎn)”:”各類生產(chǎn)安全事故…”,

// 關(guān)聯(lián)風(fēng)險(xiǎn)”應(yīng)用場景”:”企業(yè)制定年度安全計(jì)劃時(shí)…”,

// 應(yīng)用場景”重要性”:”A級-生命攸關(guān)”,

// 重要性等級”認(rèn)知水平”:”理解”,

// 認(rèn)知水平要求”適用崗位”: [

// 適用崗位數(shù)組 “企業(yè)管理者”, “安全總監(jiān)”, “政府安監(jiān)人員” ],

“知識類型”:”安全管理理念與政策”,

// 知識類型”學(xué)習(xí)難度”:”新手”,

// 學(xué)習(xí)難度”考核方式”:”閉卷理論考試”,

// 建議考核方式”來源引用”:”中華人民共和國安全生產(chǎn)法.txt_第1部分”

// 來源引用

}

篩選的具體過程

我們在實(shí)踐過程中發(fā)現(xiàn),單純按關(guān)鍵詞匹配效果很差。比如搜索”電工安全”,可能會把所有相關(guān)內(nèi)容都拉出來,包括很多不適合的。

現(xiàn)在的篩選過程是這樣的:

第一輪:崗位匹配

  • 精確匹配:直接對應(yīng)崗位的知識點(diǎn)優(yōu)先
  • 相關(guān)匹配:相關(guān)崗位的知識點(diǎn)作為補(bǔ)充

比如電工培訓(xùn),會優(yōu)先選擇“電工”標(biāo)簽的內(nèi)容,然后考慮“電氣技師”、“設(shè)備維護(hù)”等相關(guān)崗位的內(nèi)容

第二輪:重要性篩選

  • A級知識點(diǎn):必須包含,占60%權(quán)重
  • B級知識點(diǎn):根據(jù)時(shí)間和難度選擇,占30%權(quán)重
  • C級知識點(diǎn):作為補(bǔ)充,占10%權(quán)重

第三輪:認(rèn)知水平匹配

  • 管理層:可以接受復(fù)雜的理論內(nèi)容
  • 技術(shù)人員:理論和實(shí)踐并重
  • 操作工人:以實(shí)踐操作為主

我們測試過一個(gè)案例:給新入職的電工做培訓(xùn),如果按傳統(tǒng)方式,可能會包含很多高級的理論知識。但通過這套篩選機(jī)制,系統(tǒng)會自動過濾掉過于復(fù)雜的內(nèi)容,重點(diǎn)選擇基礎(chǔ)操作和安全規(guī)程。

第四步:先設(shè)計(jì)大綱,再生成題目

直接讓AI生成完整試卷,效果往往不好。題目分布不均勻,重點(diǎn)不突出,邏輯性也不強(qiáng)。

我們采用了”兩步走”的策略:

第一步:生成考試大綱

根據(jù)前面的分析結(jié)果,先設(shè)計(jì)一個(gè)詳細(xì)的考試大綱,明確:

  • 各個(gè)知識點(diǎn)的題目數(shù)量
  • 不同題型的分布比例
  • 難度等級的具體安排
  • 時(shí)間分配的合理規(guī)劃

第二步:按大綱生成題目

有了大綱這個(gè)”施工圖”,AI就知道要生成什么樣的題目,避免了隨意發(fā)揮。

舉個(gè)實(shí)際例子,我們給某化工企業(yè)設(shè)計(jì)的電工安全培訓(xùn)大綱:

考試時(shí)長:60分鐘

題目總數(shù):42題

知識點(diǎn)分布:

– 電氣安全基礎(chǔ):18題(43%)

– 這是生命攸關(guān)的A級內(nèi)容

– 個(gè)人防護(hù)用品:12題(29%)

– B級重要內(nèi)容

– 應(yīng)急處置:8題(19%)

– A級核心技能

– 安全操作規(guī)程:4題(9%)

– B級補(bǔ)充內(nèi)容題型分布:

– 單選題:21題(50%)

– 基礎(chǔ)知識快速檢測

– 多選題:11題(25%)

– 綜合理解能力

– 情景分析:6題(15%)

– 實(shí)際應(yīng)用能力

– 判斷題:4題(10%)

– 常見錯(cuò)誤識別難度分布:

– 基礎(chǔ)題:15題(35%)

– 中等題:19題(45%)

– 困難題:8題(20%)

這個(gè)大綱不是拍腦袋想出來的,而是基于前面AI分析的結(jié)果:技術(shù)崗位60分鐘注意力、理論實(shí)踐4:6比例、應(yīng)用導(dǎo)向的學(xué)習(xí)偏好等等。

技術(shù)可行性驗(yàn)證:從想法到原型

有了前面的分析和設(shè)計(jì),接下來就是驗(yàn)證這套方案到底能不能落地。我們采用了快速原型驗(yàn)證的方式,用最小的成本驗(yàn)證核心功能。

MVP原型設(shè)計(jì)思路

基于AI設(shè)計(jì)范式中的原型構(gòu)建能力,我們設(shè)計(jì)了一個(gè)三層架構(gòu)的MVP:

第一層:提示詞工程與核心AI能力

  • 構(gòu)建了結(jié)構(gòu)化的提示詞模板(角色-任務(wù)-格式-約束)
  • 設(shè)計(jì)了多輪對話的工作流,包含意圖識別、信息收集、知識檢索、內(nèi)容生成四個(gè)核心環(huán)節(jié)
  • 每個(gè)環(huán)節(jié)都有明確的輸入輸出格式和異常處理機(jī)制

第二層:工作流設(shè)計(jì)與人工介入點(diǎn)

  • 單鏈路流程:用戶輸入→意圖識別→參數(shù)提取→知識檢索→內(nèi)容生成→結(jié)果輸出
  • 關(guān)鍵的人工介入點(diǎn):試卷內(nèi)容最終審核、敏感信息檢查、質(zhì)量評估
  • 錯(cuò)誤處理:AI置信度低于閾值時(shí)轉(zhuǎn)人工,生成內(nèi)容不符合要求時(shí)重新生成

第三層:快速原型搭建

  • 基于Dify低代碼平臺快速集成AI能力
  • 利用現(xiàn)成的知識庫API和大模型API
  • 搭建了可以實(shí)際運(yùn)行的MVP原型進(jìn)行驗(yàn)證

實(shí)際的MVP架構(gòu)

我們的MVP原型包含以下核心組件:

# 基于實(shí)際配置的MVP架構(gòu)核心工作流:

-意圖識別模塊:判斷用戶是要生成試卷還是咨詢問題

-信息收集模塊:收集培訓(xùn)對象、考試要求等關(guān)鍵參數(shù)

-知識檢索模塊:從三個(gè)知識庫并行檢索相關(guān)內(nèi)容

-通用法規(guī)知識庫

-工廠專有制度庫

-崗位操作規(guī)程庫

-內(nèi)容生成模塊:基于檢索結(jié)果生成個(gè)性化試卷

-質(zhì)量控制模塊:檢查生成內(nèi)容的完整性和準(zhǔn)確性

人工介入點(diǎn):

-試卷生成后的人工審核

-知識庫內(nèi)容的定期更新

-用戶反饋的處理和優(yōu)化

原型驗(yàn)證的關(guān)鍵發(fā)現(xiàn)

技術(shù)可行性驗(yàn)證結(jié)果:

  1. AI生成質(zhì)量:在有充足知識庫支撐的情況下,試卷生成的準(zhǔn)確率達(dá)到85%以上
  2. 響應(yīng)速度:單次試卷生成時(shí)間控制在30秒內(nèi),符合用戶體驗(yàn)要求
  3. 知識覆蓋度:通過三庫并行檢索,知識點(diǎn)覆蓋率比單庫檢索提升40%
  4. 個(gè)性化程度:基于崗位和學(xué)歷的個(gè)性化調(diào)整,用戶滿意度比通用試卷提升60%

驗(yàn)證過程中的發(fā)現(xiàn):

通過為期兩周的MVP測試,我們驗(yàn)證了核心技術(shù)方案的可行性:

  • 三層知識檢索策略在實(shí)際應(yīng)用中表現(xiàn)良好,內(nèi)容質(zhì)量明顯提升
  • 基于認(rèn)知負(fù)荷的個(gè)性化設(shè)計(jì)獲得了測試用戶的積極反饋
  • 人工介入點(diǎn)的設(shè)置在保證內(nèi)容質(zhì)量方面發(fā)揮了關(guān)鍵作用

這個(gè)MVP驗(yàn)證讓我們對整體技術(shù)路徑有了信心,也為后續(xù)的產(chǎn)品化開發(fā)奠定了基礎(chǔ)。更重要的是,我們通過實(shí)際測試明確了哪些技術(shù)方案是有效的,哪些地方還需要進(jìn)一步優(yōu)化。

建立系統(tǒng)性測評機(jī)制

基于AI設(shè)計(jì)范式中的評估優(yōu)化能力要求,我們?yōu)檫@個(gè)安全培訓(xùn)試卷生成系統(tǒng)建立了一套完整的測評機(jī)制。這套機(jī)制不僅用于驗(yàn)證當(dāng)前系統(tǒng)效果,更重要的是為持續(xù)優(yōu)化提供數(shù)據(jù)支撐。

核心測評指標(biāo)體系

1. 意圖理解能力測評

大規(guī)模意圖判斷測試

  • 測試規(guī)模:模擬10,000次意圖判斷
  • 準(zhǔn)確率要求:≥99%
  • 測試覆蓋:包含培訓(xùn)需求分析、崗位匹配、目標(biāo)識別等多種意圖類型
  • 評估方法:基于標(biāo)準(zhǔn)化意圖標(biāo)注數(shù)據(jù)集,采用自動化批量測試

需求引導(dǎo)能力驗(yàn)證

  • 測試場景:模擬100次需求不明確的用戶輸入
  • 引導(dǎo)成功率:100%(必須能夠識別并啟動引導(dǎo)流程)
  • 引導(dǎo)準(zhǔn)確率:≥90%(引導(dǎo)方向與用戶真實(shí)需求匹配)
  • 測試用例:包含模糊表述、信息缺失、多重需求等復(fù)雜場景

2. 知識檢索能力測評

檢索相關(guān)性驗(yàn)證

測試規(guī)模:模擬100次知識點(diǎn)檢索

崗位覆蓋率:≥90%(確保支持的崗位類型全面覆蓋)

目標(biāo)相關(guān)性:≥90%(檢索結(jié)果與培訓(xùn)目標(biāo)高度匹配)

評估維度

  • 知識點(diǎn)準(zhǔn)確性:檢索到的知識點(diǎn)是否與崗位職責(zé)匹配
  • 內(nèi)容時(shí)效性:法規(guī)條文、操作規(guī)程是否為最新版本
  • 難度適配性:知識點(diǎn)難度是否符合目標(biāo)人群水平

內(nèi)容多樣性控制

測試方法:基于同一輸入模擬100次知識點(diǎn)檢索,每5次為一輪

重復(fù)度要求:每輪知識點(diǎn)重復(fù)度≤50%

多樣性指標(biāo)

  • 知識點(diǎn)來源分布:法規(guī)、標(biāo)準(zhǔn)、操作規(guī)程的合理配比
  • 題型分布均衡:理論、實(shí)操、案例分析的多樣化
  • 難度梯度控制:基礎(chǔ)、進(jìn)階、專家級內(nèi)容的層次分布

3. 內(nèi)容生成質(zhì)量測評

課程大綱設(shè)計(jì)評估

AI自動化評測

測試規(guī)模:模擬100次課程大綱設(shè)計(jì)

評分標(biāo)準(zhǔn):基于提示詞AI測評,要求得分≥80分

通過率要求:100%(所有生成的大綱都必須達(dá)到基準(zhǔn)質(zhì)量)

評估維度

  • 結(jié)構(gòu)完整性:目標(biāo)、內(nèi)容、時(shí)長、考核方式的完備性
  • 邏輯合理性:知識點(diǎn)遞進(jìn)關(guān)系、難度梯度設(shè)計(jì)
  • 實(shí)用性評價(jià):與實(shí)際工作場景的貼合度

專家人工評測

測試規(guī)模:模擬10次課程大綱設(shè)計(jì)

評分要求:專家打分≥80分

通過率要求:100%

專家構(gòu)成:安全培訓(xùn)專家、行業(yè)技術(shù)專家、教學(xué)設(shè)計(jì)專家

評估標(biāo)準(zhǔn)

  • 專業(yè)準(zhǔn)確性:安全知識的權(quán)威性和準(zhǔn)確性
  • 教學(xué)有效性:學(xué)習(xí)目標(biāo)的可達(dá)成性
  • 實(shí)踐指導(dǎo)性:對實(shí)際工作的指導(dǎo)價(jià)值

試卷設(shè)計(jì)質(zhì)量控制

AI批量評測

測試規(guī)模:模擬100次試卷設(shè)計(jì)

評分標(biāo)準(zhǔn):基于提示詞AI測評,要求得分≥80分

通過率要求:100%

質(zhì)量維度

  • 知識點(diǎn)覆蓋度:A級知識點(diǎn)100%覆蓋,B級≥90%,C級≥70%
  • 題目質(zhì)量:表述清晰、選項(xiàng)合理、答案準(zhǔn)確
  • 難度分布:符合預(yù)設(shè)的難度梯度要求

試題重復(fù)度控制

測試方法:基于同一輸入模擬100次試卷生成

重復(fù)度要求:每次生成的試題重復(fù)度≤10%

多樣性保證

  • 題目表述的多樣化:同一知識點(diǎn)的不同考查方式
  • 案例場景的豐富性:不同工作情境的模擬
  • 選項(xiàng)設(shè)計(jì)的變化:干擾項(xiàng)的合理設(shè)置

專家質(zhì)量驗(yàn)證

測試規(guī)模:模擬10次試卷設(shè)計(jì)

評分要求:專家打分≥80分

通過率要求:100%

驗(yàn)證重點(diǎn)

  • 安全知識的準(zhǔn)確性和權(quán)威性
  • 題目設(shè)計(jì)的科學(xué)性和合理性
  • 考核目標(biāo)的有效性

測評實(shí)施機(jī)制

自動化測評流程

我們搭建了一套自動化的測試系統(tǒng):

測試數(shù)據(jù)準(zhǔn)備

  • 標(biāo)準(zhǔn)意圖庫:收集了10,000個(gè)用戶需求的標(biāo)注樣本
  • 知識點(diǎn)標(biāo)準(zhǔn)庫:覆蓋30個(gè)崗位的完整知識體系
  • 專家評分標(biāo)準(zhǔn):詳細(xì)的評分維度和權(quán)重設(shè)置

實(shí)時(shí)監(jiān)控

  • 性能監(jiān)控:響應(yīng)時(shí)間、并發(fā)處理能力、系統(tǒng)穩(wěn)定性
  • 質(zhì)量監(jiān)控:準(zhǔn)確率實(shí)時(shí)統(tǒng)計(jì)、異常結(jié)果自動標(biāo)記
  • 業(yè)務(wù)監(jiān)控:用戶滿意度、使用頻率、功能覆蓋率

人工評測標(biāo)準(zhǔn)化

專家評測體系我們組建了一個(gè)專家評測團(tuán)隊(duì):安全管理專家、培訓(xùn)設(shè)計(jì)專家、技術(shù)專家各占1/3。制定了詳細(xì)的評分量表,包含專業(yè)性、實(shí)用性、創(chuàng)新性三個(gè)維度。

為了保證評分的一致性,我們要求多個(gè)專家獨(dú)立評分,然后計(jì)算評分者間的信度,要求達(dá)到0.8以上。

持續(xù)改進(jìn)機(jī)制

問題分類處理

根據(jù)測評結(jié)果,我們把問題分成幾類:

  • 意圖理解問題:優(yōu)化提示詞、補(bǔ)充訓(xùn)練數(shù)據(jù)、調(diào)整模型參數(shù)
  • 知識檢索問題:更新知識庫、優(yōu)化檢索算法、改進(jìn)相關(guān)性模型
  • 內(nèi)容生成問題:優(yōu)化生成模板、完善質(zhì)量控制規(guī)則、改進(jìn)多樣性算法

迭代優(yōu)化周期

  • 日常監(jiān)控:關(guān)鍵指標(biāo)實(shí)時(shí)監(jiān)控,異常情況即時(shí)處理
  • 周度評估:核心功能性能評估,小幅優(yōu)化調(diào)整
  • 月度全面測評:完整測評流程執(zhí)行,識別系統(tǒng)性問題
  • 季度深度優(yōu)化:基于累積數(shù)據(jù)的深度分析和重大改進(jìn)

通過這套測評機(jī)制,我們建立了從技術(shù)指標(biāo)到業(yè)務(wù)價(jià)值的全鏈路質(zhì)量保證體系。每個(gè)環(huán)節(jié)都有明確的標(biāo)準(zhǔn)和驗(yàn)證方法,確保AI系統(tǒng)在實(shí)際應(yīng)用中能夠穩(wěn)定、準(zhǔn)確地服務(wù)于安全培訓(xùn)需求。

回頭看這個(gè)項(xiàng)目

做完這個(gè)安全培訓(xùn)試卷生成系統(tǒng),我們對AI產(chǎn)品設(shè)計(jì)有了一些新的認(rèn)識。

四個(gè)關(guān)鍵能力在實(shí)戰(zhàn)中的體現(xiàn)

1. AI認(rèn)知能力:知道AI能做什么,不能做什么

我們的實(shí)踐:

  • 明確區(qū)分了AI擅長的通用推理(比如考試時(shí)長分配)和需要知識庫支撐的專業(yè)內(nèi)容(比如崗位安全規(guī)程)
  • 基于對大模型“黑盒”特性的理解,設(shè)計(jì)了三層信息分類策略,既沒有盲目依賴AI,也沒有過度限制AI
  • 通過“兩階段生成”模式,把復(fù)雜的試卷生成任務(wù)分解為相對確定的大綱設(shè)計(jì)和內(nèi)容填充,降低了AI輸出的不可控性

關(guān)鍵體會:AI認(rèn)知能力不是簡單了解AI能做什么,而是要深刻理解AI在具體業(yè)務(wù)場景中的適用邊界,知道什么時(shí)候用、怎么用、用到什么程度。

2. 業(yè)務(wù)理解能力:找到AI介入的真正價(jià)值點(diǎn)

我們的實(shí)踐:

  • 準(zhǔn)確抓住了傳統(tǒng)人工出題“耗時(shí)長、質(zhì)量不穩(wěn)定、個(gè)性化難”的核心痛點(diǎn)
  • 判斷出安全培訓(xùn)屬于“規(guī)則復(fù)雜、內(nèi)容創(chuàng)意要求高、對結(jié)果有一定容錯(cuò)度”的高適配場景
  • 將AI介入點(diǎn)精確定位在“需求理解、知識檢索、內(nèi)容生成”三個(gè)環(huán)節(jié),而不是簡單的全流程替代

關(guān)鍵體會:業(yè)務(wù)理解能力的核心是要能夠?qū)?fù)雜的業(yè)務(wù)需求抽象為AI可以處理的子任務(wù),并準(zhǔn)確判斷每個(gè)子任務(wù)的AI適配度。

3. 原型構(gòu)建能力:快速驗(yàn)證想法是否可行

我們的實(shí)踐:

  • 設(shè)計(jì)了結(jié)構(gòu)化的提示詞模板,包含角色定義、任務(wù)描述、輸出格式、約束條件四個(gè)核心要素
  • 構(gòu)建了從意圖識別到內(nèi)容生成的完整鏈路,并在關(guān)鍵節(jié)點(diǎn)設(shè)置了人工介入機(jī)制
  • 基于低代碼平臺快速搭建了可運(yùn)行的原型,用實(shí)際數(shù)據(jù)驗(yàn)證了技術(shù)方案的可行性

關(guān)鍵體會:原型構(gòu)建能力的價(jià)值在于用最小成本驗(yàn)證最大風(fēng)險(xiǎn),避免了大規(guī)模開發(fā)后才發(fā)現(xiàn)方案不可行的問題。

4. 評估優(yōu)化能力:建立持續(xù)改進(jìn)的機(jī)制

我們的實(shí)踐:

  • 建立了從意圖理解、知識檢索到內(nèi)容生成的全鏈路測評指標(biāo)
  • 設(shè)置了具體的數(shù)值標(biāo)準(zhǔn)(比如意圖判斷準(zhǔn)確率≥99%、知識檢索相關(guān)性≥90%)
  • 基于測評結(jié)果設(shè)計(jì)了提示詞優(yōu)化、知識庫更新、流程調(diào)整等多維度優(yōu)化方案

關(guān)鍵體會:評估優(yōu)化能力的關(guān)鍵是要建立”可測量、可改進(jìn)”的閉環(huán)機(jī)制,讓AI系統(tǒng)能夠基于實(shí)際使用效果持續(xù)進(jìn)化。

幾個(gè)可復(fù)用的設(shè)計(jì)模式

基于這次實(shí)踐,我們總結(jié)出三個(gè)比較通用的AI產(chǎn)品設(shè)計(jì)模式:

1. 漸進(jìn)式需求澄清模式

核心價(jià)值:將模糊的用戶需求轉(zhuǎn)化為AI可處理的明確輸入

適用場景:用戶需求復(fù)雜多變、個(gè)性化程度高的AI應(yīng)用

關(guān)鍵要點(diǎn):

  • 設(shè)計(jì)關(guān)鍵信息收集的優(yōu)先級(四門檻機(jī)制)
  • 提供智能推薦和默認(rèn)選項(xiàng)(基于AI推理)
  • 支持需求的動態(tài)調(diào)整和優(yōu)化(多輪交互)

2. 分層知識檢索模式

核心價(jià)值:根據(jù)AI能力邊界設(shè)計(jì)差異化的信息處理策略

適用場景:需要處理大量結(jié)構(gòu)化和非結(jié)構(gòu)化知識的AI系統(tǒng)

關(guān)鍵要點(diǎn):

  • 建立多維度的內(nèi)容索引(重要數(shù)據(jù)、輔助數(shù)據(jù)、非重要數(shù)據(jù))
  • 設(shè)計(jì)合理的權(quán)重分配機(jī)制(檢索+推理混合策略)
  • 確保檢索結(jié)果的準(zhǔn)確性和多樣性(質(zhì)量控制機(jī)制)

3. 兩階段生成模式

核心價(jià)值:通過結(jié)構(gòu)化分解降低AI生成的不確定性

適用場景:需要生成復(fù)雜、結(jié)構(gòu)化內(nèi)容的AI應(yīng)用

關(guān)鍵要點(diǎn):

  • 框架生成要考慮全局結(jié)構(gòu)和邏輯(大綱先行)
  • 內(nèi)容生成要嚴(yán)格遵循框架約束(結(jié)構(gòu)化輸出)
  • 支持框架和內(nèi)容的獨(dú)立優(yōu)化(分層迭代)

一些思考

這個(gè)項(xiàng)目最大的收獲不在于具體的技術(shù)實(shí)現(xiàn),而在于對AI產(chǎn)品設(shè)計(jì)有了更深的理解:

  • AI產(chǎn)品設(shè)計(jì)的本質(zhì):不是簡單地用AI替代傳統(tǒng)功能,而是要重新思考業(yè)務(wù)流程,找到AI能夠創(chuàng)造獨(dú)特價(jià)值的切入點(diǎn)。
  • 設(shè)計(jì)思路的轉(zhuǎn)變:從傳統(tǒng)軟件的”功能設(shè)計(jì)”轉(zhuǎn)向AI產(chǎn)品的”智能結(jié)果設(shè)計(jì)”,關(guān)注的重點(diǎn)從”系統(tǒng)能做什么”變成”用戶能得到什么”。
  • 能力建設(shè)的路徑:四個(gè)核心能力不是孤立的,而是相互支撐的有機(jī)整體。AI認(rèn)知能力是基礎(chǔ),業(yè)務(wù)理解能力是關(guān)鍵,原型構(gòu)建能力是手段,評估優(yōu)化能力是保障。

說到底,AI產(chǎn)品設(shè)計(jì)成功的關(guān)鍵不在于技術(shù)有多先進(jìn),而在于能否真正解決用戶的實(shí)際問題。技術(shù)是手段,用戶價(jià)值才是目標(biāo)。

在AI時(shí)代,產(chǎn)品經(jīng)理的核心價(jià)值在于成為技術(shù)能力和業(yè)務(wù)需求之間的”翻譯官”和”架構(gòu)師”。這個(gè)角色比以往任何時(shí)候都更重要,也更有挑戰(zhàn)性。

本文由 @小伢兒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!