AI行業(yè)應(yīng)用:數(shù)據(jù)編織助力AI應(yīng)用訓(xùn)練突破

2 評(píng)論 11955 瀏覽 43 收藏 16 分鐘

#本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵(lì)計(jì)劃》出品。

雖然現(xiàn)在AI大模型很火,每個(gè)企業(yè)都想分一杯羹,但是過程中涉及到的算法、數(shù)據(jù)等不是輕而易舉就能實(shí)現(xiàn)的。其中,數(shù)據(jù)的傳輸和管理是個(gè)大問題。本文圍繞AI應(yīng)用訓(xùn)練的瓶頸展開敘述,對(duì)AI訓(xùn)練難點(diǎn)進(jìn)行總結(jié)并結(jié)合IDC分析報(bào)告,得出“數(shù)據(jù)”是最大瓶頸的結(jié)論,并針對(duì)該問題思考解決策略。

一、產(chǎn)品背景

“最近身邊再次響起了討論AI的聲音,與前兩年對(duì)AI持觀望態(tài)度不同,很多人都說隨著ChatGPT應(yīng)用,AI時(shí)代真的來了,產(chǎn)品、運(yùn)營同學(xué)們都在忙著了解什么是ChatGPT、什么是Stable Diffusion等等,但是算法工程師卻在瘋狂頭疼,瘋狂抱怨,領(lǐng)導(dǎo)要求他們盡快搞出大模型,盡快提升算法模型指標(biāo),服務(wù)業(yè)務(wù),路過算法組聽到張工和胡工的以下的對(duì)話:

張工:胡哥,你的模型訓(xùn)練的怎么樣了???

胡工:哎,一言難盡,沒數(shù)據(jù)啊,好不容易跟業(yè)務(wù)部門提了數(shù)據(jù),他們不是收集不上來,就是收集上來的數(shù)據(jù)各式各樣,沒法用???

張工:誰不是呢,我這邊也是,最近客戶的圖片,視頻加起來10多個(gè)T,讓我們自己傳,光來回導(dǎo)數(shù)據(jù)就耽誤了我們組好長時(shí)間。

胡工:你說要是公司能搞個(gè)數(shù)據(jù)平臺(tái),讓我們快速獲取數(shù)據(jù)多好啊,日常把數(shù)據(jù)收集管理好,用的時(shí)候就省事多了?!?/p>

聽到以上的對(duì)話,我靈機(jī)一動(dòng),最近基于數(shù)據(jù)編織想法給客戶做的數(shù)據(jù)管理平臺(tái)不就剛好可以解決他們問題嘛,于是我趕緊給他們做了詳細(xì)的產(chǎn)品介紹,講述下如何通過“數(shù)據(jù)編織”的設(shè)計(jì)理念建設(shè)數(shù)據(jù)管理平臺(tái)幫助用戶突破AI在應(yīng)用訓(xùn)練中的數(shù)據(jù)瓶頸。

二、AI訓(xùn)練應(yīng)用難點(diǎn)

除去人員主觀問題外,我們將AI應(yīng)用訓(xùn)練的客觀難點(diǎn)進(jìn)行總結(jié),可以概括為以下三點(diǎn):

高質(zhì)量數(shù)據(jù):算法訓(xùn)練想取得好的效果,首要條件是高質(zhì)量數(shù)據(jù),但是如何獲取高質(zhì)量數(shù)據(jù),存在如下困難:

  • 數(shù)據(jù)多樣性:數(shù)據(jù)存在結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),格式有多,不同系統(tǒng)提供的數(shù)據(jù)缺少統(tǒng)一標(biāo)準(zhǔn)。
  • 數(shù)據(jù)分布:很多業(yè)務(wù)數(shù)據(jù)多是離散存儲(chǔ),缺少統(tǒng)一的數(shù)據(jù)管理平臺(tái),在應(yīng)用訓(xùn)練前,獲取數(shù)據(jù)艱難。
  • 數(shù)據(jù)標(biāo)注:即時(shí)獲取到數(shù)據(jù),但是大量業(yè)務(wù)數(shù)據(jù)在被應(yīng)用前,都需要標(biāo)注,標(biāo)注耗時(shí)耗力。

高效算力:指訓(xùn)練模型時(shí),通常需要大量算力,同時(shí)如何將算力高效發(fā)揮成為難點(diǎn)

  • 隨時(shí)大模型逐步推廣,模型體量越來越大,對(duì)算力的需求也迅速遞增。
  • 當(dāng)數(shù)據(jù)存儲(chǔ)離散時(shí),對(duì)數(shù)據(jù)的訪問將變慢,即時(shí)有集群算力,當(dāng)無法并行時(shí),算力將無法高效應(yīng)用。

成熟框架:指算法應(yīng)用需要成熟穩(wěn)定,擴(kuò)展性強(qiáng)的算法框架

  • 應(yīng)用框架:目前國內(nèi)外深度學(xué)習(xí)算法框架眾多,對(duì)于算法研究(Pytorch)、工業(yè)應(yīng)用(Tensorflow)需要選擇不同的框架。
  • 數(shù)據(jù)轉(zhuǎn)換:由于框架不同、使用語言不同,即時(shí)有準(zhǔn)備好的高質(zhì)量數(shù)據(jù)也需要快速適配不同語言和訓(xùn)練框架。

小結(jié):從AI應(yīng)用訓(xùn)練的3個(gè)難點(diǎn)分析,都與數(shù)據(jù)有關(guān),所以如果能解決數(shù)據(jù)問題,可有效助力AI應(yīng)用訓(xùn)練突破瓶頸。

三、數(shù)據(jù)是否是AI應(yīng)用的瓶頸?

雖然從應(yīng)用側(cè)總結(jié)出數(shù)據(jù)是AI應(yīng)用訓(xùn)練的瓶頸,但是到底有多少用戶這么認(rèn)為呢?需要用一份數(shù)據(jù)來說明。

人工智能應(yīng)用的主要挑戰(zhàn)排名

人工智能模型開發(fā)過程中,投入多少工作量用于數(shù)據(jù)準(zhǔn)備

注:數(shù)據(jù)來源于IDC統(tǒng)計(jì)報(bào)告

從數(shù)據(jù)統(tǒng)計(jì)可以看出,其中有29%的用戶認(rèn)為人工智能的應(yīng)用缺少訓(xùn)練和測(cè)試數(shù)據(jù),85%的用戶認(rèn)為至少花費(fèi)了一半以上的工作量用于準(zhǔn)備數(shù)據(jù)。

小結(jié):既然數(shù)據(jù)被證實(shí)確實(shí)是AI應(yīng)用的瓶頸,那么就可以考慮從數(shù)據(jù)尋找切入點(diǎn),以提供統(tǒng)一標(biāo)準(zhǔn)、快速訪問的大批量的高可用數(shù)據(jù)源為定位開展產(chǎn)品規(guī)劃。

四、產(chǎn)品設(shè)計(jì)

在尋找到以數(shù)據(jù)為切入點(diǎn)后,思考如何建設(shè)數(shù)據(jù)類的產(chǎn)品,根據(jù)上述的分析,可以發(fā)現(xiàn)要在我們的產(chǎn)品中解決3個(gè)數(shù)據(jù)類問題:

  • 問題1:數(shù)據(jù)存儲(chǔ),盡可能不改變?cè)磾?shù)據(jù)的存儲(chǔ)位置,最大化降低數(shù)據(jù)存儲(chǔ)的成本。
  • 問題2:快速訪問,從早期的數(shù)據(jù)查詢最好變成數(shù)據(jù)推理,快速搜索所需數(shù)據(jù)。
  • 問題3:統(tǒng)一標(biāo)準(zhǔn),將復(fù)雜的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范,便于應(yīng)用。

對(duì)以上問題,本次在傳統(tǒng)數(shù)據(jù)管理平臺(tái)基礎(chǔ)上采用“數(shù)據(jù)編織+知識(shí)圖譜”的理念進(jìn)行變革設(shè)計(jì)。其中各個(gè)問題的突破點(diǎn)如下:

  • 問題1:基于數(shù)據(jù)編織思想進(jìn)行設(shè)計(jì)
  • 問題2:基于知識(shí)圖譜思想進(jìn)行設(shè)計(jì)
  • 問題3:基于統(tǒng)一的數(shù)據(jù)平臺(tái)對(duì)外提供服務(wù)

接下來是產(chǎn)品的詳細(xì)設(shè)計(jì),從產(chǎn)品定位、應(yīng)用架構(gòu)、差異化競(jìng)爭(zhēng)力和建設(shè)路徑展開介紹。

1. 產(chǎn)品架構(gòu)

1)產(chǎn)品定位

以數(shù)據(jù)編織思想提供知識(shí)圖譜式的數(shù)據(jù)管理平臺(tái),服務(wù)于需要高質(zhì)量數(shù)據(jù)的客戶。

注:雖然主要目標(biāo)是解決AI應(yīng)用訓(xùn)練的數(shù)據(jù)瓶頸,但是從產(chǎn)品規(guī)劃角度,我們將用戶場(chǎng)景擴(kuò)大,但凡需要數(shù)據(jù)服務(wù)的都是該產(chǎn)品的目標(biāo)用戶。

2)產(chǎn)品應(yīng)用架構(gòu)

從數(shù)據(jù)層到產(chǎn)品應(yīng)用層,我們?cè)O(shè)計(jì)如下的產(chǎn)品架構(gòu):

數(shù)據(jù)層:支持接入不同種類數(shù)據(jù)類型,以及結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),AI訓(xùn)練的數(shù)據(jù)類別較多,尤其是多模態(tài)應(yīng)用更需要多種類型的數(shù)據(jù)。

存儲(chǔ)層:針對(duì)數(shù)據(jù)的離散性,要支持?jǐn)?shù)據(jù)在不同位置的存儲(chǔ),從云上數(shù)據(jù)到本地?cái)?shù)據(jù)都需要支持接入。

數(shù)據(jù)管理平臺(tái):本次需要設(shè)計(jì)的核心產(chǎn)品,主要包括四塊:

  1. 數(shù)據(jù)治理:傳統(tǒng)的數(shù)據(jù)管理平臺(tái)均具備的通用模塊,提供數(shù)據(jù)分析、清洗和規(guī)則定義等功能。
  2. 數(shù)據(jù)安全:同樣的屬于傳統(tǒng)模塊,提供跟數(shù)據(jù)安全相關(guān)的功能,如數(shù)據(jù)脫敏、數(shù)據(jù)安全傳輸?shù)取?/li>
  3. 數(shù)據(jù)虛擬化存儲(chǔ)&分布式緩存:此處即是利用數(shù)據(jù)編織思想對(duì)來自不同平臺(tái)的數(shù)據(jù)進(jìn)行網(wǎng)格化編織形成一張數(shù)據(jù)視圖,同時(shí)僅虛擬化存儲(chǔ)數(shù)據(jù)的邏輯信息,不做元數(shù)據(jù)的遷移和復(fù)制,降低存儲(chǔ)成本;但是為了能夠快速獲取數(shù)據(jù),在設(shè)計(jì)中提供分布式緩存,將訪問頻繁的數(shù)據(jù)做緩存,提高AI算法訓(xùn)練對(duì)數(shù)據(jù)的I/O速度和并行性,最大化提高算力集群效率。
  4. 知識(shí)圖譜:將清洗好的數(shù)據(jù),定義好規(guī)則好,按照知識(shí)圖譜三元組的形式進(jìn)行存儲(chǔ),對(duì)外以知識(shí)圖譜的形式提供查詢服務(wù),知識(shí)圖譜有利于進(jìn)行搜索的推理,可以通過某個(gè)實(shí)體數(shù)據(jù)關(guān)聯(lián)到另一個(gè)實(shí)體數(shù)據(jù),比如查詢電影視頻數(shù)據(jù),可以搜索“人在囧途”,通過演員“王寶強(qiáng)”和“徐崢”就會(huì)關(guān)聯(lián)出“泰囧”,通過關(guān)聯(lián)推理查詢可以幫助用戶在平臺(tái)中快速抽取到所需數(shù)據(jù)。

數(shù)據(jù)服務(wù):在設(shè)計(jì)完平臺(tái)后,需要預(yù)留出對(duì)外服務(wù)的出口,從產(chǎn)品的定位出發(fā),以toB客戶為主,所以既要考慮可視化服務(wù)、也要提供API類的服務(wù)。

  • API/SDK服務(wù):面向有技術(shù)能力的公司或者用戶,比如本文想解決的AI訓(xùn)練應(yīng)用瓶頸,就可以通過將AI平臺(tái)直接集成數(shù)據(jù)平臺(tái)的API服務(wù),獲取需要的數(shù)據(jù),將清洗好的數(shù)據(jù)用于模型訓(xùn)練。注:一般AI訓(xùn)練平臺(tái)需要標(biāo)注后的數(shù)據(jù),所以可以先將標(biāo)注平臺(tái)接入,再直接數(shù)據(jù)傳輸給AI訓(xùn)練平臺(tái)。
  • 可視化查詢:除了考慮技術(shù)層面對(duì)接,當(dāng)然還要考慮業(yè)務(wù)用戶在平臺(tái)查詢數(shù)據(jù),下載數(shù)據(jù)等行為,比如產(chǎn)品經(jīng)理、運(yùn)營經(jīng)理,他們需要依賴平臺(tái)自身提供的可視化查詢,檢索并下載數(shù)據(jù)后,導(dǎo)入其他業(yè)務(wù)平臺(tái)進(jìn)行加工生產(chǎn),其中可視化查詢采用圖譜結(jié)構(gòu),以天眼查的樣式為參考,通過搜索某個(gè)數(shù)據(jù),同時(shí)將關(guān)聯(lián)數(shù)據(jù)呈現(xiàn),便于用戶推理查詢。

圖注:天眼查截圖僅用于學(xué)習(xí)參考

2. 商業(yè)化

產(chǎn)品一旦落地,商業(yè)化是不可獲取的,所以在產(chǎn)品規(guī)劃階段需要將商業(yè)化方向先考慮清楚,從以下3個(gè)關(guān)鍵方面考慮:

1)售賣內(nèi)容

針對(duì)B端客戶,我們提供兩類售賣內(nèi)容,包括“數(shù)據(jù)管理平臺(tái)”標(biāo)品和“技術(shù)方案”。

  • 標(biāo)品:面向無數(shù)據(jù)管理平臺(tái)的用戶,用戶只需要買入我們的標(biāo)品,將數(shù)據(jù)接入,即可在業(yè)務(wù)中應(yīng)用,做到即開即用。
  • 技術(shù)方案:經(jīng)過數(shù)字化轉(zhuǎn)型大潮的影響,不少的B端企業(yè)客戶或多或少都會(huì)有自己的數(shù)據(jù)管理平臺(tái),所以toB的另一個(gè)售賣點(diǎn)就是售賣成熟的技術(shù)方案,對(duì)企業(yè)現(xiàn)有的產(chǎn)品進(jìn)行改造升級(jí),此時(shí),我們需要基于“數(shù)據(jù)編織+知識(shí)圖譜”設(shè)計(jì)思路對(duì)客戶產(chǎn)品從底層到服務(wù)層進(jìn)行改造。

2)售賣方式

B端產(chǎn)品常見的兩種售賣模式“渠道合作”和“直銷”,在本產(chǎn)品中也采用這些方式。

  • 渠道合作:選中兩類渠道合作,一類是地市的代理,由他們?cè)诘胤竭M(jìn)行推廣;一類是ISV模式,找到有技術(shù)能力的總集代理,將數(shù)據(jù)管理平臺(tái)與他們的產(chǎn)品合作,可以優(yōu)勢(shì)互補(bǔ),對(duì)外一起推廣。
  • 直銷:通過舉辦產(chǎn)品發(fā)布會(huì)、廣告推廣、跑客戶等手段進(jìn)行產(chǎn)品直接銷售。

3)差異化優(yōu)勢(shì)

既然是基于新的設(shè)計(jì)思路打造的數(shù)據(jù)管理平臺(tái),那么在產(chǎn)品銷售過程中,就需要體現(xiàn)出與傳統(tǒng)數(shù)據(jù)管理平臺(tái)的差異化優(yōu)勢(shì),才能后來居上,吸引用戶,我們可以概況為以下3個(gè)優(yōu)勢(shì)點(diǎn):

  • 數(shù)據(jù)編織:該產(chǎn)品是采用數(shù)據(jù)編織的思想進(jìn)行數(shù)據(jù)管理,采用數(shù)據(jù)虛擬化存儲(chǔ),降低數(shù)據(jù)物理存儲(chǔ)成本;同時(shí) 通過數(shù)據(jù)緩存的方式降低AI應(yīng)用訓(xùn)練時(shí)獲取數(shù)據(jù)的訪問時(shí)延。
  • AI能力:與傳統(tǒng)數(shù)據(jù)平臺(tái)通過各種條件檢索的方式不同,在本產(chǎn)品中直接通過知識(shí)圖譜視圖的形式呈現(xiàn),用戶可以僅輸入某個(gè)簡(jiǎn)單條件,系統(tǒng)即可返回相關(guān)的數(shù)據(jù)關(guān)系拓?fù)?,?shí)現(xiàn)“數(shù)據(jù)找人”。
  • 成熟標(biāo)品:雖然可以賣技術(shù)方案,但是如果沒有成熟的標(biāo)品終究不好打動(dòng)客戶,所以與傳統(tǒng)廠商賣大而全的數(shù)據(jù)管理平臺(tái)不同,我們賣“小而精”的一站式智能數(shù)據(jù)管理平臺(tái)。

3. 建設(shè)路徑

產(chǎn)品的成熟還需要有持續(xù)的建設(shè)路徑,在本產(chǎn)品建設(shè)過程中,立足“項(xiàng)目打磨產(chǎn)品”,分兩個(gè)2個(gè)大的階段進(jìn)行建設(shè)。

  • 項(xiàng)目交付,技術(shù)沉淀:通過承接1/2個(gè)私有化的數(shù)據(jù)類項(xiàng)目,在項(xiàng)目中沉淀數(shù)據(jù)編織和知識(shí)圖譜的建設(shè)思路,實(shí)現(xiàn)技術(shù)沉淀。
  • 產(chǎn)品落地,品牌推廣:從實(shí)際項(xiàng)目中抽象出產(chǎn)品,并迭代落地,帶產(chǎn)品建設(shè)后,做品牌化,并對(duì)外推廣。

五、結(jié)論

本文圍繞AI應(yīng)用訓(xùn)練的瓶頸展開敘述,對(duì)AI訓(xùn)練難點(diǎn)進(jìn)行總結(jié)并結(jié)合IDC分析報(bào)告,得出“數(shù)據(jù)”是最大瓶頸的結(jié)論,并針對(duì)該問題思考解決策略。

以數(shù)據(jù)編織和知識(shí)圖譜的理念進(jìn)行產(chǎn)品變革設(shè)計(jì),從產(chǎn)品定位、產(chǎn)品架構(gòu)、應(yīng)用場(chǎng)景等角度詳細(xì)介紹了一款“數(shù)據(jù)找人”的智能化數(shù)據(jù)管理平臺(tái),同時(shí)還介紹了產(chǎn)品后續(xù)的商業(yè)推廣思路及建設(shè)路徑,對(duì)有數(shù)據(jù)應(yīng)用場(chǎng)景的客戶,如AI訓(xùn)練平臺(tái),數(shù)據(jù)標(biāo)注平臺(tái),甚至是傳統(tǒng)數(shù)據(jù)管理產(chǎn)品需要改造升級(jí)的客戶可以提供幫助。

后續(xù)我們會(huì)進(jìn)一步探索將數(shù)據(jù)編織的思路擴(kuò)大到模型并行訓(xùn)練的實(shí)際過程中,尋求更多的數(shù)據(jù)高效化的可行性。

專欄作家
Eric_d,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注AI、大數(shù)據(jù)等領(lǐng)域,擅長需求分析、產(chǎn)品流程和架構(gòu)設(shè)計(jì)等,日常喜歡徒步。

本文為人人都是產(chǎn)品經(jīng)理《原創(chuàng)激勵(lì)計(jì)劃》出品。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 考慮向量數(shù)據(jù)庫嘛兄弟

    來自北京 回復(fù)
    1. 謝謝提醒,這塊之前沒考慮到,更多考慮的Clickhouse,如果考慮某些業(yè)務(wù)場(chǎng)景,向量數(shù)據(jù)庫確實(shí)有優(yōu)勢(shì)

      來自江蘇 回復(fù)