Martech 營銷自動化從 AB 測試開始

7 評論 5112 瀏覽 26 收藏 23 分鐘

在數(shù)據(jù)驅(qū)動決策的理念、思維、工具日益革新左右手的增長邏輯的今天,如何決策,即大數(shù)據(jù)應(yīng)該走向決策數(shù)據(jù)顯得尤為重要。本文作者在文中詳細(xì)介紹“AB測試”這一科學(xué)經(jīng)營行為,闡述為何將它稱作成功企業(yè)留住客戶、進(jìn)行商業(yè)變現(xiàn)的奠基石。同時為大家解釋AB 測試相關(guān)術(shù)語,舉例數(shù)據(jù)及其相關(guān)過程。值得童鞋們交流分享。

如今的企業(yè)營銷決策變革主要在兩個維度發(fā)生改變:

左手是市場導(dǎo)向型戰(zhàn)略,即公司業(yè)務(wù)的市場增長邏輯、增長區(qū)間在什么地方,偏宏觀戰(zhàn)略;

右手是消費(fèi)者行為研究,即如何深入理解消費(fèi)者偏好、促進(jìn)精準(zhǔn)營銷轉(zhuǎn)化,偏微觀策略。

今天,數(shù)據(jù)驅(qū)動決策的理念、思維、工具都在革新左右手的增長邏輯。重要的是如何決策,即大數(shù)據(jù)應(yīng)該走向決策數(shù)據(jù)。

過去企業(yè)經(jīng)常談以消費(fèi)者為中心,很容易陷入空洞的口號,主要過于依賴員工的理解和執(zhí)行,造成落地難度很大。如今,大量數(shù)字化觸點(diǎn)的建設(shè),使多維度數(shù)據(jù)的可獲得性大大提高,帶來了全新的連接關(guān)系。無論是 Martech 的前鏈路還是后鏈路營銷,這種連接直接促成了互動行為的數(shù)字化,一個最終的消費(fèi)決策被分割成無數(shù)微觀的階段性消費(fèi)者行為切面。而 AB 測試,就是對消費(fèi)者行為切片進(jìn)行量化反饋的過程,扮演著大數(shù)據(jù)向決策數(shù)據(jù)轉(zhuǎn)變的催化劑作用,也是數(shù)據(jù)決策的重要抓手。

早在 2007 年,谷歌就建設(shè)了完善的 AB 測試系統(tǒng),隨后實驗的頻率越來越高。

  • 現(xiàn)在谷歌每個月都會上線幾百個 AB 測試,谷歌通過這些實驗可獲得全年 20%+ 的增長,增加超過 10 億美元的營收;
  • Facebook 的 CEO 會親自參與眾多的 AB 測試;
  • Linkedin 把 AB 測試作為產(chǎn)品研發(fā)上線過程中的基本流程;
  • 國內(nèi)大廠中,小米是 AB 測試的先驅(qū)者,從 2010 年 8 月 16 日首個 MIUI 內(nèi)測版發(fā)布,就開始進(jìn)行系統(tǒng)性的 AB 測試,測出天使米粉對哪些功能更感興趣并進(jìn)行快速迭代,每個員工、米粉都積極參與到 AB 測試,并形成了小米“參與感”的文化底蘊(yùn);
  • 字節(jié)跳動自 2012 年成立以來,字節(jié)跳動先后將 AB 測試應(yīng)用在產(chǎn)品命名、交互設(shè)計、推薦算法、用戶增長、廣告優(yōu)化和市場活動等方方面面的決策中。

AB 測試背后,折射出的是企業(yè)“讓數(shù)據(jù)和事實說話”、“避免拍腦門”的決策機(jī)制。AB 測試堪稱是成功企業(yè)留住客戶、進(jìn)行商業(yè)變現(xiàn)的奠基石。

在消費(fèi)品行業(yè),AB 測試同樣大有所為。比如元?dú)馍终峭ㄟ^ AB 測試,在氣泡水這一細(xì)分賽道里突圍而出。首先進(jìn)行口味測試,測出天使用戶對哪一種口味更感興趣;再進(jìn)行電商測試,看看驗證型的產(chǎn)品在電商渠道的情況,是否達(dá)到規(guī)模化標(biāo)準(zhǔn),再去進(jìn)行線下鋪開;在門店測試中,通過各種 IOT 設(shè)備監(jiān)測消費(fèi)者的互動和購買行為,調(diào)整選品和陳列策略,最終完成整個 DTC 測試。這套測試方法,本質(zhì)上就是推動從大數(shù)據(jù)到?jīng)Q策數(shù)據(jù)轉(zhuǎn)變的過程。

很多人一直把 AB 測試?yán)斫獬梢粋€技術(shù)行為,其實它是一種業(yè)務(wù)經(jīng)營行為,而且是一種科學(xué)的經(jīng)營行為。我們不應(yīng)當(dāng)僅僅拿它作為一個工具,而應(yīng)當(dāng)將它變成一種思維,一種方法論,一種企業(yè)經(jīng)營策略。

AB 測試有很大的作用,但能用好 AB 測試的公司并不多,本文立意是 Martech 領(lǐng)域中如何用 AB 測試?yán)斫馕⒂^層面的消費(fèi)者偏好并進(jìn)行精準(zhǔn)營銷自動化,以及闡釋 AB 測試的底層邏輯。

一、什么是 AB 測試

簡單來說,當(dāng)企業(yè)面臨決策的不確定時,可以從整體流量中劃出小部分流量,隨機(jī)、均勻地分出兩組,分別由兩組用戶進(jìn)行測試,最終通過實驗數(shù)據(jù)對比確定更優(yōu)方案。實證科學(xué)本質(zhì)就是一種 AB 測試,將實驗對象分組、比較、校準(zhǔn),形成可復(fù)制的經(jīng)驗。用胡適的話,“大膽假設(shè)、小心求證”,而今由于行為數(shù)據(jù)的豐富,AB 測試成為 Martech 的底牌之一。

從心理上,消費(fèi)者往往不知道自己要什么,但從行為上,我們能知道他們的真實選擇偏好,企業(yè)也由此可以動態(tài)做出決策。通過 AB 測試,確保每個決策都為企業(yè)帶來正向收益,實現(xiàn)復(fù)利效應(yīng),帶動持續(xù)增長。

二、解釋幾個 AB 測試相關(guān)術(shù)語

1. 流量互斥層

是為了讓多個實驗?zāi)軌虿⑿胁幌嗷ジ蓴_,且都獲得足夠的流量而研發(fā)的流量分層技術(shù)。把總體流量“復(fù)制”無數(shù)遍,形成無數(shù)個流量層,讓總體流量可以被無數(shù)次復(fù)用,從而提高實驗效率。各層之間的流量是正交的,你可以簡單理解為:在流量層選擇正確的前提下,流量經(jīng)過科學(xué)的分配,可以保證各實驗的結(jié)果不會受到其他層實驗的干擾。

2. 流量正交實驗

每個獨(dú)立實驗為一層,一份流量穿越每層實驗時,都會隨機(jī)打散再重組,保證每層流量數(shù)量相同。

舉個例子。假設(shè)現(xiàn)在有 2 個實驗。

  1. 實驗 A(實驗組標(biāo)記為 A1,對照組標(biāo)記為 A2)分布于實驗層 1,取用該層 100% 的流量;
  2. 實驗 B(實驗組標(biāo)記為 B1,對照組標(biāo)記為 B2)分布于實驗層 2,也取用該層100% 的流量。

(要注意,實驗層 1和實驗層 2實際上是同一批用戶,實驗層 2 只是復(fù)用了實驗層 1 的流量)

  1. 如果把 A1 組的流量分成 2 半,一份放進(jìn) B1 組,一份放進(jìn) B2 組;
  2. 再把 A2 組的流量也分成2半,一份放進(jìn) B1 組,一份放進(jìn) B2 組。

那么兩個實驗對于流量的調(diào)用就會如下圖所示。此時實驗 A 和實驗 B 之間,就形成了流量“正交”。

劉生:Martech 營銷自動化從 AB 測試開始

我們可以發(fā)現(xiàn),因為 A1 組的一半流量在 B1 中,另一半流量在 B2 中,因此即使 A1 的策略會對實驗 B 產(chǎn)生影響,那么這種影響也均勻的分布在了實驗 B 的兩個組之中;在這種情況下,如果 B1 組的指標(biāo)上漲了,那么就可以排除 B1 是受 A1 影響才形成上漲。這就是流量正交存在的意義。

3. 互斥實驗

所有互斥實驗使用同一流量層用戶,但不共享用戶,如果一個用戶 / 設(shè)備命中了實驗 A,就不會命中互斥的其他實驗。

4. 實驗指標(biāo)

在開始一個實驗時,目的是對比對照組和實驗組的某個或者某幾個指標(biāo)。如,分析活動頁面主圖的點(diǎn)擊次數(shù)時,需要上報注冊的點(diǎn)擊事件,然后在 AB 測試中配置指標(biāo),即可看到實驗中及實驗后的指標(biāo)對比。

5. 流量過濾

對 AB 測試的目標(biāo)用戶增加一些限制條件,規(guī)定被實驗命中的用戶必須符合(或不符合)條件,比如針對某個用戶分群,某些用戶標(biāo)簽進(jìn)行過濾,進(jìn)而精準(zhǔn)找到測試目標(biāo)人群,這種限制條件即“流量過濾”。

6. 白名單用戶

在實驗正式開啟之前,通常需要先選擇幾名用戶進(jìn)入測試階段,觀察實驗是否能夠正常獲取想要收集的數(shù)據(jù),或執(zhí)行流程是否符合預(yù)期。參與這一步的用戶被稱為“白名單用戶”。

7. 置信區(qū)間

置信度區(qū)間就是用來對一組實驗數(shù)據(jù)的結(jié)果進(jìn)行估計的區(qū)間范圍。

舉個例子,我們現(xiàn)在進(jìn)行一個實驗來體現(xiàn)活動落地頁中的圖案改變對用戶購買率的影響,其中采用了新策略 B 的實驗組,購買率提升均值為 5%,置信區(qū)間為[1.5%,8.5%]。

怎么理解此處的置信區(qū)間呢?由于在 AB 實驗中我們采取小流量抽樣的方式,樣本不能完全代表總體,那么實際上策略 B 如果在總體流量中生效,不見得會獲得 5% 的增長。

如果我們設(shè)策略 B 在總體流量中推行所導(dǎo)致的真實增長率為 μ,那么在這個案例中,μ 的真實取值會在 [1.5%,8.5%] 之間。

值得注意的是,μ 并不是 100% 概率落在這一區(qū)間里,在計算置信區(qū)間的過程中,我們會先取一個置信度,計算這一置信度下的置信區(qū)間是多少,AB 實驗中我們通常計算 95% 置信度下的置信區(qū)間。

回到剛剛的例子,我們就可以得知,μ 的真實取值有 95% 的可能落在 [1.5%,8.5%] 之間。

8. 置信度

在實際操作中,會遇到實驗結(jié)論顯示新策略有用,但實際上全量發(fā)布新策略后沒用。

在統(tǒng)計學(xué)中稱為第一類錯誤,用顯著性水平 ( α ) 來描述實驗者范這一類錯誤的概率,置信度 = 1 – α,當(dāng)某個實驗結(jié)論顯著性指標(biāo) α < 5%,則置信度 > 95%,我們認(rèn)為這個實驗結(jié)論指標(biāo)大概率是可信的,系統(tǒng)有超過 95% 的信心確認(rèn)這個實驗結(jié)論是準(zhǔn)確的。

在 AB 測試中,由于只能抽取流量做小樣本實驗。樣本流量的分布與總體流量不會完全一致,這就導(dǎo)致沒有一個實驗結(jié)果可以 100% 準(zhǔn)確,即使數(shù)據(jù)漲了,也可能僅僅由抽樣誤差造成,跟我們采取策略無關(guān)。

在統(tǒng)計學(xué)中,置信度的存在就是為了描述實驗結(jié)果的可信度。

9. 校驗靈敏度 ( MDE )

實際操作中,會遇到新策略其實有效,但實驗沒能檢測出來。

在統(tǒng)計學(xué)中稱為第二類錯誤,用 β 來描述實驗者范這一類錯誤的概率,統(tǒng)計功效 = 1 – β,統(tǒng)計功效表示如果新策略是有效的,有多大概率在實驗中能夠檢測出來。通常認(rèn)為統(tǒng)計功效 > 80% 為有效檢測 。

通過設(shè)置 MDE,并與新策略的目標(biāo)提升率進(jìn)行比較,來避免實驗在靈敏度不足的情況下被過早做出非顯著結(jié)論而結(jié)束,錯失有潛力的新策略。MDE 越小,意味著要求測試的靈敏度越高,所需的樣本量也越大。

如果 MDE 設(shè)置過于精細(xì),不僅會浪費(fèi)不必要的流量,同時實際收益可能不能彌補(bǔ)新策略的研發(fā)和推廣成本。靈敏度不足,比如預(yù)期 1% 就達(dá)標(biāo),但實驗靈敏度僅能檢測 5% 及以上,會導(dǎo)致錯失有潛力的新策略。

三、AB測試的魅力何在

AB 測試究竟有什么魅力,能夠為企業(yè)帶來如此大的收益,被各大互聯(lián)網(wǎng)公司視為法寶。

一方面 AB 測試只用整體流量中的一小部分進(jìn)行實驗,避免了一個錯誤決策對整個公司用戶的嚴(yán)重影響,另一方面又能夠依靠數(shù)據(jù)對每個特征進(jìn)行影響力量化,使得我們可以以較小的風(fēng)險對新特性進(jìn)行評估,積極試錯積累經(jīng)驗,并且這個方法有能力排除其他因素(如同時開發(fā)的其他特性、時間因素等)的干擾;除了“好’或者‘不好“,也能夠給出定量的結(jié)果。

之所以 AB 測試能夠用小部分流量進(jìn)行抽樣,并量化誤差,得到相對準(zhǔn)確的預(yù)測結(jié)論,根源在于中心極限定理的存在。中心極限定理定告訴我們,如果我們從總體流量里不斷抽取樣本,做無數(shù)次小流量實驗,這無數(shù)次抽樣所觀測到的均值,近似呈現(xiàn)正態(tài)分布。

這個分布以真值(所有抽樣的平均值) 為中心,抽樣均值越接近真值,出現(xiàn)的概率就越大;反之均值越偏離真值,出現(xiàn)的概率就越小。

對于一個待投放的營銷素材而言,假設(shè)以消費(fèi)者點(diǎn)擊率為實驗指標(biāo),只要小流量抽樣次數(shù)足夠多,可以得到一個正態(tài)分布圖,抽樣次數(shù)越多,正態(tài)分布均值越趨近于真實的消費(fèi)者點(diǎn)擊率。

開啟實驗前,哪一個版本表現(xiàn)更好往往是未知的。傳統(tǒng)的 AB 測試依賴于統(tǒng)計顯著性的經(jīng)典假設(shè)檢驗,為對照版本和實驗版本分配定額流量,一般不允許在實驗期間變更每個版本的流量,因此該類實驗的缺陷比較明顯,即便已發(fā)現(xiàn)實驗版本明顯優(yōu)于對照版本,實驗期間我們還需要在對照版本上繼續(xù)花費(fèi)流量直至實驗結(jié)束,以便獲得具有統(tǒng)計學(xué)意義的結(jié)論。

但是在廣告投放、營銷活動推送等場景下,運(yùn)營人員期望盡快獲得最大收益。此種場景就需要考慮如何在快速發(fā)現(xiàn)并收斂到高價值素材和不放棄對新素材的嘗試這兩者之間取得平衡( EE 問題),以追求收益的最大化。

Martech 營銷自動化就是為了解決這類實驗場景,依托多臂老虎機(jī)(MAB)強(qiáng)化學(xué)習(xí)手段,通過概率分布的思想找到最可能成為最優(yōu)解的實驗版本,快速加大分配流量,并實時計算實驗收益,達(dá)到收益最大化。

應(yīng)用舉例

某公司準(zhǔn)備進(jìn)行一次營銷活動,通過營銷自動化 AB 測試工具進(jìn)行一次實驗,選出最佳素材,流程如下:

劉生:Martech 營銷自動化從 AB 測試開始

  1. 設(shè)計團(tuán)隊準(zhǔn)備 3 個素材,交付到運(yùn)營投放團(tuán)隊;

2. 在營銷自動化平臺開啟 AB 測試,按照目標(biāo)人群標(biāo)簽過濾出 9000 人流量;配置實驗 1、實驗 2、實驗 3,分別對應(yīng)素材 1、素材 2、素材 3,初始流量比例各占 1/3;開啟互斥實驗;定義實驗指標(biāo)為用戶點(diǎn)擊率,記錄每個用戶看到素材后的點(diǎn)擊行為;

3. 實時獲取數(shù)據(jù),每隔 30 s 統(tǒng)計一次實驗效果;

4. 采用基于貝葉斯推斷的湯普森采樣,使用 Beta 分布對用戶點(diǎn)擊率的概率分布進(jìn)行繪制,它有兩個正值參數(shù),α 和 β,決定了概率分布的形狀,兩個參數(shù)默認(rèn)值都為 1。

Beta 分布的均值是:

劉生:Martech 營銷自動化從 AB 測試開始

Beta 分布的方差是:

劉生:Martech 營銷自動化從 AB 測試開始

使用 Python matlab 模擬不同 α 和 β 情況下 Beta 分布(如下圖),可以得到兩個重要信息:

1)α / (α + β) 越大,概率密度分布的中心位置越靠近 1,依據(jù)此概率分布產(chǎn)生的隨機(jī)數(shù)更大概率靠近 1,反之越靠近 0;

2)α + β 越大,分布越窄,集中度越高,這樣產(chǎn)生的隨機(jī)數(shù)更接近中心位置,從方差公式上能看出來。

劉生:Martech 營銷自動化從 AB 測試開始

依據(jù)以上特性,結(jié)合本次實驗指標(biāo),定義 α 為素材被用戶點(diǎn)擊次數(shù),β 為素材未被用戶點(diǎn)擊素材次數(shù)。舉例來說,當(dāng)某個用戶看到素材 1 時,如果他點(diǎn)擊了素材,則 α += 1,否則,β + = 1。

經(jīng)過 30 s,進(jìn)行實驗效果統(tǒng)計時,發(fā)現(xiàn)素材 1 的 α = 170,β = 82,素材 2 的 α = 82,β =170,素材 3 的 α = 30,β = 20,則 3 個素材點(diǎn)擊率的概率分布圖如下:

劉生:Martech 營銷自動化從 AB 測試開始

劉生:Martech 營銷自動化從 AB 測試開始

劉生:Martech 營銷自動化從 AB 測試開始

通過分布圖可以看到 素材 1 的點(diǎn)擊率平均值 0.674,素材 2 的點(diǎn)擊率平均值 0.325,素材 3 的點(diǎn)擊率平均值 0.6。可以看到在抽樣流量下素材 1 的效果明顯好于素材 2,但素材 3 由于命中的流量比較少,概率分布圖的方差很大,此時如果直接選擇素材 1 則有可能失去一次對更好素材的探索機(jī)會。

這時湯普森采樣會從各素材的 Beta 分布中隨機(jī)獲取一個值,并選出隨機(jī)值最大的素材進(jìn)行流量分配。比如素材 1 隨機(jī)得到 0.71,素材 2 隨機(jī)得到 0.286,素材 3 隨機(jī)得到 0.73,此時下一個用戶就會命中素材 3,并根據(jù)用戶點(diǎn)擊數(shù)據(jù)的真實反饋,重繪素材 3 的 Beta 分布。選擇湯普森采樣的好處就是平衡了 EE ( Exploration& Exploitation) 的問題,總體上點(diǎn)擊率越高,獲得的流量越大,同時兼顧了探索新素材的可能;

5. 具有一定初始流量后,各素材繪制的 Beta 分布圖逐漸產(chǎn)生差異,使用湯普森采樣,平均值靠近 1 的素材會更容易獲得新流量,而命中次數(shù)比較少的素材,因為集中度低,也有一定概率獲得流量。隨著真實流量的增加,最終收斂到某個最優(yōu)素材;

6. 蒙特卡洛模擬是在已知各素材 Beta 分布的基礎(chǔ)上,多次從各素材隨機(jī)抽取,然后經(jīng)驗地計算出每一個素材的點(diǎn)擊率,此方法可以模擬海量流量,最大趨近于全量發(fā)布方案效果。當(dāng)真實流量放大到一定程度,與模擬收益相符最優(yōu)素材勝出,實驗收斂并結(jié)束。

三、總結(jié)

Martech 營銷自動化工具突出利用算法和大數(shù)據(jù)進(jìn)行 AB 測試并自動化決策和執(zhí)行,取得收益最大化。這與傳統(tǒng) AB 測試最大區(qū)別是時間短、靈活度高,在廣告投放、營銷活動推送等場景下,運(yùn)營人員可以嘗試更多營銷方案同時盡快收斂最大收益方案,這平衡了 EE ( Exploration& Exploitation) 問題。

劉生:Martech 營銷自動化從 AB 測試開始

傳統(tǒng) AB 測試,長時間穩(wěn)定流量觀察數(shù)據(jù),得到具有統(tǒng)計意義的結(jié)論。

劉生:Martech 營銷自動化從 AB 測試開始

營銷自動化 AB 測試,根據(jù)實時數(shù)據(jù)反饋,流量傾斜到優(yōu)質(zhì)內(nèi)容,迅速收斂。

 

本文由 @劉生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. AB測試在市場決策中提供的數(shù)據(jù)支持還是蠻重要的。第一次看到將它變成一種思維、方法論和企業(yè)經(jīng)營策略的觀點(diǎn),很新鮮。但文章中的舉例和實驗對照還是略微有些難以理解。

    來自福建 回復(fù)
  2. Martech 營銷是什么,可以大致的講一下嗎。不太能理解這篇文章

    來自北京 回復(fù)
    1. MarTech 簡單來說就是 Marketing + Tech,營銷技術(shù),用來優(yōu)化營銷策略和進(jìn)行自動化營銷

      來自北京 回復(fù)
  3. 作者沒在martech行業(yè)從業(yè)過吧,寫的太理想化了,基本不會有公司像你寫的那樣來執(zhí)行的

    來自上海 回復(fù)
    1. 我本人就是做 martech 創(chuàng)業(yè)的,歡迎關(guān)注我的公眾號

      來自北京 回復(fù)
  4. AB測試通過積極試錯,試出最適合產(chǎn)品研發(fā)發(fā)展的方向,這給企業(yè)帶來的效益是無窮的,而且企業(yè)旗下的品牌也可以用同一種打法占領(lǐng)市場。

    來自廣東 回復(fù)
  5. 這篇文章對于我來說還是蠻難理解的,好多公式跟專業(yè)圖,但結(jié)構(gòu)清晰,值得細(xì)細(xì)品讀

    來自江蘇 回復(fù)