為什么互聯(lián)網巨頭如此熱衷于A/B測試？

搜索

APP

起點課堂會員權益

職業(yè)體系課特權

線下行業(yè)大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

為什么互聯(lián)網巨頭如此熱衷于A/B測試？

衛(wèi)夕

2021-06-22

0 評論 4859 瀏覽 6 收藏

16 分鐘

編輯導語：近年來，A/B測試收到了許多互聯(lián)網巨頭的青睞，A/B測試源于學術層面的“隨機對照試驗”，作為一種方法論，它在互聯(lián)網領域該如何應用呢？

一、A/B測試前身：歷史悠久的對照實驗

今天互聯(lián)網巨頭熱衷的A/B測試，其實源于學術層面的“隨機對照試驗”，作為一種方法論，這種對照試驗有著悠久的歷史。

1747年，為了治療壞血病，皇家海軍的外科醫(yī)生James Lind 設計了一項實驗。他測試了蘋果醋、大麥水、橘子等六種不同藥方。

最終發(fā)現(xiàn)新鮮的橘子為最佳的治療藥物，盡管那時并不清楚是橘子中維C的作用。

1835年，醫(yī)學史上第一次“雙盲實驗”在紐倫堡實現(xiàn)。一位名為弗里德里希的公共衛(wèi)生官員，為對抗當時頗為流行的順勢療法開啟了一個賭注：將25瓶順勢療法鹽水和25瓶蒸餾水分發(fā)給50位雙盲受試者。

最后8位聲稱產生了治療效果，但揭盲后發(fā)現(xiàn)，有3位喝的其實是蒸餾水，弗里德里希贏得了賭注。

1935年，統(tǒng)計學家兼生物學家羅納德·費雪（Ronald Fisher）寫了一本名為《實驗設計》的書。在書中，他系統(tǒng)論述了隨機對照實驗的設計原則和統(tǒng)計檢驗的方法，成為實驗設計領域的開山之作。

1944年，在制造原子彈的過程中，曼哈頓計劃的領軍科學家奧本海默，用3種方法測試如何分離鈾235，這一步驟成為整個項目中最關鍵的環(huán)節(jié)之一。

1960年代，大衛(wèi)·奧格威用對照測試的方法驗證廣告的有效性——寫兩條不同的文案并要求報紙將其各印一半，同時在文案中留下索取免費樣品的郵編和地址，但樣式不一樣，最終根據(jù)實際樣品索取量來觀察哪種文案效果更好。

……

可以清楚地看到，隨機對照實驗作為一種方法論，在現(xiàn)代科學和商業(yè)發(fā)展中發(fā)揮了重要作用。

它本質上能通過控制單一變量的方法來尋找最優(yōu)解決方案，已經被廣泛運用到工程學、醫(yī)學、教育學和多個領域的商業(yè)實踐中。

而我們今天要聊的A/B測試其實就是隨機對照實驗在互聯(lián)網領域的具體應用。

二、A/B測試，互聯(lián)網巨頭的標配

A/B測試——又被稱為小流量實驗。

通常是針對某個功能/UI/邏輯策略等，提供兩種（或多種）不同的備選解決方案，從總體用戶中隨機抽取一小部分流量，分配給不同方案，最終通過實驗數(shù)據(jù)對比來確定最優(yōu)方案。

今天，在硅谷和中國的互聯(lián)網頭部企業(yè)，A/B測試已經成為業(yè)務發(fā)展的標配。我們簡單梳理下A/B測試是如何風靡各大互聯(lián)網巨頭的。

2000年2月27日，谷歌搜索部門的一位工程師進行了互聯(lián)網時代的第一次A/B測試——他想知道搜索結果每頁展示多少條是效果最好的，當時默認為 10。

實驗是這樣設計的：

對于0.1%的搜索流量，每頁顯示20條結果；
另外兩個0.1%分別顯示25條、30條。

這次測試從直接結果看并不成功。由于技術故障，實驗組頁面的加載速度明顯慢于對照組，最終導致實驗的相關指標下降。

但谷歌因此獲得了意外收獲，他們發(fā)現(xiàn)即便是0.1秒的加載延遲也會顯著影響用戶滿意度。很快，谷歌將改善響應時間提升為高優(yōu)先級事項。

以這次實驗為開端，A/B測試在谷歌內部快速流行起來。

2012年，據(jù)谷歌的首席經濟學家范里安稱，谷歌每年就會開展超過5000次的A/B測試。

亞馬遜早期，工程師Greg Linden曾提出一個想法：在客戶支付時，根據(jù)他們購物車中的商品，向他們提供個性化的“沖動購買”建議。

他精心做了一個Demo，但演示后當時亞馬遜的一位副總裁武斷地否決了這一想法。Greg Linden并不氣餒，他業(yè)余時間用三個半月完成了這一功能的開發(fā)，并對這個功能進行了小流量的測試。

結果證明，即便是這個極其粗糙、簡陋的版本，也讓實驗組用戶的購買規(guī)模提升了17%。

于是，“商品推薦”這個今天司空見慣的功能從此在亞馬遜開啟。

在Facebook，CEO扎克伯格曾公開宣稱：

“在任何給定的時間點，都不會只有一個版本的 Facebook 在線上運行，而是有超過一萬個，我們的實驗框架能隨時發(fā)現(xiàn)和感知用戶最細微的行為差異?！?/p>

在中國，頭部的互聯(lián)網企業(yè)也都有自己的A/B測試平臺。比如字節(jié)跳動的Libra、美團的Gemini、滴滴的阿波羅。

張一鳴曾表示：

“即使你有99%的把握某個名字比另一個名字更好，測一測又有什么關系呢？”

目前在字節(jié)跳動，每天同時進行的A/B測試達上萬場，單日新增實驗數(shù)量超過1500個，覆蓋400多項業(yè)務。截至今年3月底，字節(jié)跳動累計已經做了70多萬次。

三、為什么互聯(lián)網巨頭熱衷于A/B測試？

互聯(lián)網公司大規(guī)模運用A/B測試并非偶然，這背后深層次的原因在于：A/B測試是數(shù)據(jù)驅動理念的最佳落地實踐，它能以最小的風險實現(xiàn)業(yè)務的有效反饋。

字節(jié)跳動在發(fā)布APP的時候，通常會給APP取多個名字，打多個包上架到應用市場進行A/B測試，觀察不同名字的下載率、留存率等指標。

這背后其實是一種尊重客觀事實的決策哲學。

事實上，在硅谷的互聯(lián)網文化中，那些靠拍腦袋的決策有一個專有名詞“HiPPO”：”Highest-paid person’s opinion”，即“公司收入最高的那個人說了算”。

谷歌的技術專家Avinash Kaushik 曾說：

“大多數(shù)互聯(lián)網產品都很糟糕，因為 HiPPO 創(chuàng)造了它們?！?/p>

Netflix在2016年4月的一篇技術博客中寫道：

“通過對照測試的方法，我們確保產品變更不是由最固執(zhí)己見，和最有發(fā)言權的Netflix高管驅動，而是由實際的在線數(shù)據(jù)驅動，這是我們走向成功的基礎?！?/p>

有人會問：A/B測試的決策思想其實由來已久，為什么直到現(xiàn)在才變得流行起來？

答案是實驗成本。

在硬件產品時代，產品的開發(fā)成本很高，一臺電腦如果控制不同變量，事實上它就變成兩臺不同的電腦，本質上屬于兩條產品線，而開發(fā)多條產品線對于硬件產品的成本是非常高的。

軟件產品時代開發(fā)成本同樣高昂，一個版本的Windows要開發(fā)數(shù)年，一個3A大作開發(fā)同樣動輒數(shù)年，這樣龐大的開發(fā)成本是無法同時進行不同版本的開發(fā)的。

同時，無論是硬件產品還是軟件產品，它們從開發(fā)、上市到客戶反饋，這個周期是極其漫長的，這樣冗長的周期也讓靈活多變的A/B測試難以大規(guī)模應用。

而到了互聯(lián)網時代，每一個產品特性都可以快速迭代，每一次迭代都能迅速得到反饋。

開發(fā)成本的降低和反饋周期的縮短，這兩重因素無疑給A/B測試提供了極其便利的實踐條件。

為了讓A/B測試的價值得到更大發(fā)揮，很多互聯(lián)網巨頭還將這項能力開放給C端用戶。

比如今日頭條發(fā)布文章的界面，作者可以取雙標題和雙封面，經過小流量的測試之后，推薦系統(tǒng)會自動推薦點擊率高的標題。

Facebook的廣告系統(tǒng)也給廣告主提供了一項組合實驗能力，即客戶可以上傳不同的標題、描述、封面和按鈕。

Facebook自動對這些元素進行隨機組合，形成多個創(chuàng)意進行A/B測試，自動將預算分配到轉化率最高的創(chuàng)意組合上。

為什么今天傳統(tǒng)的“廣告大師”越來越少了？

因為互聯(lián)網廣告在很大程度上不再依靠“大師”的靈光乍現(xiàn)，而是更多地依靠優(yōu)化師每天測試無數(shù)版文案和素材，甚至很多文案是機器生成的。

四、如何利用工具做好A/B測試？

我們在上面的部分了解了A/B測試的原理和意義，很多公司會問：我知道在增長日益困難的今天，A/B測試是一個好東西，那到底應該如何付諸實踐呢？

的確，A/B測試的實踐并不是一個簡單的過程，它比很多人想象得要困難，這個困難體現(xiàn)在幾個層面：

首先，需要確定A/B測試的關鍵環(huán)節(jié)。

A/B測試到底測什么的問題，即企業(yè)必須清楚哪些環(huán)節(jié)是推動業(yè)務發(fā)展的關鍵，在關鍵環(huán)節(jié)上進行試驗。

如果找不到關鍵環(huán)節(jié)，在無關痛癢的環(huán)節(jié)上，無論做多少A/B測試也是徒勞的。

其次，需要確保A/B測試過程的科學性和合理性。

比如控制單一變量，即確保實驗組和對照組只有一個關鍵變量是存在差異的；

比如確保流量分配的均勻隨機，即實驗組和對照組的流量是完全獨立的，不存在互相影響的關系。

最后，還需要確定合適的評價指標。

評價指標通常不止一個，是看A指標還是B指標？過程指標還是結果指標？短期指標還是長期指標？單個指標還是多重指標？這些都需要根據(jù)業(yè)務實際情況審慎決定。

所以，A/B測試并不是一件容易的事。要充分解決以上問題，對于企業(yè)而言，開發(fā)一套完整的實驗系統(tǒng)是其中的一個方案，但這通常需要較高的開發(fā)成本。

另一種方式是使用成熟的第三方測試工具。

比如字節(jié)跳動就將其內部的A/B測試技術能力，通過其旗下的To B品牌“火山引擎”統(tǒng)一對外開放。

2014年，字節(jié)開始推動A/B測試的平臺化，2016年正式建立A/B測試平臺Libra。

運行至今，Libra已經在字節(jié)的多個產品線驗證了有效性，同時經過多年迭代，在實用性、易用性、靈活性等層面都得到了充分驗證。

火山引擎的A/B測試具體適用于哪些場景？主要有以下幾個：

個性化推送實驗：在運營場景下支持APP個性化推送試驗，比較不同組推送效果。
可視化建站實驗：無需代碼，運營人員就可以直接在頁面上修改文案等元素進行試驗。
多鏈接網頁實驗：在需要轉跳網頁的場景下，可以把流量打到不同的著陸頁上去對比評估效果。
客戶端和服務端編程實驗：從前端的交互、功能迭代到后端的策略和模型優(yōu)化，支持灰度發(fā)布。

火山引擎的A/B測試可以靈活支持獲客、留存、轉化、傳播等各個環(huán)節(jié)的測試工作。比如說：

獲客階段，可以看哪個文案更適合；
轉化階段，可以看哪個算法效果更好；
傳播階段，可以看哪個互動效果更佳。

悟空租車就使用火山引擎的A/B測試，對整個租車流程進行了對照實驗。實驗的出發(fā)點是想減輕用戶對押金的壓迫感，提升轉化率。

悟空租車原有的流程是租金和押金在同一個頁面支付，用戶支付時心理成本較大，于是產品經理設計了一個新方案：延遲支付押金，即先付租金再付押金。

但悟空租車不知道新方案是否奏效，于是就做了小流量的A/B測試。

很顯然，新方案頁面的流程更長，在直觀體驗上增加了用戶的操作成本，然而結果顯示，新方案的整體轉化率提升了7%。

這就是A/B測試的意義。

據(jù)我觀察，字節(jié)跳動對A/B測試的確有著非常深刻的理解，同時通過內部的歷練和打磨，系統(tǒng)在同類產品中也的確最為成熟，可以切實為企業(yè)解決問題。

正如亞馬遜將本來給自己內部使用的云服務開放出去一樣，字節(jié)跳動也希望將自己有價值的能力對外開放。

這種開放是一種增量，既是自己技術能力的變現(xiàn)，也能通過市場驗證反哺團隊的技術水平。

五、總結

A/B測試作為一種科學的實驗手段，能夠幫助企業(yè)在多種方案中尋求最優(yōu)解，以最小的風險前置性地驗證策略效果，為企業(yè)規(guī)避風險。

作為互聯(lián)網時代的企業(yè)，理性擁抱前沿趨勢永遠是最優(yōu)的選擇。

#專欄作家#

衛(wèi)夕，微信公眾號：衛(wèi)夕指北（ID：weixizhibei），人人都是產品經理專欄作家，2018年年度作者。一名興趣廣泛的廣告產品經理，致力于用簡單語言深度剖析互聯(lián)網相關的邏輯。

本文原創(chuàng)發(fā)布于人人都是產品經理。未經許可，禁止轉載。

題圖來自 Unsplash，基于CC0協(xié)議

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App

衛(wèi)夕

互聯(lián)網資深人士，大家多交流。

88篇作品 862042總閱讀量

2023，跨界聯(lián)名的5種玩法

09-129524 瀏覽

身價4500億卻“激流勇退”，拼多多創(chuàng)始人黃崢的20條語錄，值得思考

08-082373 瀏覽

我在歐洲做共享充電寶，一小時收費25元

03-173456 瀏覽

驗證碼，除了 12306，我還沒有服過誰（圖形旋轉篇）

04-165543 瀏覽

“百模大戰(zhàn)”即將迎來一輪應用淘汰賽

08-043312 瀏覽

評論

目前還沒評論，等你發(fā)揮！

物聯(lián)網產品中，經常提到的終端、網關、協(xié)議、PaaS、SaaS之間，到底有什么關系？

05-149769 瀏覽
中秋營銷的4個方向

09-274747 瀏覽
播放量超千億，這種視頻為何能火？

02-093931 瀏覽

為什么互聯(lián)網巨頭如此熱衷于A/B測試？

一、A/B測試前身：歷史悠久的對照實驗

二、A/B測試，互聯(lián)網巨頭的標配

三、為什么互聯(lián)網巨頭熱衷于A/B測試？

四、如何利用工具做好A/B測試？

五、總結

#專欄作家#

為什么互聯(lián)網巨頭如此熱衷于A/B測試？

一、A/B測試前身：歷史悠久的對照實驗

二、A/B測試，互聯(lián)網巨頭的標配

三、為什么互聯(lián)網巨頭熱衷于A/B測試？

四、如何利用工具做好A/B測試？

五、總結