干貨|微信230萬社群生命周期研究

1 評論 9398 瀏覽 155 收藏 10 分鐘

最近讀了一篇arXiv上的文章,是清華大學(xué)和騰訊公司的一批人運(yùn)用微信群組數(shù)據(jù)做的研究。剛好,我目前對社群這塊興趣異常濃厚,所以就認(rèn)真讀了一下這篇文章,于是做筆記如下。先說說我看到的這篇文章的亮點吧:

  1. 據(jù)作者說,這是第一篇用騰訊微信數(shù)據(jù)來做分析的學(xué)界文章,這個理由絕對牛,太霸氣了。要做研究就得這樣,找別人沒有分析過的牛數(shù)據(jù)。微信,大家都知道了,目前是全球第二大即時通訊軟件,月活用戶已經(jīng)6億了,分析這個數(shù)據(jù)絕對牛。我們學(xué)界一直鼓勵騰訊的哥哥姐姐們開放這塊數(shù)據(jù)呀,能出不少有意思的研究;
  2. 這大概也是第一個(至少為數(shù)不多)研究由即時通訊組成群組的文章。在中國,社群這個概念方興未艾,但是查遍各類英文文獻(xiàn),似乎沒有對應(yīng)英文詞。對社群劃分的一種特征就是由即時通訊(手機(jī)移動互聯(lián)網(wǎng))構(gòu)成的群,它會比社交網(wǎng)絡(luò)、傳統(tǒng)的論壇、網(wǎng)絡(luò)社區(qū)具有更高的黏性;
  3. 用群的結(jié)構(gòu)特征預(yù)測群組發(fā)展動態(tài)。這個好像已經(jīng)是目前機(jī)器學(xué)習(xí)研究社交媒體、群組一種很常規(guī)、標(biāo)準(zhǔn)的范式了,但個人接觸這樣的研究不多,所以覺得很有意思。

0、文章基本信息

作者:Jiezhong Qiu?, Yixuan Li?, Jie Tang?, Zheng Lu?, Hao Ye?, Bo Chen?, Qiang Yang?, and John E. Hopcroft?

單位:?Department of Computer Science and Technology, Tsinghua University ?Department of Computer Science, Cornell University?Tencent Corporation, Beijing, China.??Department of Computer Science, Hong Kong University of Science and Technology

標(biāo)題:The Lifecycle and Cascade of Social Messaging Groups

下載地址:http://arxiv.org/abs/1512.07831

好,下面我想詳細(xì)敘述一下這篇文章的幾個有意思的地方

1、數(shù)據(jù)集

首先,關(guān)于數(shù)據(jù)(沒辦法,現(xiàn)在數(shù)據(jù)在研究中的作用太重要了)

作者用了微信的群組記錄,從15年7月26日到8月28的34天數(shù)據(jù),包括230萬個群。數(shù)據(jù)內(nèi)容包括:

群組活動(誰在什么時間在什么群組活躍)、用戶的集合、邀請記錄(誰于什么時刻邀請了誰加入群),以及朋友關(guān)系數(shù)據(jù)(誰和誰在什么時刻成為好友)

2、群組的兩類生命周期

微信群按照功能和時間長短可以分為兩種:基于事件建立的臨時群,和基于組織和長期社會關(guān)系建立的長期群,這在群的生命活躍時間長度分布上體現(xiàn)得很明顯,如下圖所示:

我們看到,臨時群組的生命周期大概不會超過5天,而長期的群組會在一個月以上。

3、群結(jié)構(gòu)特征的演化

接下來,作者主要研究了群的結(jié)構(gòu)。所謂的結(jié)構(gòu),就是指群內(nèi)成員之間由好友關(guān)系構(gòu)成的社會關(guān)系網(wǎng)絡(luò)。如下圖所示:

如圖(a),這是一個群內(nèi)的社交網(wǎng)絡(luò)。作者主要用了兩個指標(biāo)來度量群的結(jié)構(gòu),一個是開放三角形的比例,所謂的開放三角形就是形如圖(a)中ADC這三個節(jié)點形成的局域結(jié)構(gòu);另一個是封閉三角形的比例,如圖中的ABC;還有就是連邊的密度,就是連變數(shù)除以C_n^2,即這些點全聯(lián)通時候的連邊數(shù)。

然后,作者看這三個指標(biāo)的演化。也很簡單,它首先在起始點計算了這些指標(biāo),然后在一月后再計算這些指標(biāo),得到b、c、d這三張圖。然后分別就長期和短期(藍(lán)色和綠色)的結(jié)構(gòu)指標(biāo)進(jìn)行了比較。假如結(jié)構(gòu)沒有變化,那么曲線會落到斜45度對角線上?,F(xiàn)在看來長期群相對于短期來說變化是更大的。說明長期群更受這些結(jié)構(gòu)因素影響。

4、邀請層次樹

由于微信的邀請好友機(jī)制是任意群組中的人員都能邀請。這樣,從第一個建群的人開始,他就可以邀請其他人,然后這些入群后的人又可以邀請……,這就構(gòu)成了一個級聯(lián)性的樹狀結(jié)構(gòu)。比較長期群和短期群,它們的樹狀深度是不一樣的,如下圖:

長期群結(jié)構(gòu)更深,短期群更扁平。

在這個樹中,節(jié)點是人,連邊是邀請關(guān)系。我們可以用一種叫做“結(jié)構(gòu)病毒性”Structural virality)也叫Wiener指數(shù)的指標(biāo)來刻畫這個樹的形狀。Wiener指數(shù)定義為平均任意兩個節(jié)點的距離。它越大說明樹越深長。在此,我想到了樹的異俗標(biāo)度律指標(biāo)也能計算這個玩意,參見

http://wiki.swarma.net/index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B

5、生命周期預(yù)測

接下來,作者嘗試用群組的靜態(tài)特征,包括結(jié)構(gòu)特征(局域網(wǎng)絡(luò)結(jié)構(gòu))、成員的人口特征(如性別、年齡等)來對群組的壽命進(jìn)行預(yù)測?;咎茁肥前岩徊糠秩簲?shù)據(jù)作為訓(xùn)練集,運(yùn)用SVM(支持向量機(jī))來進(jìn)行預(yù)測,但預(yù)測不是重點,重點看精度。結(jié)果發(fā)現(xiàn),結(jié)構(gòu)特征起的作用最大。預(yù)測準(zhǔn)確度能在60%以上。而且我們甚至只用1天的數(shù)據(jù)就能預(yù)測很好了。如下表

6、成員入群特征及其預(yù)測

最后,作者分析了什么樣的人更容易被邀請入群,以及什么樣的人容易邀請成功。并且也用結(jié)構(gòu)特征加以預(yù)測。如下圖所示:

這個圈里面的節(jié)點都是群組內(nèi)的,藍(lán)色的節(jié)點表示在某時刻發(fā)出邀請的人,紅色的節(jié)點表示被邀請的人。白色的節(jié)點表示邊緣節(jié)點(沒有入群,但是已經(jīng)是群內(nèi)某成員的朋友)。虛線表示的朋友關(guān)系,藍(lán)色箭頭表示的是邀請關(guān)系。

接下來,作者看看什么樣的人更容易被邀請加入群。他們通過兩個指標(biāo)來計算,一個是這個節(jié)點的所有朋友中已經(jīng)加入了該群的人數(shù);第二個指標(biāo)是這個人的結(jié)構(gòu)多樣性,定義為這個人為中心的一級近鄰構(gòu)成的朋友關(guān)系網(wǎng)絡(luò)中聯(lián)通集團(tuán)的數(shù)量。如下圖所示:

如左圖所示以V為中心的局部網(wǎng)絡(luò),藍(lán)色節(jié)點是已經(jīng)入群的,所以k=4。另外,如果將V和所有連遍去掉,那么會剩下3個聯(lián)通子圖,所以它的結(jié)構(gòu)多樣性為3.

然后,我們來看一個節(jié)點被邀請的概率隨k和結(jié)構(gòu)多樣性指標(biāo)如何變化。由(b)會發(fā)現(xiàn),被邀請概率首先隨著k增長而增長,但是如果k過大了,那么就會出現(xiàn)震蕩的情況,所以k的預(yù)測性變差。另一方面,由(c)會發(fā)現(xiàn),被邀請入群的概率會隨著結(jié)構(gòu)多樣性變大而衰減。無論這個中心節(jié)點有多少個朋友。也就是一個人交朋友的情況越單一,它加入一個新群的概率就會越大。

最后,作者對一個人是否會邀請,以及是否可能接受到邀請來進(jìn)行預(yù)測。發(fā)現(xiàn)準(zhǔn)確度能達(dá)到95以上。而且群組的歷史特征對于預(yù)測誰會邀請別人特別有效,而如果要預(yù)測哪一個人被邀請,那么局部的結(jié)構(gòu)特征就很重要。而用戶的人口特征相對來說不重要。

 

作者:jack

原文地址:http://www.swarma.org/swarma/detail.php?id=18739#rd

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這么牛逼的帖子 最近在研究“視頻號 私域 社群”對品牌的影響, 可以加微信 15201405290

    來自廣東 回復(fù)