從騰訊“偷”到的3000萬數(shù)據(jù),究竟要怎么看?

10 評論 4404 瀏覽 12 收藏 9 分鐘

今天看到了一篇文章:《我從騰訊那“偷了”3000萬QQ用戶數(shù)據(jù),出了份很有趣的獨家報告!》,原作者寫了一個爬蟲,以自己為源頭抓取好友的QQ,并根據(jù)抓取到的QQ數(shù)據(jù),總結(jié)出了一份報告。

但是仔細(xì)閱讀后,感覺這份報告趣味有余但是分析不足,還只是停留在看圖說話的階段,原作者還需要一個產(chǎn)品經(jīng)理!

此言一出,就被朋友甩來一句:“you can you up”

好吧,鑒于我沒有親自寫爬蟲抓數(shù)據(jù),那么就用原文里的統(tǒng)計圖,試試看圖說話吧,幫助原作者發(fā)現(xiàn)更多內(nèi)容。

活躍時間分布?

  • “夜貓子”比“早期的鳥”的數(shù)量還要多:凌晨1點的說說數(shù)量比早晨7點的多
  • 凌晨4點,大多數(shù)人睡得正香,熬夜的人也幾乎要睡了,通宵的人也大概十分疲憊了
  • 大部分人的起床時間在6點到7點之間,因為斜率最大
  • 大部分人在8點后開始工作/上課,因為8點前后的兩段時間的斜率變化十分明顯
  • 越是臨近中午,人們對工作越是會心不在焉。因為8點到12點之間的說說數(shù)量一直在增長(還記得學(xué)生時代,上午最后一節(jié)課的最后10分鐘有多難熬嘛?)
  • 吃午飯時間玩手機(jī)刷空間,已經(jīng)是生活常態(tài)了吧?
  • 午飯之后有人午睡、有人散步、有人讀書、有人聊天,總之發(fā)說說的人少了
  • 當(dāng)然,也有人午飯后直接開始了緊張的工作/學(xué)習(xí),持續(xù)到下午餓/下班的時候
  • 相比晚飯,人們吃午飯的時間更加集中。發(fā)布說說的數(shù)量從25000+到28000+的規(guī)模,午飯用了一個小時(11-12),晚飯用了兩個小時(17-19)
  • 22點的說說數(shù)量達(dá)到最大值,果然人到了深夜容易多愁善感
  • 22點之后,大多數(shù)人就開始睡覺了,說說數(shù)量迅速下降,下降幅度十分驚人

如果不看原文的話,看到這里,我大膽推測原作者的年齡大概在25歲左右,好友里面學(xué)生和已經(jīng)工作人都有一些,且學(xué)生較多,在北京上海的工作人群也不會是樣本的主流。因為從22點到23點的情況來看,似乎活躍度受到了某種外力的影響而急劇下降,我猜是學(xué)校里的熄燈制度造成的。從8點和17點之間的情況看,應(yīng)該是標(biāo)準(zhǔn)的工作時間。如果在京滬早八點上班的話,一定會被擁堵的交通折磨直至遲到的。

生日分布?

這幅圖,作者使用的數(shù)據(jù)是QQ用戶的生日資料。原文里,這個部分是一個十分巨大的槽點

“10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時候。 但1月份最高且和2月落差很大有點不好理解,那么冷的天生不怕凍嗎? 我估計是1月份也快過年了,以前沒聚一起的好不容易聚一起了,就容易沖動,沖動就啪啪啪。 4月份生日的最少也好理解,中國人不喜歡4這個數(shù)字唄。 ”

還是看看我的分析吧:

  • 為什么1月的人數(shù)特別多?答案其實很簡單:因為QQ默認(rèn)的生日就是1月1日,很多人都沒改默認(rèn)值呀!
  • 為什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天氣也不冷不熱正式生小孩的好時候”,真正的原因是……唉,原作者真是太可愛了……十月懷胎呀,那些十月份出生的孩子都是在前一年的年底“產(chǎn)生”的呀!那才是一年忙的差不多了的時候,而且天氣冷也不方便出門,所以就……你說對吧?
  • 至于4月份出生的人少,同樣的道理,你要往前推10個月才能知道原因,前一年的六七月份才是真正的生產(chǎn)日期……而且,想想幾十年前沒有空調(diào)的六七月份的高溫,人們應(yīng)該很難專注于人口增長事業(yè)吧……(我聽說過最奇葩的分手理由是倆人在一起太熱了,大抵如此)
  • 另外,如果把4月和10月的生日情況對應(yīng)起來看,正好對應(yīng)了前一年最冷和最熱的時節(jié),我仿佛已經(jīng)看到了人口浮動的秘密……不過隨著生活水平的提高,主要是取暖和制冷成本的降低,相信在未來,這條生日曲線會更加平緩

看到這里,我大膽推測原作者是南方人,因為4月出生的人實在是少的比較明顯,說明夏天一定很熱,如果再激進(jìn)一點,大概可以把范圍縮小到那幾個著名的“火爐”所在的華中地區(qū)吧。

用戶所在地分布

這部分我沒有找到太多能推測的信息。不過還是可以補(bǔ)充一些:

  • 我在第二部分的猜測被證實了,原作者果然是南方人(福蘭人)呢!

原作者統(tǒng)計了人數(shù)前5名的省份:廣東、湖南、四川、江蘇,然后好奇為什么在四川人多……

其實,答案很簡單,因為四川人多呀…你再看看人數(shù)第五位是河南,為什么?因為河南人多呀…而且四川和河南距離原作者都不是很遠(yuǎn)。

相比之下,人口大省山東,就沒能大規(guī)模滲透到原作者的好友圈子,為什么?因為山東在北方,人們?nèi)ヶ捕急本┑囊庠笗鼜?qiáng)烈吧。

年齡分布

這部分也沒有太多好說的了,年齡跨度其實不太大。不過還是有幾點可以談:

  • 我在第一部分的猜測被證實了,原作者25歲

看圖提問,為什么1991年的人口突然會比前后兩年的人少呢?

因為1991年是農(nóng)歷的羊年,有傳言說“屬羊的人命不好”、“十羊九不全”,所以羊年出生的人就比較少了…當(dāng)然,我們都知道這其實只是謠言,并沒有科學(xué)依據(jù)。唉,封建迷信害人吶…

性別分布

性別統(tǒng)計方面,沒填的部分可以按照已知的男女比例進(jìn)行分配。

  • 考慮到有些女生會設(shè)置QQ空間的訪問限制,以及有些女生會把性別改成男生用來防范騷擾,我們就當(dāng)男女比例分別是60%和40%吧

鑒于這樣的男女比例,我推測原作者大概是個理工男吧,(無惡意的推測)原作者是單身吧 ??

原文還有一些語義和輿情的分析,在下短期內(nèi)難以發(fā)現(xiàn)亮點,就不再繼續(xù)了。

寫在最后

  1. 會寫代碼人最帥啦
  2. 對數(shù)據(jù)敏感的人更帥
  3. 這是一個大數(shù)據(jù)時代,數(shù)據(jù)的重要性不言而喻
  4. 數(shù)據(jù)的確會說話,但是,數(shù)據(jù)也會騙人
  5. 面對海量數(shù)據(jù)的時候,我們要保持冷靜,擦亮雙眼

以上

 

本文由 @PMnews ?原創(chuàng)投稿,并經(jīng)人人都是產(chǎn)品經(jīng)理編輯。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 我猜。。

    來自安徽 回復(fù)
  2. 10月份為什么那么多 一定是圣誕節(jié)惹的禍

    來自廣西 回復(fù)
    1. 單純因為十月生孩子比較好上學(xué),謀劃著要在9月生,備孕時間或者擔(dān)心萬一早產(chǎn)生在八月上學(xué)麻煩,十月是最穩(wěn)妥的預(yù)計。

      來自湖北 回復(fù)
  3. 有意思,最早看的時候我就有些疑問了,感覺原作者其實只是在憑自己的感覺說話,并沒有一些深刻的理解,樓主想的更深了一層,我個人的的理解,從片面渠道的搜集這些數(shù)據(jù)其實很大一部分精力是應(yīng)該用來篩選甄別的,不能自帶主觀意識,更別被自己騙了

    來自河北 回復(fù)
  4. 因為計劃生育91年最嚴(yán)。。

    來自廣東 回復(fù)
    1. 這個不一定 這是分區(qū)域的 我在我們家那都算第二代獨生子女了 但是我比91年大

      來自北京 回復(fù)
  5. 犀利,求作者聯(lián)系方式,求請教數(shù)據(jù)分析相關(guān)的事情

    來自上海 回復(fù)