📖 ZKIZ Archives


從《古惑仔》看“數據陷阱”

來源: http://new.iheima.com/detail/2014/0102/57590.html

在上個世紀90年代的一個初夏的傍晚,微風拂面,知了不停地鳴叫。在校園裡,每個教室裡都傳出了沙沙的聲音,一個個表情木訥的高三學生正在題海中遨遊。教室的最後一排,一個紮著馬尾的清秀姑娘給旁邊的男孩傳了一張紙條,上面寫著「聽說電影院今天演《泰坦尼克號》,我們逃課去看吧!」

男孩看到紙條後,臉上泛出了淡淡的紅暈,一臉亢奮地回了張紙條,「我聽說人民街的錄像廳今天放最新的《古惑仔》啊,我們去看那個吧。」

那天晚上,這一男一女在男生的堅持下,還是去看了《古惑仔》。從第二天開始,女生就開始親熱地喊他「兄弟」……兩個人再也沒有然後了。

很多時候,如果不能透過現象看穿本質,那麼一定會摔得很慘,追姑娘是這樣,玩數據也是這樣。


一、從砍人神父看數據解讀的不同角度


\


同一個人,在其他不同人眼中的形象是千奇百怪的,很難做到整齊劃一。而同一個畫面、同一個數據,都靜悄悄地呆在原地,不同的角度會帶來截然不同的效果。例如同一件淘寶服裝,顯示器上的效果和收到貨之後的效果很難保持一致,如上圖同事肉身所示。

例如在古惑仔《隻手遮天》裡,林神父在球場上挺身而出直面烏鴉,一聲令下殺出了幾十個手持菜刀拖把的鄰居,說出了他那經典台詞「我傳道二十多年,叫大家信耶穌大家不一定會,但是讓大家砍人他們一定會照辦的。」


\


那麼就拿這個場景定格。不同的媒體如果給這一場景取標題的話,《讀者》一定是「牧師見義勇為背後的哲理小故事」,《知音》一定是「濃濃的大愛啊為那般,俊雅牧師為失足少年撐起一片天」,法製版一定是「管制刀具何時禁?和平街區驚現24把砍刀」,而地鐵上的街頭小報一定是「禽獸神父露出真正獠牙 一聲令下欲血洗東興」。

數據是死的,人是活的。學會合理地解讀將是必備技能,特別是對於像我這般的打工屌絲來說,必須要學會找到數據最有用的解讀切入點。


二、從大天二被陰看數據的首要條件


\


大天二在古惑仔前三部中一直不顯山不露水,而扮演者謝天華在當年也還只是一個小字輩。但是在第四集一開始,當大飛把妹妹嫁給他之後,他的地位在洪興內部飆升,也正是這種地位的變化,讓他準備幫山雞爭屯門扛把子砍生番的時候,沒有能冷靜地分析到手的數據。

當內線告訴他,生番每天都會在魚攤打麻將身邊只有三四個人的時候,大天二沒有從多個渠道去驗證數據的準確性,而是豪氣十足地帶著四個人就要去搞定生番,雖然出發前拜了拜關二爺,但是別忘了,關二爺當年也因為忽視江邊烽火台情報網而被人砍了腦袋。

生番身邊果然只有三個人陪他打麻將,但是旁邊的屋子裡竄出來五十多個人,大天二被人按在水池中挑斷了手筋腳筋,如果不是大飛,那晚他就已經橫屍街頭。

所以,對於研究數據的人來說,正確的數據比大量的數據更有用。這裡的正確,不僅僅指結論正確,也包括取樣正確、分析方向正確。

在2013年,大數據成為了IT界最火熱的詞彙,哪個公司如果不說自己會大數據分析,簡直沒有臉在行業內行走。但是,如果盲目地追求數據量的大,而忽視了數據的對,那麼就容易在錯誤的道路上越走越遠。

在各種數據統計教材中,有一個案例被反覆提及,那就是當年羅斯福競選總統時,美國著名期刊《文學文摘》放出了1000萬份讀者調查表,並做了大量的電話調查,最後得出的結論是共和黨的蘭登將以57%對43%的絕對優勢戰勝民主黨的羅斯福。而最後的結果卻是羅斯福以62%的支持率得以連任,給《文學文摘》一記響亮的耳光。

在這個例子裡,是因為樣本的數量不夠嗎?發出1000萬份調查,回收240萬份數據,同樣的數據量放在今日都堪稱龐大。核心問題在於樣本的選擇出現了無意識的偏差,1000萬《文學文摘》讀者並不能代表全體美國人的特徵,樂於參與調查的240萬人跟剩下的760萬人也沒有相似性。

由此可以看出,樣本數越大的數據分析,如果出現偏差的話,造成的危害越大。例如如果在10萬個被派出所抓獲的嫖客中做一個調查,問我國是否應該放開性交易,那麼最後可能媒體出來的標題紛紛是《人性啊呼喚解放,99%中國人力爭性交易合法化》。


三、從包皮被色誘看數據分析的精準需求


\


在大天二藏起來養傷的時候,東興烏鴉手下的四眼仔為了找到大天二的行蹤,派出了自己那豐滿黃毛小太妹去色誘包皮,這一招就叫做精準。因為他如果派出幾百人去滿大街打聽,性價比低又容易打草驚蛇,如果去色誘陳浩南山雞,他們壓根看不上這種胸大無腦的粗俗小太妹。而包皮呢?作為能接觸到大天二信息的核心骨幹,正是最好的突破點。

這就是在開始做任何數據分析之前,一定要先清楚自己最想要什麼,得到想要的結果哪些數據是必需的,不盲目地擴展維度,那樣的話只會讓分析結果混亂不堪。

不管是對於一個網站還是對於一個應用來說,會有很多種數據指標,先要想清楚自己最關注哪個指標,然後再看跟這一指標強相關的是哪幾個數據,最後再得出結論和運營方案。例如對於網站,老闆最關注的是UV數據,那麼在做方案的時候就要關注到站外流量最大的導入方、SEO關鍵詞、第三方平台的分享量等。如果老闆最關注PV數據,那麼運營就需要注意用戶瀏覽頁面數、用戶停留時間、用戶的二跳頁面等等。


四、我不是教你詐之數據陷阱

在很多人眼中,數據是最公正最客觀最鐵面無私的,恨不得把數據提升到頂禮膜拜的地步。但數據其實就是工作的一個夥伴,好的數據就是神一樣的隊友,不好的數據就是豬一樣的隊友。數據分析本身沒有對錯之分,只有合適不合適,合理不合理。(在基本的數學運算無誤的情況下)

美國佐治亞州曾經在2011年和2012年陸續宣佈了對亞特蘭大市35位教育工作者的65項指控,這些人中,大部分是校長、年級主任。指控主要集中在考試舞弊。因為亞特蘭大市從2005年開始,學生的各項成績有了階梯性的進步,最開始所有人都誇獎新上任的教育主管教導有方。

但是後來,州教育部門在做數據統計的時候,突然發現亞特蘭大市學生的答捲上,由錯改對的比例遠遠大於其他地方的學生。要知道從概率上來說,一個學生的答題因為其突然打通任督二脈,由錯改對還有點兒可能,但是如果一個考場的學生塗改的痕跡全部都是把錯誤的改成正確的,這概率微乎其微。

就由這一點數據異常著手,從而破獲了讓整個世界瞠目結舌的亞特蘭大考試舞弊案。最令人髮指的事情是有一群老師在考試後舉辦了一個披薩狂歡派對,在派對上大家把學生做錯的試題全部改成了正確的。


這才是教育界的業界良心啊!!!

如今的數據越來越多,陷阱也越來越多,有時玩弄下文字遊戲就能讓業績看起來高大上起來。我有一個QQ群,群裡一共有三位男士,在今年的某一天,其中的一位土豪朋友給他老婆買了一件生日禮物,是一輛保時捷SUV,價值120萬。後來,我對老婆說:「在這個群裡,每個男人今年平均給自己老婆的生日禮物價值40萬人民幣,你還有什麼不滿意的?」那天,家裡的平底鍋終於派上了用場。

曾經有某個應用的運營同學寫過一份週報,「經過一週的運營推廣,本應用的下載量提升了100%」。我看了之後對其崇拜之情油然而生,這就是力挽狂瀾啊!後來,他酒後對我說:「其實我就是把下載量從之前的25個提升到了50個。」剎那間,我明白了,原來他只是在一個小的QQ群裡推廣了一下。由此可見,喝酒有害健康。

除了文字遊戲,數據背後的產生過程也往往陷阱密佈。例如一個高中理科班,裡面一共有10個女生,平均罩杯是B,而在高二的時候,裡面一個A罩杯的女生轉學了,平均罩杯變成了C。那麼從數據上,我們是可以得出這樣的結論「從B罩杯到C罩杯,高中學習有利於女生身材養成」。

同理可得,矮子出去了,平均身高就提高了,差生出去了,平均成績就提高了。所以未來在看到任何數據的時候,請不要馬上就歡呼雀躍或者垂頭喪氣,先去想一想,數據合理嗎?


五、我不是教你詐之圖表陷阱


\


做一份數據報告,沒有幾個折線圖條形圖,都不好意思說自己是研究數據的。但是每一份高大上的圖表背後,也會隱藏著不少的小秘密。

在上圖中,所有眼睛沒問題的人都能看出銅鑼灣扛把子陳浩南從《古惑仔》第三部開始,他參與群毆的次數和單挑的次數都急劇下滑,一直到2000年,他都不打架了!如果有心人刻意地加一句解釋「《古惑仔》第四部上映的時間是1997年」。那麼估計很多不靠譜的數據分析家就要開始說「從陳浩南出手次數可以看出香港回歸之後社會治安好轉」「黑社會社團在97之後轉型民營企業,金融戰取代街頭混混砍殺」「駐港部隊讓香港居民安全感倍升」……

實際上呢?實際上是《古惑仔》第四部戰無不勝,裡面衝鋒在第一線的是和生番搶屯門的山雞,陳浩南主要時間都在泡李嘉欣。而2000年版,名字則是《友情歲月之山雞故事》,本身陳浩南在這裡面就沒有什麼戲份。

同樣的,在不少公關軟文中,會讓人驚訝地發現自己企業和對手企業的走勢圖的比例尺都不一樣,最終會顯得自己企業的曲線是那麼高聳入云,而對手的走勢是那麼的飛機場。


六、把數據放在什麼位置

東星五虎之奔雷虎,會在自己一個古惑仔的酒吧裡放莫扎特的安魂曲,但是這悠揚的樂曲中,耀揚不會因為自己對莫扎特的喜愛就放棄摔死恐龍。

韋小寶將阿珂視為心目中的女神,但是他不會因為自己對女神的膜拜就放棄在麗春院的大床上為阿珂寬衣解帶。

同樣對於數據分析來說,應該對數據進行基於經驗的理解和科學的計算,然後表達並傳播出來,讓其有利於下一步決策。如今的很多數據分析集中在了計算和表達上,但是忽視了下一步的決策。

無法對工作決策形成決定作用的數據分析,連花瓶都算不上。

要知道單憑數據,有時並不能改變現狀,因為大家可能不相信你的話或者數據,在19世紀匈牙利醫生塞麥爾韋斯通過大量的試驗得出了結論「是醫生未經消毒的雙手才導致了產婦因為產褥熱而死」,但是這結果一出,導致了醫學權威紛紛跳出來指責他,他從而傷心地離開了維也納。直到他去世的1865年,巴斯德的細菌理論才問世,所有人才正視塞麥爾韋斯當年的數據。

所以,在做任何數據分析之前,請先想清楚自己為什麼要做這個分析,以及期望為哪方面的工作得到決策幫助。


七、尾聲

其實本文非常適合起個名字叫做《如何用數據欺騙自己的老闆》,如果你是打工仔,那麼本文只是粗略地普及基本知識,更多的數據統計陷阱需要你在工作生活中不斷地去發掘和完善,相信有一天,你會被老闆釘在公司的恥辱柱上的。

如果你是老闆……您看這種文章不怕影響到自己未來的上市計劃嗎?

當然,最後送給諸位一句古惑仔裡的經典台詞, 「出來混,錯了要認,被打也要站穩!」


PermaLink: https://articles.zkiz.com/?id=86970

Next Page

ZKIZ Archives @ 2019