| ||||||
二○○九年冒出了一種新流感病毒,稱為H1N1。短短幾週內,全球公共衛生機構都憂心忡忡,擔心即將爆發流感大流行。 透過搜尋引擎谷歌追疫情,贏過疾管局 在美國,疾病管制局要求醫生一碰到新流感病例就必須立刻通報。即使如此,通報速度總是慢了病毒一步,讓公共衛生當局完全無法掌握真實情況。 就在H1N1躍上新聞幾週前,網路巨擘谷歌(Google)旗下幾位工程師,在《自然》科學期刊發表了篇論文。該論文解釋了谷歌能如何「預測」美國在冬天即將爆發流感,甚至還能精準定位到是哪些州。 谷歌先挑出美國人最常使用的前五千萬個搜尋字眼,再比對疾管局過去的流感傳播資料。谷歌想靠民眾在網路搜尋的關鍵詞,找出那些感染流感的人。 谷歌這套系統做的,是針對搜尋字眼的搜尋頻率,找出和流感傳播的時間、地區,有沒有統計上的相關性。他們共用上四億五千萬種不同數學模型,測試各種搜尋字眼,再與疾管局在過去幾年的實際流感病例比較。他們可挖到寶了!這套軟體找出共四十五個搜尋字眼,放進數學模型後,預測結果與官方公布的真實資料有強烈相關性。於是,他們就像疾管局一樣能夠掌握流感疫情,而且是幾近即時同步的掌握! 因此,在二○○九年發生H1N1危機時,比起政府手中的資料,谷歌能提供更有用、即時資訊。最驚人的是,谷歌這套方法並不需要採集檢體、也不用造訪各家醫院診所,而只是好好利用了巨量資料,以取得實用且價值非凡的見解、商機或服務。 這不過是開始而已。在這個巨量資料的時代,挑戰的是我們生活的方式,以及與世界互動的方式。最重要的是,我們必須拋下對因果關係的執著,轉而擁抱簡單的相關性。 相關性的核心概念,在於將兩個資料值間的統計關係加以量化。兩者間相關性強,代表若其中一個值有變化,另一個值就有可能也跟著改變。 這裡提一個運用巨量資料相關性的典範,就是美國折扣零售商塔吉特(Target),該公司採用巨量資料進行相關性預測,已為時多年。《紐約時報》記者杜希格(Charles Duhigg)曾有篇報導,講到塔吉特怎樣在某位婦女沒有明講的情況下,知道她已懷孕。 透過購物清單零售商精準卡位孕商機 對零售商來說,知道客戶是否懷孕非常重要。因為懷孕會改變夫妻的購物行為,夫妻可能會開始逛婦幼用品店。塔吉特的行銷部門於是決定求助分析部門,希望從顧客的採購模式,看出女性懷孕的蛛絲馬跡。 分析部門先找出那些曾填寫新生兒禮物期望清單的媽媽名單,再看她們的購物紀錄。結果發現這些婦女在大約懷孕三個月時,買了很多無香味乳液,再幾個月又會買些營養補充品。最後分析部門大概找出二十幾種可做為懷孕指標的產品。了解這些相關性後,塔吉特甚至還能相當準確的預測小孩出生的日期,並針對各個不同階段,寄出恰到好處的優惠券! 下一個資料化的前線與個人較有關:我們的人際關係、生活體驗和心情。 過去人際關係一向存在,但一直要等到出現臉書社交圖譜(social graph)資料庫,人際關係才真正成為資料。二○一二年,臉書共有約十億個用戶,構成超過一千億條交友連結,而且這一切都掌握在這一家公司手中。 這一切的潛在用途,絕對不同凡響。有許多創業公司都希望利用社交圖譜,找出能建立信用分數的指標。這裡用的是物以類聚的概念:花錢小心的人,交的就是花錢小心的朋友,揮霍的人也會和揮霍的朋友同行。社群媒體能掌握到的資料集,絕不只表面上的狀態更新或「讚」而已,所有資料都能成為全新業務基礎。 只要有點想像力,不論什麼東西都能化為資料形式,等到將整個世界都資料化後,種種應用潛力便再也沒有止境。(本文摘自第一章、第四章) |