大數據總統奧巴馬
2012年8月份,美國總統大選正如火如荼。出人意料的是,奧巴馬總統的數據團隊要求他去一家叫Reddit的新聞網站去回答問題。對許多人來講,Reddit是一個陌生的名字,總統的高級助手們也不例外。但是來自數據團隊的回答卻非常簡單:「因為我們需要動員的一些人,經常在Reddit上。」
這僅僅是選戰過程中一件毫不起眼的數據決策案例。事實上,奧巴馬的數據團隊非常神秘,低調,但其觸角又無處不在,幾乎左右了整個大選,他們被內部人士戲稱為「核編碼」。他們創建了單一的巨大系統,可以從民調專家、籌款人、選戰一線員工、消費者數據庫、以及「搖擺州」民主黨主要選民檔案的社會化媒體聯繫人與手機聯繫人那裡得到的所有數據都聚合到一塊。這個組合起來的巨大數據庫令奧巴馬的數據團隊工作極富成效,令人驚嘆[1]。在這個組合的數據庫中,每個選民甚至被精確的劃分為1000多個特點,通過建模和算法分析,系統能為每個選民找出一個最能說服他的理由;每晚進行6.6萬次模擬選舉,在個體水平上,計算出奧巴馬在任何一個搖擺州的勝率。事實上不僅如此:
他們建立模型能夠預測誰會在線捐款;
他們用來網上籌款的郵件,也充分利用了數據收集和分析。
他們借助模型幫助奧巴馬籌集到創紀錄的10億美元;
他們幫助優化電視精準投放廣告的模式;
他們創造出了搖擺州選民的精細模型;
他們計算出第一夫人發的拉票郵件在春天最受歡迎;
他們利用數據來詳細分析關鍵州的選民。深入分析各個族群的選民在任何時刻的趨勢。在總統候選人的第一次辯論之後,他們分析出哪些選民倒戈,哪些沒有;
他們利用熟人效應,開發Facebook APP拉票;
他們為競選團隊購買廣告提供決策參考;
他們通過一些複雜的模型來精準定位不同選民,他們購買了一些冷門節目的廣告時段,而沒有採用在本地新聞時段購買廣告的傳統做法。廣告效率相比2008年提高了14%;
他們導致經驗主義的競選專家的作用極具下降,能夠分析大數據的量化分析專家和程序員的地位卻大幅提升。
他們讓政客們,尤其是對手知道政治領域的大數據時代已經到來。
一瓶茅台酒的旅程
消費者最頭疼的恐怕還不是茅台酒的價格,而是能否買到貨真價實的茅台。道高一尺魔高一丈,茅檯曆來的防假手段,除了推高茅台酒瓶的回收價格以外,似乎並沒有真正讓消費者放心。
為每一瓶茅台建立「檔案」,消費者可以輕鬆方便的查詢到任何一瓶茅台酒的檔案材料,是防假的終極解決之道。每一瓶酒都有一個獨立的「身份證號」,銘刻到酒瓶上,在信息系統中,記錄下從灌裝到出廠、運輸、批發、零售所有環節的信息。人們只要把「身份證號」傳輸到網站一查,真偽立辯。這個辦法看起來容易,但是真正實施,我們立刻會被淹沒在大量的數據之中。
不僅僅是茅台,中國目前所有食品面臨「安全、衛生」的大難題。如果能把茅台酒的做法推而廣之,無疑是全民之福。但是這些海量的數據記錄,對傳統的信息處理技術,提出了巨大的挑戰。
茅台的故事,其實可以演繹出管理理念的變化。這是管理日益精細化的具體體現。原來「茅台們」的管理都是按照生產批次,通常認為同一個生產批次的產品,是沒有差別的。現在的管理理念則不同,要求對每一件單品實行差別化管理。
城市治理中,也在發生同樣的事情。小到每一個下水道井蓋都被仔細編號,追蹤。這當然另我們的生活更加便利,但產業界首先需要應對的則是大數據的挑戰。
大數據,事關國計民生、產業興衰、公司存亡,不可不察。
信息科技經過60餘年的發展,數據(信息)已經滲透到國家治理、國民經濟運行的方方面面。經濟活動中很大一部分都與數據的創造、傳輸、和使用有關。2012年3月份,奧巴馬公佈了美國「大數據發展計劃[1]」,標誌大數據已經成為國家戰略,上升為國家意志。國家競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用數據的能力;國家數字主權[2]體現對數據的佔有和控制。數字主權將是繼邊防、海防、空防之後,另一個大國博弈的空間[3]。沒有數據安全,也就沒有國家安全。
華為、中興開拓美國市場受挫,就是非常明顯和清晰的信號。美國政府對自家數據安全的重視程度,已經到了不能讓任何外國信息基礎設施產品供應商染指的地步。華為此前一直希望通過競標和併購等方式進入北美市場,多年來未能如願。2008年,華為與貝恩資本聯合競購3COM公司,卻因美國政府阻撓未能成行;2011年,華為被迫接受美國外國投資委員會的建議,撤銷收購3Leaf公司特殊資產的申請;同樣是在2011年,美國商務部阻止華為參與國家應急網絡項目招標。
再看看美國國防部立項的幾個大數據項目[4]:「多尺度異常檢測(ADAMS)項目解決大規模數據集的異常檢測和特徵識別的問題。網絡內部威脅(CINDER)計劃,旨在開發新的方法來檢測軍事計算機網絡與網絡間諜活動,提高對網絡威脅檢測的精準度、和速度。Insight計劃主要解決目前情報,監視和偵察系統的不足,進行網絡威脅的自動識別和非常規的戰爭行為。……(不一一列舉,參見附錄)」其他部門包括國土安全部、能源部、衛生和人類服務部、國家航天總局、美國國家科學基金會、美國國家安全局、美國地質調查局紛紛推出大數據項目。奧巴馬指出:「通過提高我們從大型複雜的數據集中提取知識和觀點的能力,加快科學與工程前進步伐,改變教學研究,加強國家安全。」
產業層面,大數據技術雖然發源於信息科技,但其影響已經遠遠超出信息行業。數據已經存在於全球經濟中的每一個部門,就如固定資產和人力資本等生產要素一樣,如果沒有它許多現代經濟活動就不會發生。我們觀察到一些新興的互聯網公司,利用新技術,大規模地收集數據,預判客戶行為,然後在不同的行業縱橫捭闔。他們劍鋒所指,現代服務業無不受其鋒芒所迫,或隨波逐流,或奮起反擊。但缺少數據資產、缺少強大的數據分析能力,這類公司無疑處在被顛覆的邊緣。另一方面,也看到傳統行業的公司,數十年如一日的堅持積累當時被視作「廢料」的數據,現在回頭審視這些數字化的資產,居然一躍成為人類的寶庫。憑藉獨一無二的「數據資產[5]」,公司進入相關行業,易如反掌。
我們回頭審視產業的起起伏伏,就會發現決定產業興衰的根本性因素,已經不是一城一地的爭奪。土地、人力、技術、資本這些傳統的生產要素,甚至需要追隨「數據資產」重新進行優化配置。封建時代,往往是裂土封王,權貴都是大地主;工業革命後,製造業鉅子,成為偶像;資本市場,受到追捧的是擁有大量錢財的投資家;但是在大數據時代,「數據資產」成為最重要的生產要素。擁有大量數據資產的人,已經成為美國總統的座上賓[6]。
產業的分分合合,一直是資本市場非常喜歡的故事。不管是分拆也好,整合也罷,資本市場都有錢賺。以往產業的整合基本圍繞產業鏈展開。要麼向上游擴展,要麼向下游兼併。但是在大數據時代,我們看到的商業圖景是圍繞「數據資產」拉開產業併購的大幕。谷歌所有的收購或者推出的新產品,都是為了增加數據資產的「維度」和「活性」[7]。所有觀察公司發展,產業未來的機構或者個人,如果忽略「數據資產」,或者對「數據資產」認知膚淺,必將導致錯誤的判斷。大數據將是決定產業未來的戰略性資產。未來產業間的整合收購,將會在很大程度上圍繞「數據資產」展開爭奪。
企業家、投資人、諮詢顧問、分析師,必須要從戰略層面思考大數據對產業、對公司的影響。2012年初,我們曾經和恆安國際的董事會一道交流大數據對製造業的影響。會上許連捷總裁[8]說:「在大數據時代我們收集數據,研究消費者行為,推出新的產品、改善供應鏈,降低庫存,一句話就是把大數據融入到經營中去。也許有可能把庫存降到近乎『零』的水平。」所以,我們談大數據,首先是思維方式的問題,要建立全面、系統的大數據意識,其次才是落實到公司戰略。大數據對公司的影響是多方面的,涉及組織、文化、流程、技術等。本書有一章來專門詳細論述大數據對公司組織結構的影響,在此不贅言。
具體到中國信息產業,發展速度一直落後於國外的巨頭,長期處在產業鏈的末端,賺取刀片一樣的利潤。積累到最後發覺只形成了簡單可替代的「中國製造」而非具備革命性創新性的「中國智造」。國家拿出大筆資金扶持上游環節的拓荒者,比如CPU、操作系統、辦公軟件,但是相關領域國內外的差距過於遙遠,也缺少大規模的商用市場,花了國家的錢,卻鮮有在商業上大獲成功的先例。但是在新興的大數據處理領域,中外公司幾乎站在同一起跑線。中國作為數據的巨大產生國,有著更廣闊的應用空間。比如中國移動、工商銀行、淘寶,已經具備世界級的產業應用環境。有業內人士表示,單純考慮狹義的大數據處理技術(如Hadoop、MapReduce、模式識別、機器學習等),中外差距僅有5年左右。如果考慮數字資產規模以及利用的技術,中外差距更多體現為意識上的差距。美國在數據開放、跨部門共享方面做出了表率。而我國對大數據的價值和應用,政府、學術界、產業界和資本市場尚待達成一致的認知。各部門、各地方普遍存在「數據割據」和「數據孤島」的現象。缺乏大數據意識,是阻礙我國大數據技術在各行業落地的關鍵因素。
大數據時代,有兩點非常有利於中國信息產業跨越式發展。第一,大數據技術以開源為主,迄今為止,尚未形成絕對技術壟斷。即便是IBM、甲骨文等行業巨擘,也同樣是集成了開源技術,和本公司原有產品更好地結合而已。開源技術對任何一個國家都是開放的,中國公司同樣可以分享開源的蛋糕。但是需要更加開放的心態,更加開明的思想,正確的對待開源社區。第二,中國人口和經濟規模,決定中國的數據資產規模,冠於全球。客觀上為大數據技術的發展,提供了演練場。第二點亟待政府、學術界、產業界、資本市場四方通力合作,在確保國家數據安全的前提下,最大程度地開放數據資產,促進數據關聯應用,釋放大數據的大價值。
目前政府和產業界積累了大量的數據資產,但是苦於缺乏行之有效的與工程實踐匹配的算法和人才,來充分挖掘數據的價值。形象地說,好多行業是守著「金山要飯吃」。而學術界,尤其是應用數學領域,在統計學習、圖像處理、網絡科學領域鑽研頗深,但缺乏大量的實際的數據來驗證和訓練算法。雖有屠龍術,無處展身手。兩方長期處於脫節的狀態。如果應用數學界和產業界緊密協作,將是中國公司的極大利好,會大大促進公司的發展。2012年11月17日,在北京大學國際數學研究中心召開了首屆「數據科學與信息產業研討會」。學術界和企業界的一百多位領軍人物和活躍分子聚集在一起,共同商討數據科學的含義和發展計劃,以及企業界的需求。這次會議為促進學術界和信息產業的聯合,開了一個好頭。
數據資產並不是大公司才有的專利。在第七章中詳細討論一種「泛互聯網化範式」,終端+平台+應用,最後形成數據資產。許許多多富有活力的公司,均符合這一範式。這也是創業型公司開啟大數據之路的總結和探索。
自從我們在中國資本市場第一個發出「大數據時代即將到來」聲音後,大數據已經成為年度熱詞。綜合政府、學術界、產業界的最新動向,我們預計,如果把2012年看成大數據普及之年,那麼2013年,將成為大數據應用之年。相關產業規劃、行業政策將紛紛出台。金融、電信、政府、電商、醫療、平安城市等相關應用將加速推進。2014到2016年將是大數據效益之年,若干中國大數據公司相關業務形成爆發性增長,部分相關公司海內外融資或IPO上市。
本書內容將圍繞大數據對產業走勢、融合、變遷的影響、在產業中的具體應用(商業模式)、以及數據科學的興起三大主題展開。本章包括大數據產生的歷史背景、激動人心的典型特徵、系統全面的認知框架等等內容,最後會簡略談談推廣大數據面臨的困難和挑戰。
[1] 《大數據研究與發展計劃原文》地址:
http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal,中文譯稿參見本書附錄四
[2] 通過搜索引擎,並未發現其他文獻強調「數字主權」。之所以採用「數字主權」,而非「數據主權」,主要因為構成信息科技的基礎是「0」、「1」兩個二進制的數字。所有的數據在本質上都是「0」、「1」的排列組合。
[3] 參見國金證券大數據系列報告第三篇《以數據資產為核心的商業模式》,p1
[4] 原文參見:
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf[5] 數據成為資產,見於國金證券大數據系列研究報告《大數據時代的三大發展趨勢及投資方向》
[6] 美國總統奧巴馬2011年2月17日與多名科技界領袖共進晚餐。總統左側是蘋果公司創始人斯蒂夫·喬布斯,右側是Facebook的創始人馬克·卡克伯格。
[7]維度、活性等概念在數據資產章節詳細說明,是數據資產評估模型的一部分。
[8] 許連捷現任中國民間商會副會長,泉州市工商聯主席,第十屆全國工商聯副主席。
[1] 英文原文參見CNN網站
http://edition.cnn.com/2012/11/07/tech/web/obama-campaign-tech-team,下面這段文字見於博客
http://blog.sina.com.cn/s/blog_5be3027d0101i44z.html