ZKIZ Archives


Big Data

http://www.cbnweek.com/yuedu/ydpage/?raid=1511
 Robin走進紐約Maidson大街99號17層時,像個異類。他有可能也叫Roby,反正他沒帶名片。他遲疑地看著裡面端著酒杯彼此交談的年輕人,而自己頭髮花白。好在他看到了投影儀的幕布上碩大的字樣:「Big Data」(大數據)。


  他已和數字打了20年交道,不過是在金融行業。採集數據、建立模型、預測價格的走向,這是他每天都在做的事。「我不喜歡這份工作,這些數據是冷冰冰的,當你處理完這些數據後,你沒有成就感。」他說,「我想要做些改變,去面對那些更加活生生的、有趣的數據。」所以他來了這個由諮詢公司Dalberg組織的討論會。


  他說的那些活生生的、有趣的數據來自於社交網絡—Twitter、Facebook、Foursquare以及不斷新冒出來的新應用。在Twitter和Facebook剛出現時,鮮有人知道除了吐槽炫耀自戀外這些碎碎念有什麼用,但現在這些被稱為數據,是價值尚未發掘完全的資源。


  儘管在過去的幾十年裡,像Robin這樣的程序員和數學家不斷在和數據打交道,但是SoLoMo(Social、Location、Mobile)帶來的海量數據依然是個新挑戰—在一分鐘內,Twitter上新發的信息數超過10萬;在Facebook上有超過600萬的瀏覽量。而且和單純的數字不同,這些數據是含義豐富的文字,以及比文字更複雜的圖片、音頻和視頻。


  實際處理起來,這並不比金融行業中的數據更加有趣。Robin想要離開的真正原因可能是華爾街的蕭條。再多的統計數據與模型也不能防止整個經濟的下滑和小概率事件發生帶來的股災,無數人正在失去華爾街那份體面的工作。而處理社交網絡的大數據卻是朝陽行業,人們開始發現大數據或許能讓他們和華爾街一樣賺錢—即便現在還沒有那麼多。


  最主要的盈利模式只有一個。「在線廣告已經成為了過去十年財富創造最可靠的來源。把消費者和銷售者配對起來,以及創造新的消費者和銷售者,這對於任何市場來說都是最重要的問題。」Jeff Hammerbacher告訴《第一財經週刊》。2006年以前,他還是Robin的華爾街同行,但後來他成了最早加入Facebook的數據分析師之一,以研究科學家的身份幫助馬克·扎克伯格搭建了最早的數據分析模型。換個更直白的說法:弄清楚用戶點擊廣告的動機和方式。


  Facebook開啟了互聯網公司在盈利模式上的想像力,儘管有谷歌在先,但在線顯示廣告,甚至商業信息可以作為網站內容一部分這件事,還是給人們提供了不一樣的思維方?式。


  從公元前6世紀的亞歷山大圖書館,到把一切都數字化的谷歌,再到SoLoMo時代,數據的獲取正在變得越來越細緻,也越來越個人化。創新諮詢公司Frog(原Frog Design)在一份全球市場調查中發現,消費者對信用卡公司、在線零售商和科技公司的信任度最高,超過87%的調查者都樂意與這些公司分享個人數據。與此同時,因為對後台操作不瞭解,人們往往不知道自己已經分享了哪些個人數據。在Frog的另一份調查裡,只有20%的人認為分享了自己的網絡搜索關鍵詞。而事實上,你並沒有辦法避免分享這部分數據。


  大數據的挖掘和分析就像任何行業一樣,一開始只是Jeff Hammerbacher這樣的個人研究者,但很快會發展出分工細緻的專業服務公司。


  離Dalberg辦公室步行10分鐘之遙的地方,有家叫Social Flow的創業公司,它也許可以算作是內行。它和Twitter是合作夥伴,在Big Data行業中生機勃勃。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發的正確內容。廣告商愛這家公司,這讓這家公司已經有了40多名員工。


  這家成立於2009年的公司在2011年說服了在微軟研究大數據的專家Gilad Lotan從波士頓搬家到紐約來和他們一起創業。Lotan看起來很年輕—他的專家資質來自於從2008年起就研究Twitter上的龐大數據,而不是像Robin那樣直到今天才想要一探究竟。


  「你還記得2008年伊朗大選風波嗎,每個人都在Twitter上轉發,讓人驚訝。」Lotan說。之後,他開始圍繞伊朗大選做關於信息傳播的模型。當時他還在微軟工作,這些研究很快被用在了微軟Bing搜索上,這是首個可以直接搜索社交媒體信息的搜索引擎。「每秒都有大量新內容產生,而且是非結構化的。這和傳統的搜索很不一樣。」Lotan說。


  Lotan喜歡將這些大量的數據分析後的結果可視化,使得那些非技術人員也能輕易明白這些數據在表達什麼。在本拉登被射殺後,他所做信息圖譜可以讓人們清晰地看出,在白宮發出官方消息前誰引爆了Twitter上的消息傳播。當然,在他開始在Social Flow工作之後,他會把客戶請到辦公室,將包含這些公司的信息圖譜展現出來:有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。


  現在《經濟學人》使用Social Flow的服務來分析自己的受眾群,並且選擇在什麼時間來推送一條什麼樣的消息;而百事可樂則用這種服務比較不同的營銷活動會得到什麼樣的傳播效果。這些公司並不吝於為Social Flow的服務付費。


  事情看起來就是這樣,除了廣告,其他行業似乎還不知如何參與進來。Jeff Hammerbacher解釋說,這是數字化讓廣告業的效率和產出變得更加容易衡量。就好像那句廣告業的名言,「你知道有50%的投入被浪費了,只是你不知道是哪50%。」現在你能清楚看到那50%在哪裡。Twitter和Facebook上的點擊和轉發數量能精確告訴廣告商這個促銷要比那個火熱多少,Foursquare則告訴這些廣告商人們和他們的家人朋友都去過哪裡。嘗過這些甜頭之後,廣告商會關注任何受到用戶歡迎的新應用,甭管它是不是剛剛冒出來的。


  但Jeff Hammerbacher不覺得這是好事,2011年他就對《彭博商業週刊》說,「我一代中最聰明的人都在想著怎麼讓更多人點擊廣告,這真是糟糕透了。」然後他就去了硅谷當時創立不久的一家數據分析公司Cloudera,這家公司製作與任何形式、任何規模的數據相匹配的開源軟件,很多公司以此為平台建立了自己的商業模式。難得的是,儘管開發開源軟件,Cloudera還是能靠銷售和服務支撐起目前將近200人的團隊。


  Jeff Hammerbacher不缺乏志同道合者。Robin慕名而來的這場討論會裡大多數人都對「除了廣告還能做什麼」感興趣,他們不懂分析和挖掘,但想知道趨勢和數據的未來。


  「我在紐約市應急管理部門工作,蒐集紐約的地理信息和數據,醫院、警察局、天氣變化等等,然後為可能發生的緊急事件提供預案,」一位叫做 Timothie Biggs的女士介紹自己,「也許我們以後也會蒐集社交網絡上的數據,因為你會更快地知道發生了些什麼。」


  甚至舉辦這次活動的Dalberg公司也不是懂行的人。它成立於2001年,是一家為企業、政府和非營利性組織提供和經濟發展、氣候變化與公司治理有關的策略的公司。在2011年年末,這家公司覺得也許應該將Twitter和Facebook這類社交媒體加入到自己的分析中來。而這次講座就是他們做的一次嘗試。


  有個叫Robert Kirkpatrick的演講者,是聯合國秘書長執行辦公室的官員。他和一些科研組織一起基於Twitter等社交媒體上的數據來研究通貨膨脹、失業率等社會問題。他們給這個項目起了個名字,叫做「全球脈搏」(Global Pulse)。這個名字很容易讓人想到Twitter在2009年給自己的戰略定位:「如果我們擁有10億用戶,那我們就是地球的脈搏(If we had a billion users, that will be the pulse of the planet.)。」


  「的確看起來現在大數據以及數據挖掘更多和廣告有關,創業公司們從廣告上也更容易賺錢。但我想,也許這些分析方法和成果能運用到別的方面去。」Robert Kirkpatrick?說。


  他們挑選了一些話題作為實驗。在一個被稱作為「面包實時在線價格」(Real-Time E-pricing of Bread)的項目中,Global Pulse在6個拉丁美洲國家建立了每日價格指數。這個研究發現在線零售價格由於和線下價格的波動有聯繫,能比官方的數據更早發現通貨膨脹的苗頭。


  在另一個研究中,Global Pulse希望發現社交網絡中情緒和失業率之間的關係。在愛爾蘭,當社交網絡上「困惑」和「沮喪」這些指標升高3個月後,失業率也會升高;而在美國發生在失業率升高之前持續升高的是「憤怒」這一指標。當然,也許對政府部門而言更有意義的是失業之後他們在談論些什麼:在「失業」指標上升2個月後人們在談論「房子」,這也許意味著他們準備賣掉自己的房產;在過後的幾個月,談論「公交」和「地鐵」的在上升,這也許意味著他們承擔不起開車的油費,或者已經準備將車賣掉。


  「政府現在得到的數據是滯後的,他們做出的決定也非常緩慢。等政策做出幾年後發現有錯時,時間也不可能倒流。」Kirkpatrick?說。他覺得如果一個政府做決定能像廣告商根據數據分析更新自己的營銷策略一樣快,那也許這個世界會變得更美好一些。


  但這些數據還遠沒有到可以直接使用的地步。機器無法理解一句話是陳述還是反諷,「數據太多太複雜了,有時你得問出對的問題,」Kirkpatrick?說,「而且,機器也無法像人一樣理解不同的情景。例如通過數據你能發現烏干達很多人在賣掉自己自行車,但機器不能馬上知道他們賣掉自行車的下一步可能就是買一把機關槍。」


  「這也是和我以前處理的數據不一樣的地方,」和Robert聊完之後Kirkpatrick?說,「我以前處理的數據就是指『數字』,不包含情感或其他引申含義。」


  越來越多的行業開始和數據打交道。美國聯邦政府在2012年3月29日宣佈將投入超過2億美元在大數據研究上,而你會在這篇文章後面看到更多以各種方式利用數據的公司,它們都來自以色列,不僅僅因為以色列在大數據領域的創業公司尤多,還因為這些公司更為關注公共服務領域,無論是Takadu這樣的為居民用水處理數據的公司,還是Given Imaging這樣的膠囊攝像頭公司。


  「在線瀏覽和在線購買都變得非常容易估量。當你有估量方法,你就可以研究科學。在這個意義上,我這一代中最聰明的人則在推動科學的前進。」Jeff Hammerbacher說,「但我不確定如何整合我們的社會,才能讓致力於解決長期挑戰的人覺得自己得到了應得的回報,這是一個值得問出口的問題。」


  有些行業面臨的問題是數據量還不夠大。谷歌創始人謝爾蓋·布林的太太安妮·沃斯基創立的23andme是一家基因公司。他們希望用戶能提供足夠的唾液,而他們則回報給用戶一份報告來瞭解自己和家族潛在的與基因有關的疾病。在4月6日,這家位於硅谷的公司邀請了一些有輕度帕金森症的患者到他們的辦公室,對於他們而言,要研究帕金森綜合症,目前的樣本量還是不夠大。


  事實上有更多的行業和領域被建構在越來越龐大和複雜的數據基礎上—與此相關的公司也正在收到風險投資的青睞。「大數據不僅僅是一個時髦詞彙,我相信它有真正的未來,」硅谷頂級風險投資機構德豐傑(Draper Fisher Jurvweston)創始合夥人Tim Draper對《第一財經週刊》說,「我們需要分辨出哪些是未來的趨勢,哪些是時髦的概念,而大數據無疑是個趨勢。」


  Tim Draper認為,未來更多的與複雜的數據相關的創業公司會陸續出現,而並非由大公司主宰一切。「這些數據將分散在各個領域,你的行車路線、你經常出現的地點、你喜歡的顏色、經常買的東西,社交網站上的觀點和言論,這些都會成為個人數據的一部分,它們可以用來被服務每個?人。」


  而位於加州Palo Alto的創業公司Alohar開發的Placeme正是這樣一款產品。它看上去是一款普通的地理位置應用,而事實上,它能自動記錄你經常出現的地理位置,並自動生成為數據圖表—這些信息會幫助分析每日的行程路線、生活必需場所,甚至駕駛里程與汽油存量的關係(因為它知道你上一次在哪裡加過油),它們在一起將會變成一款「個人生活助理工具」—這應該是複雜的數據聚合在一起對個人直接產生輔助(而非廣告)的第一個工具。


  「Siri是人們的語音助理,但它不是一款真正智能處理人們需求的產品,Placeme的數據處理會讓它變成一款個人的智能助理工具。」Alohar創始人Sam Liang對《第一財經週刊》說。這家公司獲得了從事分佈式計算系統和數據分析處理長達數十年的斯坦福大學教授David Chariton的投資—他也是迄今世界上最龐大的「大數據」公司谷歌的第一位投資者。


  一年多以來,Jeff Hammerbacher看到的數據挖掘趨勢是催生更多的開源工具包,也就是他在後面那篇對談裡提到的那些陌生的名字。它讓更多的創業者更方便地開發產品,比如通過社交網絡來收集數據的健康類App。也許未來數年後,它們蒐集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥。


  「我深信科學是社會一切美好事物的偉大來源。數據則是被科學管理著的世界的代表。在廣告於過去十年變得無比成熟的同時,許多產業甚至還沒有進入數字時代,比如醫療。」Jeff Hammerbacher說。


  但正如他所言,「不幸的是,我人生中大部分期待有朝一日要被解決的問題,都不會因為更精準的廣告迎刃而解。」


  還有更重要的事情要做。

告訴我,誰在偷偷刷我的卡


文|CBN記者 許悅


  公司名稱 BillGuard
  創辦時間及規模 2011年,首輪融資300萬美元,第二輪1000萬美元
  數據表現為 交易記錄提醒
  數據挖掘方式 信用卡交易記錄
  改變了什麼 個人對信用卡交易失誤的忽略
  未來的影響/想像 通過社交網絡以及其他後台數據監測金融服務
  亮點 用戶舉報、社交媒體信息抓取

  有幾個人會認真看自己每個月的信用卡對賬單?也許舉手者寥寥。


  就算你現在知道在不引起你注意的情況下,每月被重複扣費、隱藏收費和盜刷的損失可以高達100美元,你大概也很難分辨到底收費的人是誰。


  以色列創業公司BillGuard現在想要替你做這些你不習慣也沒有精力做的事情。用戶只要上BillGuard的網站註冊、選擇銀行、輸入網上賬單的ID號和網上賬單密碼,BillGuard就可以獲取你的交易記錄,每月定期對用戶發送報告,詳細列出每一筆交易的判斷:正常、警告以及不確定。然後,BillGuard對可疑的交易記錄進行標記,提醒用戶核實。


  BillGuard會從三方面對可疑交易進行判斷。第一個是用戶的反饋,在每月收到BillGuard的報告後,用戶如果覺得哪筆交易是可疑的,而BillGuard又沒有指出,可以為它「插上」一個小紅旗,這將更新BillGuard的數據庫;第二個是社交媒體上的那些抱怨和投訴—BillGuard可以通過關鍵詞進行過濾,然後把用戶提及的那些可疑商家和電話號碼錄入數據庫;第三個就是自己對網上的偵查,比如有的購物網站IP地址是在俄羅斯,但是購買者卻都在美國,網站下提供的電話是某個酒店的,BillGuard也會把這樣的網站列入可疑交易裡。


  說實在的,用戶憑什麼把敏感的信用卡信息告訴這樣一家不知是否值得信任的公司?所以BillGuard並不直接掌握用戶的賬戶數據,而是從一家名為Yodlee的第三方賬戶管理公司處獲得美國和以色列境內發行的信用卡交易記錄。


  「我們只會獲得『只讀狀態』下的用戶交易記錄,並不會真正進入你的賬戶。」當被問及隱私和信息安全問題時,BillGuard的CTO Raphael Ouzan對《第一財經週刊》表示。


  Raphael Ouzan來自以色列國防軍中的高科技部門,他一直不能理解為什麼現在的數據分析用途都是廣告,而許多銀行坐擁這數量驚人的數據卻不知道該怎麼處理。


  「除廣告用途之外的其他用途很多都沒被開發,當中的市場很大,也沒有什麼公司去做針對保護消費者的數據分析,而非針對保護大公司。」Ouzan說。於是一年前從部隊退役之後,他決定進入這個市場。


  銀行本身設立的反欺詐部門與BillGuard也不矛盾,甚至表現出一定的友好態度。「銀行只能分一個部門做這事,而我們是全力投入於此,從與我們接觸的銀行的反應看來,它們願意參考BillGuard給出的結論。」Rapael Ouzan說。


  信用卡交易數據屬於獲得門檻更高的數據種類—獲得信用卡信息這種敏感的數據顯然會比水數據更讓數據保管者謹慎。Frog的一項名為「您的數據值多少錢」的調查中顯示,信用卡數據是用戶認為最值錢的個人數據,可見人們對此的謹慎。


  現在中國的持卡者還無法使用BillGuard。但有趣的是,BillGuard的銀行選項裡卻有中國建設銀行。Rapael Ouzan說,這是因為他們正希望先開通香港建行信用卡的服務。


  《第一財經週刊》記者和Rapael Ouzan說了自己經歷的一件事:在我從香港飛往特拉維夫的途中,信用卡被人刷了約600元人民幣,而彼時我正在飛機上,沒有購買任何機上免稅物品。


  「所以你會需要我們的服務的。」Rapael Ouzan說。


  

 

 

未來的水怎麼管


文|CBN記者 許悅


  公司名稱 Takadu
  創辦時間及規模 2009年,30人
  數據表現為 有結論的報告
  數據挖掘方式 現有公共設施部門提供
  改變了什麼 水監測的路徑和速度
  未來的影響/想像 更多城市的水資源數據共享
  亮點 快速準確

 水向來是個不好管理的東西:自來水公司發現某個水壓計出現問題,可能需要花上很長的時間排查共用一個水壓計的若干水管。等找到的時侯,大量水就這麼被浪費了。


  以色列一家名為Takadu的水系統預警服務公司解決了這個問題。


  Takadu把埋在地下的自來水管道水壓計、用水量和天氣等檢測數據蒐集起來,通過亞馬遜的云服務器傳回Takadu公司的電腦進行算法分析,如果發現城市某處地下自來水管道出現爆水管、滲水以及水壓不足等異常狀況,就會用大約10分鐘完成分析生成一份報告,發回給這片自來水管道的維修部門。報告中,除了提供異常狀況類型以及水管的損壞狀況—每秒漏出多少立方米的水,還能相對精確地標出問題水管具體在哪兒。


  用戶無須另外加裝任何檢測儀器,沒有額外設備支出。他們還可以通過郵件、維修工人的手機短信或者直接登陸Takadu的網頁系統看到最新的異常信息。


  這種數據呈現模式的優勢就是成本較低。因為無須另外加裝任何檢測儀器。除此之外,直接提供信息服務的方式也不用在自來水公司的電腦上安裝任何軟件,免卻了開發軟件的步驟,進入和退出這項服務的代價也會更低。


  Takadu的數據來自公共設施部門,這也是他們的客戶。Takadu市場分析專員Rotem Shemesh告訴《第一財經週刊》,他們每月更新一次算法,而算法的評判標準來自異常情況的準確判斷率。一般而言,異常區域面積能縮小至原來的50%,減少了搜索具體異常水管的時間。判斷的準確率大概在90%左右。


  這主要源於一種橫向和縱向共同比較的算法。比如用水量突然增多,不一定是有爆水管的情況發生,可能是因為節假日的到來。因此,Takadu會把用水量相似的兩個社區進行比較,看看是不是兩個社區的用水量同時增加了。同時還會加入天氣的因素,看看是不是因為連日陰雨,今天放晴了於是許多居民開始洗衣服了等等,以此避免錯誤報告的產生。縱向比較就是參照歷史數據,比如把某個社區每天各個時段的歷史用水量加權生成一條平均水量曲線,如果某天用水量突然偏離曲線超過一定的值,則會成為判斷水管漏水的重要依據之一。


  目前,Takadu共有8個客戶,除了原有的以色列耶路撒冷、巴西里約熱內盧、澳大利亞墨爾本等5個城市和區域以外,最近還新增了智利以及哥倫比亞的兩個城市。監測長度超過10萬千米,每千米Takadu的月收費是1萬美元。如果有更多類似服務出現,水數據將可以成為全球範圍內被分析的信息,能有效節約能源,制定再利用策略。


  

 

 

一顆膠囊相機的旅程


文|CBN記者 許悅


  公司名稱 Given Imaging
  創辦時間及規模 1998年,60名膠囊工程師,市值5.82億美元
  數據表現為 診斷報告
  數據挖掘方式 傳感器捕捉
  改變了什麼 診斷資源的侷限性和準確度
  未來的影響/想像 更精準的內科疾病診斷以及病例共享
  亮點 全球病史數據庫配對

  人的肉眼看不到太遠的東西,當然也看不到離自己最近的東西,比如我們的胃腸。但是以色列的膠囊相機研發和生產公司Given Imaging卻可以給你,尤其是你的醫生這樣的一雙眼睛。


  Given Imaging把攝像頭內置入比普通感冒藥稍大的膠囊內,以大約每秒14張照片的頻率拍攝消化道內的情況,並同時傳回外置的圖像接收器。最後,在4小時至6小時內膠囊相機將通過人體排泄離開體外。

  創始人Gavriel Meron原來是以色列國防軍的導彈研究員,退役後根據導彈的原理做成了世界上第一個膠囊相機,進行人體消化道腫瘤監測,並在1998年成立了公司。現在膠囊相機市場不乏其他圖像處理巨頭的進入,比如奧林巴斯。


  「但我們的數據庫優勢是無法被超越的。」在距離特拉維夫一個小時車程的Yoqneam工業園辦公樓裡,Given Imaging的CFO Yuval Yanai對《第一財經週刊》說。


  時至今日,Given Imaging已經賣出了一百多萬顆膠囊相機,他們把大量的患者病徵通過配套的軟件錄入數據庫,新患者使用Given Imaging的膠囊相機發現疑似腫瘤時,軟件都會自動檢索過去的相似症狀,判斷是腫瘤的可能性多大,良性還是惡性。


  過去的醫生都是在靠自己的個人經驗進行病徵判斷,就像許多人都更信任年齡更大的醫生一樣,診斷有時依靠不可言說的直覺。不過這種診斷經驗卻難以被更多醫生分享,成為了一種巨大的智力浪費。


  通過Given Imaging的膠囊相機,當醫生發現一個可疑的腫瘤時,雙擊當前圖像後,過去其他醫生拍攝過的類似圖像和他們的診斷結果都會悉數被提取出來,以增加醫生的診斷信心。試想一下,一個病人的問題不再是一個醫生在看,而是成千上萬個醫生在同時給出意見,並由來自大量其他病人的圖像給出佐證。


  如果根據數據庫記錄,某段消化道的圖片值得注意,而醫生沒有發現的時侯,儘管Given Imaging的軟件並不會給出診斷,卻可以彈出提示,「嘿,我覺得你應該看看這裡!」


  「這並不是什麼高難度的技術,但是如果沒有豐富的數據,一個醫生花1個小時也未必能看出什麼來,現在25分鐘就可以得出準確的診斷結果了。」Yuval Yanai說。


  

 

 

一個數據分析師的新發現

與點擊廣告相比,Jeff Hammerbacher相信,數據應用能夠催生更多更好的商業模式。


文|CBN記者 李蓉慧

  H= Jeff Hammerbacher  Cloudera創始人
  C= CBNweekly


  C:你的數據挖掘工作始於華爾街投行Bear Stearn,那是怎樣一份工作?


  H:當時我是固定收益部的數據分析師,主要處理有關債權、抵押以及其他金融衍生工具的事務。我為交易員清理外匯期權的電子數據表。清除完成後,我還要通過複雜的隨機微分方程把定價引擎應用到這些期權上。


  後來我得根據金融產品價格變動,維護它的固定收入的期限結構模型。期限結構模型是對收益率曲線發展的預測—很複雜的算法,每晚都得運行。我還開發了同步模擬通貨膨脹的期限結構模型。


  空下來的時候,我會去維基百科管理一下上面的答案。現在我是Quora的活躍分子,就知識交換而言,Quora比維基好得多。


  C:從你的工作經歷來看,你怎麼看待數據應用這個問題?


  H:我不是很瞭解許多大機構的宏偉目標,我只能談談我的領域。在我開始為數據應用做貢獻前,還有一大堆的知識等著我去消化。我一直試圖找出更簡潔和更準確的模型來處理那些被篩選出來的重要信息。


  曾有一件事,讓我真正明白了數據管理和複雜模型的價值。有天,我們丟失了路透社有關交易所的數據反饋,所有的活動都被迫停止。但是負責數據反饋的那個工程師卻外出午飯去了,在他回到座位之前,我們完全束手無策。那時我覺得,沒有可靠的數據結構,華爾街賺不了錢,不管它有多少數學博士。


  還有另外一件事情讓我感到複雜模型的侷限性。當時我們的一位交易員決定在某個金融產品上停用我們的模型,原因是模型預測的價格和其他交易員預測的價格有很大差異。這讓我明白,所有的模型都必須考慮它所針對的金融工具的背景信息。


  C:後來你去了Facebook,還組建數據團隊,工作性質變了嗎?


  H:2006年,我以研究科學家的身份進入Facebook。就在我加入的前幾個月,Facebook聘請了他們第一位分析總監。他搭建了Facebook第一個數據庫,加入後的頭幾個月我都在幫他幹這個活。同時,我也會負責一些數據分析項目,尤其是分析在NewsFeed功能和開放註冊推出之後網站訪問量的增長情況。


  幾個月之後,我便清楚我們的增長速度將使得我們的數據結構超出任何當時的商業軟件處理能力,於是我便向我的老闆,Facebook的CTO AdamD'Angleo建議,我們要有自己的、由結構工程師和研究科學家組成的數據團隊。我深刻地覺得,這兩種人一起工作對於開發早期數據結構軟件太重要了。


  此後,我的工作主要就是在世界範圍內招聘最出色的數據結構工程師,一起去證明我們的遠見。


  C:你在那些數據挖掘裡發現了什麼?


  H:這工作感覺太棒了:News Feed發佈之後的第二天簡直就是瘋狂的一天。一整天我都在把Facebook的流量數字更新給馬克·扎克伯格,佐證他當時的直覺—不管當時的新聞報導如何唱衰,News Feed對於用戶來說會是個好東西。最讓我興奮的還要數推出平台的那天。在接下來的那個星期,我第一次明白Facebook會成功的,就像它今天一樣的成功。


  然而最棒的時刻,是我們終於可以把軟件進行開源的那?天。


  C:但你後來又離開了,還說「最聰明的人都在讓人們把注意力轉到點擊廣告上,真糟糕」。你為什麼會這麼想?


  H:正確的引用應該是:我一代中最聰明的人都在想著怎麼讓更多人點擊廣告,這真是糟糕透了。這很容易理解:在線廣告已經成為了過去十年財富創造最可靠的來源。把消費者和銷售者配對起來,以及創造新的消費者和銷售者,這對於任何市場來說都是最重要的問題。在線瀏覽和在線購買都變得非常容易估量。當你有估量方法,你就可以研究科學。在這種情況下,我這一代中最聰明的人則在推動科學的前?進。


  但不幸的是,我人生中大部分有朝一日可以被解決的問題,都不會因更精準的廣告而迎刃而解。我不確定如何整合我們的社會,才能讓致力於解決長期挑戰的人覺得自己得到了應得的回報,但是這是一個值得問出口的問題。


  當然,廣告之外現在已經有了大量的其他數據應用,我現在就能脫口而出那些公司的名字:GitHub讓開發開源軟件變得更容易;Kickstar讓項目可以更快地獲得資金支持;Rock Health和Imagine K-12在教育和資助下一代創業公司應該把更多目光投向醫療和教育領域的實際問題;Sage Bionetworks正在創造一個軟件和數據的共享倉庫,幫助疾病模型的建立和藥品的開發;EyeWire用眾包的方式研究大腦結構。有一些在線廣告公司已經開源了工具包,比如Facebook的Open Compute項目就是其中很有意思的一個。


  C:你現在工作的Cloudera有什麼不一樣?


  H:Cloudera的特別之處在於,我們的軟件可以和任何形式、任何規模的數據匹配,並且是開源的。我們希望可以在數據分析的基礎上創造更為開放的平台。


  我們的主要產品是Cloudera Enterprise,它是我們的資產管理軟件Cloudera Manager最重要的組成部分。它的銷售一路走紅,讓我們得以從小團隊成長為200多人的公司,到今年年底可能會超過300人。做一個開源軟件還能賺錢是一個讓人興奮的事情。最近我們新增了一些企業用戶功能,比如可以讓企業把被毀滅的數據恢復過來。


  Cloudera更讓人興奮之處在於,許多公司的成功是建立在我們所提供的平台之上,投資我們的Accel公司很看好這個平台,它催生機遇,目前Accel在各種大數據領域的公司裡投資了將近1億美元。


  C:你在硅谷看到數據挖掘的趨勢是什麼?


  H:數據收據和數據挖掘最有趣的部分仍然發生在互聯網公司之內,廣告是構成這類公司營收最重要的部分。然而,在過去的幾年裡,這些公司當中有的已經成功地把開源工具商業化,創造了其他高收益的商業模式。我希望未來幾年,會有更多的革新出現在這些公司裡。


  現在發生了很多有趣的事情。在人工智能方面,許多算法已經被隱藏到了開源軟件平易近人的交互界面之下,比如Scikit-Learn,它能讓用戶很方便用各種模型做試驗;還有像Vowpal Wabbit、Kaggle等等。


  瀏覽器已經成為了數據可視化最棒的平台。JAVA Script, HIML5和WebGl,還有像D3和Crossfilter等實驗室都讓數以億計的數據互動性更強、更可視化。當數據可視化在瀏覽器上實現了以後,合作將變得更便利,並隨之催生出更多讓人興奮的新技術和工具。


  我可以說出許多在數據蒐集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大學開發的Fisheye,還有斯坦福和伯克利大學合作研發的一個叫Data Wrangler的工具。


  C:你現在怎麼看待數據的價值?


  H:我深信科學是社會一切美好事物的偉大來源。數據則是被科學管理著的世界的代表,因此收集越多的數據,我們就有能力做更多的科學研究。在廣告於過去十年變得無比成熟的同時,許多產業甚至還沒有進入數字時代。其中最突出的是醫療產業。我並不認為醫療產業在2030年還會如今天的情況一樣駐足不動。在Cloudera,我們已經有了許多來自醫療行業的客戶,同時我也希望我們能在這個進程中保持領先地位,因為醫療數字化這一天一定會到來。


PermaLink: https://articles.zkiz.com/?id=33432

Next Page

ZKIZ Archives @ 2019