📖 ZKIZ Archives


Big Data

http://www.cbnweek.com/yuedu/ydpage/?raid=1511
 Robin走進紐約Maidson大街99號17層時,像個異類。他有可能也叫Roby,反正他沒帶名片。他遲疑地看著裡面端著酒杯彼此交談的年輕人,而自己頭髮花白。好在他看到了投影儀的幕布上碩大的字樣:「Big Data」(大數據)。


  他已和數字打了20年交道,不過是在金融行業。採集數據、建立模型、預測價格的走向,這是他每天都在做的事。「我不喜歡這份工作,這些數據是冷冰冰 的,當你處理完這些數據後,你沒有成就感。」他說,「我想要做些改變,去面對那些更加活生生的、有趣的數據。」所以他來了這個由諮詢公司Dalberg組 織的討論會。


  他說的那些活生生的、有趣的數據來自於社交網絡—Twitter、Facebook、Foursquare以及不斷新冒出來的新應用。在 Twitter和Facebook剛出現時,鮮有人知道除了吐槽炫耀自戀外這些碎碎念有什麼用,但現在這些被稱為數據,是價值尚未發掘完全的資源。


  儘管在過去的幾十年裡,像Robin這樣的程序員和數學家不斷在和數據打交道,但是SoLoMo(Social、Location、Mobile)帶 來的海量數據依然是個新挑戰—在一分鐘內,Twitter上新發的信息數超過10萬;在Facebook上有超過600萬的瀏覽量。而且和單純的數字不 同,這些數據是含義豐富的文字,以及比文字更複雜的圖片、音頻和視頻。


  實際處理起來,這並不比金融行業中的數據更加有趣。Robin想要離開的真正原因可能是華爾街的蕭條。再多的統計數據與模型也不能防止整個經濟的下滑 和小概率事件發生帶來的股災,無數人正在失去華爾街那份體面的工作。而處理社交網絡的大數據卻是朝陽行業,人們開始發現大數據或許能讓他們和華爾街一樣賺 錢—即便現在還沒有那麼多。


  最主要的盈利模式只有一個。「在線廣告已經成為了過去十年財富創造最可靠的來源。把消費者和銷售者配對起來,以及創造新的消費者和銷售者,這對於任何 市場來說都是最重要的問題。」Jeff Hammerbacher告訴《第一財經週刊》。2006年以前,他還是Robin的華爾街同行,但後來他成了最早加入Facebook的數據分析師之 一,以研究科學家的身份幫助馬克·扎克伯格搭建了最早的數據分析模型。換個更直白的說法:弄清楚用戶點擊廣告的動機和方式。


  Facebook開啟了互聯網公司在盈利模式上的想像力,儘管有谷歌在先,但在線顯示廣告,甚至商業信息可以作為網站內容一部分這件事,還是給人們提供了不一樣的思維方?式。


  從公元前6世紀的亞歷山大圖書館,到把一切都數字化的谷歌,再到SoLoMo時代,數據的獲取正在變得越來越細緻,也越來越個人化。創新諮詢公司 Frog(原Frog Design)在一份全球市場調查中發現,消費者對信用卡公司、在線零售商和科技公司的信任度最高,超過87%的調查者都樂意與這些公司分享個人數據。與 此同時,因為對後台操作不瞭解,人們往往不知道自己已經分享了哪些個人數據。在Frog的另一份調查裡,只有20%的人認為分享了自己的網絡搜索關鍵詞。 而事實上,你並沒有辦法避免分享這部分數據。


  大數據的挖掘和分析就像任何行業一樣,一開始只是Jeff Hammerbacher這樣的個人研究者,但很快會發展出分工細緻的專業服務公司。


  離Dalberg辦公室步行10分鐘之遙的地方,有家叫Social Flow的創業公司,它也許可以算作是內行。它和Twitter是合作夥伴,在Big Data行業中生機勃勃。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發的正確內容。廣告商愛這家公司,這讓這家公司已經有了 40多名員工。


  這家成立於2009年的公司在2011年說服了在微軟研究大數據的專家Gilad Lotan從波士頓搬家到紐約來和他們一起創業。Lotan看起來很年輕—他的專家資質來自於從2008年起就研究Twitter上的龐大數據,而不是像 Robin那樣直到今天才想要一探究竟。


  「你還記得2008年伊朗大選風波嗎,每個人都在Twitter上轉發,讓人驚訝。」Lotan說。之後,他開始圍繞伊朗大選做關於信息傳播的模型。 當時他還在微軟工作,這些研究很快被用在了微軟Bing搜索上,這是首個可以直接搜索社交媒體信息的搜索引擎。「每秒都有大量新內容產生,而且是非結構化 的。這和傳統的搜索很不一樣。」Lotan說。


  Lotan喜歡將這些大量的數據分析後的結果可視化,使得那些非技術人員也能輕易明白這些數據在表達什麼。在本拉登被射殺後,他所做信息圖譜可以讓人 們清晰地看出,在白宮發出官方消息前誰引爆了Twitter上的消息傳播。當然,在他開始在Social Flow工作之後,他會把客戶請到辦公室,將包含這些公司的信息圖譜展現出來:有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯 示這些客戶的粉絲正在談論什麼話題。


  現在《經濟學人》使用Social Flow的服務來分析自己的受眾群,並且選擇在什麼時間來推送一條什麼樣的消息;而百事可樂則用這種服務比較不同的營銷活動會得到什麼樣的傳播效果。這些公司並不吝於為Social Flow的服務付費。


  事情看起來就是這樣,除了廣告,其他行業似乎還不知如何參與進來。Jeff Hammerbacher解釋說,這是數字化讓廣告業的效率和產出變得更加容易衡量。就好像那句廣告業的名言,「你知道有50%的投入被浪費了,只是你不 知道是哪50%。」現在你能清楚看到那50%在哪裡。Twitter和Facebook上的點擊和轉發數量能精確告訴廣告商這個促銷要比那個火熱多 少,Foursquare則告訴這些廣告商人們和他們的家人朋友都去過哪裡。嘗過這些甜頭之後,廣告商會關注任何受到用戶歡迎的新應用,甭管它是不是剛剛 冒出來的。


  但Jeff Hammerbacher不覺得這是好事,2011年他就對《彭博商業週刊》說,「我一代中最聰明的人都在想著怎麼讓更多人點擊廣告,這真是糟糕透了。」 然後他就去了硅谷當時創立不久的一家數據分析公司Cloudera,這家公司製作與任何形式、任何規模的數據相匹配的開源軟件,很多公司以此為平台建立了 自己的商業模式。難得的是,儘管開發開源軟件,Cloudera還是能靠銷售和服務支撐起目前將近200人的團隊。


  Jeff Hammerbacher不缺乏志同道合者。Robin慕名而來的這場討論會裡大多數人都對「除了廣告還能做什麼」感興趣,他們不懂分析和挖掘,但想知道趨勢和數據的未來。


  「我在紐約市應急管理部門工作,蒐集紐約的地理信息和數據,醫院、警察局、天氣變化等等,然後為可能發生的緊急事件提供預案,」一位叫做 Timothie Biggs的女士介紹自己,「也許我們以後也會蒐集社交網絡上的數據,因為你會更快地知道發生了些什麼。」


  甚至舉辦這次活動的Dalberg公司也不是懂行的人。它成立於2001年,是一家為企業、政府和非營利性組織提供和經濟發展、氣候變化與公司治理有 關的策略的公司。在2011年年末,這家公司覺得也許應該將Twitter和Facebook這類社交媒體加入到自己的分析中來。而這次講座就是他們做的 一次嘗試。


  有個叫Robert Kirkpatrick的演講者,是聯合國秘書長執行辦公室的官員。他和一些科研組織一起基於Twitter等社交媒體上的數據來研究通貨膨脹、失業率等 社會問題。他們給這個項目起了個名字,叫做「全球脈搏」(Global Pulse)。這個名字很容易讓人想到Twitter在2009年給自己的戰略定位:「如果我們擁有10億用戶,那我們就是地球的脈搏(If we had a billion users, that will be the pulse of the planet.)。」


  「的確看起來現在大數據以及數據挖掘更多和廣告有關,創業公司們從廣告上也更容易賺錢。但我想,也許這些分析方法和成果能運用到別的方面去。」Robert Kirkpatrick?說。


  他們挑選了一些話題作為實驗。在一個被稱作為「面包實時在線價格」(Real-Time E-pricing of Bread)的項目中,Global Pulse在6個拉丁美洲國家建立了每日價格指數。這個研究發現在線零售價格由於和線下價格的波動有聯繫,能比官方的數據更早發現通貨膨脹的苗頭。


  在另一個研究中,Global Pulse希望發現社交網絡中情緒和失業率之間的關係。在愛爾蘭,當社交網絡上「困惑」和「沮喪」這些指標升高3個月後,失業率也會升高;而在美國發生在 失業率升高之前持續升高的是「憤怒」這一指標。當然,也許對政府部門而言更有意義的是失業之後他們在談論些什麼:在「失業」指標上升2個月後人們在談論 「房子」,這也許意味著他們準備賣掉自己的房產;在過後的幾個月,談論「公交」和「地鐵」的在上升,這也許意味著他們承擔不起開車的油費,或者已經準備將 車賣掉。


  「政府現在得到的數據是滯後的,他們做出的決定也非常緩慢。等政策做出幾年後發現有錯時,時間也不可能倒流。」Kirkpatrick?說。他覺得如果一個政府做決定能像廣告商根據數據分析更新自己的營銷策略一樣快,那也許這個世界會變得更美好一些。


  但這些數據還遠沒有到可以直接使用的地步。機器無法理解一句話是陳述還是反諷,「數據太多太複雜了,有時你得問出對的問題,」 Kirkpatrick?說,「而且,機器也無法像人一樣理解不同的情景。例如通過數據你能發現烏干達很多人在賣掉自己自行車,但機器不能馬上知道他們賣 掉自行車的下一步可能就是買一把機關槍。」


  「這也是和我以前處理的數據不一樣的地方,」和Robert聊完之後Kirkpatrick?說,「我以前處理的數據就是指『數字』,不包含情感或其他引申含義。」


  越來越多的行業開始和數據打交道。美國聯邦政府在2012年3月29日宣佈將投入超過2億美元在大數據研究上,而你會在這篇文章後面看到更多以各種方 式利用數據的公司,它們都來自以色列,不僅僅因為以色列在大數據領域的創業公司尤多,還因為這些公司更為關注公共服務領域,無論是Takadu這樣的為居 民用水處理數據的公司,還是Given Imaging這樣的膠囊攝像頭公司。


  「在線瀏覽和在線購買都變得非常容易估量。當你有估量方法,你就可以研究科學。在這個意義上,我這一代中最聰明的人則在推動科學的前進。」Jeff Hammerbacher說,「但我不確定如何整合我們的社會,才能讓致力於解決長期挑戰的人覺得自己得到了應得的回報,這是一個值得問出口的問題。」


  有些行業面臨的問題是數據量還不夠大。谷歌創始人謝爾蓋·布林的太太安妮·沃斯基創立的23andme是一家基因公司。他們希望用戶能提供足夠的唾 液,而他們則回報給用戶一份報告來瞭解自己和家族潛在的與基因有關的疾病。在4月6日,這家位於硅谷的公司邀請了一些有輕度帕金森症的患者到他們的辦公 室,對於他們而言,要研究帕金森綜合症,目前的樣本量還是不夠大。


  事實上有更多的行業和領域被建構在越來越龐大和複雜的數據基礎上—與此相關的公司也正在收到風險投資的青睞。「大數據不僅僅是一個時髦詞彙,我相信它 有真正的未來,」硅谷頂級風險投資機構德豐傑(Draper Fisher Jurvweston)創始合夥人Tim Draper對《第一財經週刊》說,「我們需要分辨出哪些是未來的趨勢,哪些是時髦的概念,而大數據無疑是個趨勢。」


  Tim Draper認為,未來更多的與複雜的數據相關的創業公司會陸續出現,而並非由大公司主宰一切。「這些數據將分散在各個領域,你的行車路線、你經常出現的 地點、你喜歡的顏色、經常買的東西,社交網站上的觀點和言論,這些都會成為個人數據的一部分,它們可以用來被服務每個?人。」


  而位於加州Palo Alto的創業公司Alohar開發的Placeme正是這樣一款產品。它看上去是一款普通的地理位置應用,而事實上,它能自動記錄你經常出現的地理位 置,並自動生成為數據圖表—這些信息會幫助分析每日的行程路線、生活必需場所,甚至駕駛里程與汽油存量的關係(因為它知道你上一次在哪裡加過油),它們在 一起將會變成一款「個人生活助理工具」—這應該是複雜的數據聚合在一起對個人直接產生輔助(而非廣告)的第一個工具。


  「Siri是人們的語音助理,但它不是一款真正智能處理人們需求的產品,Placeme的數據處理會讓它變成一款個人的智能助理工具。」Alohar 創始人Sam Liang對《第一財經週刊》說。這家公司獲得了從事分佈式計算系統和數據分析處理長達數十年的斯坦福大學教授David Chariton的投資—他也是迄今世界上最龐大的「大數據」公司谷歌的第一位投資者。


  一年多以來,Jeff Hammerbacher看到的數據挖掘趨勢是催生更多的開源工具包,也就是他在後面那篇對談裡提到的那些陌生的名字。它讓更多的創業者更方便地開發產 品,比如通過社交網絡來收集數據的健康類App。也許未來數年後,它們蒐集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一 片,而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥。


  「我深信科學是社會一切美好事物的偉大來源。數據則是被科學管理著的世界的代表。在廣告於過去十年變得無比成熟的同時,許多產業甚至還沒有進入數字時代,比如醫療。」Jeff Hammerbacher說。


  但正如他所言,「不幸的是,我人生中大部分期待有朝一日要被解決的問題,都不會因為更精準的廣告迎刃而解。」


  還有更重要的事情要做。

告訴我,誰在偷偷刷我的卡


文|CBN記者 許悅


  公司名稱 BillGuard
  創辦時間及規模 2011年,首輪融資300萬美元,第二輪1000萬美元
  數據表現為 交易記錄提醒
  數據挖掘方式 信用卡交易記錄
  改變了什麼 個人對信用卡交易失誤的忽略
  未來的影響/想像 通過社交網絡以及其他後台數據監測金融服務
  亮點 用戶舉報、社交媒體信息抓取

  有幾個人會認真看自己每個月的信用卡對賬單?也許舉手者寥寥。


  就算你現在知道在不引起你注意的情況下,每月被重複扣費、隱藏收費和盜刷的損失可以高達100美元,你大概也很難分辨到底收費的人是誰。


  以色列創業公司BillGuard現在想要替你做這些你不習慣也沒有精力做的事情。用戶只要上BillGuard的網站註冊、選擇銀行、輸入網上賬單 的ID號和網上賬單密碼,BillGuard就可以獲取你的交易記錄,每月定期對用戶發送報告,詳細列出每一筆交易的判斷:正常、警告以及不確定。然 後,BillGuard對可疑的交易記錄進行標記,提醒用戶核實。


  BillGuard會從三方面對可疑交易進行判斷。第一個是用戶的反饋,在每月收到BillGuard的報告後,用戶如果覺得哪筆交易是可疑的,而 BillGuard又沒有指出,可以為它「插上」一個小紅旗,這將更新BillGuard的數據庫;第二個是社交媒體上的那些抱怨和投訴— BillGuard可以通過關鍵詞進行過濾,然後把用戶提及的那些可疑商家和電話號碼錄入數據庫;第三個就是自己對網上的偵查,比如有的購物網站IP地址 是在俄羅斯,但是購買者卻都在美國,網站下提供的電話是某個酒店的,BillGuard也會把這樣的網站列入可疑交易裡。


  說實在的,用戶憑什麼把敏感的信用卡信息告訴這樣一家不知是否值得信任的公司?所以BillGuard並不直接掌握用戶的賬戶數據,而是從一家名為Yodlee的第三方賬戶管理公司處獲得美國和以色列境內發行的信用卡交易記錄。


  「我們只會獲得『只讀狀態』下的用戶交易記錄,並不會真正進入你的賬戶。」當被問及隱私和信息安全問題時,BillGuard的CTO Raphael Ouzan對《第一財經週刊》表示。


  Raphael Ouzan來自以色列國防軍中的高科技部門,他一直不能理解為什麼現在的數據分析用途都是廣告,而許多銀行坐擁這數量驚人的數據卻不知道該怎麼處理。


  「除廣告用途之外的其他用途很多都沒被開發,當中的市場很大,也沒有什麼公司去做針對保護消費者的數據分析,而非針對保護大公司。」Ouzan說。於是一年前從部隊退役之後,他決定進入這個市場。


  銀行本身設立的反欺詐部門與BillGuard也不矛盾,甚至表現出一定的友好態度。「銀行只能分一個部門做這事,而我們是全力投入於此,從與我們接觸的銀行的反應看來,它們願意參考BillGuard給出的結論。」Rapael Ouzan說。


  信用卡交易數據屬於獲得門檻更高的數據種類—獲得信用卡信息這種敏感的數據顯然會比水數據更讓數據保管者謹慎。Frog的一項名為「您的數據值多少錢」的調查中顯示,信用卡數據是用戶認為最值錢的個人數據,可見人們對此的謹慎。


  現在中國的持卡者還無法使用BillGuard。但有趣的是,BillGuard的銀行選項裡卻有中國建設銀行。Rapael Ouzan說,這是因為他們正希望先開通香港建行信用卡的服務。


  《第一財經週刊》記者和Rapael Ouzan說了自己經歷的一件事:在我從香港飛往特拉維夫的途中,信用卡被人刷了約600元人民幣,而彼時我正在飛機上,沒有購買任何機上免稅物品。


  「所以你會需要我們的服務的。」Rapael Ouzan說。


  

 

 

未來的水怎麼管


文|CBN記者 許悅


  公司名稱 Takadu
  創辦時間及規模 2009年,30人
  數據表現為 有結論的報告
  數據挖掘方式 現有公共設施部門提供
  改變了什麼 水監測的路徑和速度
  未來的影響/想像 更多城市的水資源數據共享
  亮點 快速準確

 水向來是個不好管理的東西:自來水公司發現某個水壓計出現問題,可能需要花上很長的時間排查共用一個水壓計的若干水管。等找到的時侯,大量水就這麼被浪費了。


  以色列一家名為Takadu的水系統預警服務公司解決了這個問題。


  Takadu把埋在地下的自來水管道水壓計、用水量和天氣等檢測數據蒐集起來,通過亞馬遜的云服務器傳回Takadu公司的電腦進行算法分析,如果發 現城市某處地下自來水管道出現爆水管、滲水以及水壓不足等異常狀況,就會用大約10分鐘完成分析生成一份報告,發回給這片自來水管道的維修部門。報告中, 除了提供異常狀況類型以及水管的損壞狀況—每秒漏出多少立方米的水,還能相對精確地標出問題水管具體在哪兒。


  用戶無須另外加裝任何檢測儀器,沒有額外設備支出。他們還可以通過郵件、維修工人的手機短信或者直接登陸Takadu的網頁系統看到最新的異常信息。


  這種數據呈現模式的優勢就是成本較低。因為無須另外加裝任何檢測儀器。除此之外,直接提供信息服務的方式也不用在自來水公司的電腦上安裝任何軟件,免卻了開發軟件的步驟,進入和退出這項服務的代價也會更低。


  Takadu的數據來自公共設施部門,這也是他們的客戶。Takadu市場分析專員Rotem Shemesh告訴《第一財經週刊》,他們每月更新一次算法,而算法的評判標準來自異常情況的準確判斷率。一般而言,異常區域面積能縮小至原來的50%, 減少了搜索具體異常水管的時間。判斷的準確率大概在90%左右。


  這主要源於一種橫向和縱向共同比較的算法。比如用水量突然增多,不一定是有爆水管的情況發生,可能是因為節假日的到來。因此,Takadu會把用水量 相似的兩個社區進行比較,看看是不是兩個社區的用水量同時增加了。同時還會加入天氣的因素,看看是不是因為連日陰雨,今天放晴了於是許多居民開始洗衣服了 等等,以此避免錯誤報告的產生。縱向比較就是參照歷史數據,比如把某個社區每天各個時段的歷史用水量加權生成一條平均水量曲線,如果某天用水量突然偏離曲 線超過一定的值,則會成為判斷水管漏水的重要依據之一。


  目前,Takadu共有8個客戶,除了原有的以色列耶路撒冷、巴西里約熱內盧、澳大利亞墨爾本等5個城市和區域以外,最近還新增了智利以及哥倫比亞的 兩個城市。監測長度超過10萬千米,每千米Takadu的月收費是1萬美元。如果有更多類似服務出現,水數據將可以成為全球範圍內被分析的信息,能有效節 約能源,制定再利用策略。


  

 

 

一顆膠囊相機的旅程


文|CBN記者 許悅


  公司名稱 Given Imaging
  創辦時間及規模 1998年,60名膠囊工程師,市值5.82億美元
  數據表現為 診斷報告
  數據挖掘方式 傳感器捕捉
  改變了什麼 診斷資源的侷限性和準確度
  未來的影響/想像 更精準的內科疾病診斷以及病例共享
  亮點 全球病史數據庫配對

  人的肉眼看不到太遠的東西,當然也看不到離自己最近的東西,比如我們的胃腸。但是以色列的膠囊相機研發和生產公司Given Imaging卻可以給你,尤其是你的醫生這樣的一雙眼睛。


  Given Imaging把攝像頭內置入比普通感冒藥稍大的膠囊內,以大約每秒14張照片的頻率拍攝消化道內的情況,並同時傳回外置的圖像接收器。最後,在4小時至6小時內膠囊相機將通過人體排泄離開體外。

  創始人Gavriel Meron原來是以色列國防軍的導彈研究員,退役後根據導彈的原理做成了世界上第一個膠囊相機,進行人體消化道腫瘤監測,並在1998年成立了公司。現在膠囊相機市場不乏其他圖像處理巨頭的進入,比如奧林巴斯。


  「但我們的數據庫優勢是無法被超越的。」在距離特拉維夫一個小時車程的Yoqneam工業園辦公樓裡,Given Imaging的CFO Yuval Yanai對《第一財經週刊》說。


  時至今日,Given Imaging已經賣出了一百多萬顆膠囊相機,他們把大量的患者病徵通過配套的軟件錄入數據庫,新患者使用Given Imaging的膠囊相機發現疑似腫瘤時,軟件都會自動檢索過去的相似症狀,判斷是腫瘤的可能性多大,良性還是惡性。


  過去的醫生都是在靠自己的個人經驗進行病徵判斷,就像許多人都更信任年齡更大的醫生一樣,診斷有時依靠不可言說的直覺。不過這種診斷經驗卻難以被更多醫生分享,成為了一種巨大的智力浪費。


  通過Given Imaging的膠囊相機,當醫生發現一個可疑的腫瘤時,雙擊當前圖像後,過去其他醫生拍攝過的類似圖像和他們的診斷結果都會悉數被提取出來,以增加醫生 的診斷信心。試想一下,一個病人的問題不再是一個醫生在看,而是成千上萬個醫生在同時給出意見,並由來自大量其他病人的圖像給出佐證。


  如果根據數據庫記錄,某段消化道的圖片值得注意,而醫生沒有發現的時侯,儘管Given Imaging的軟件並不會給出診斷,卻可以彈出提示,「嘿,我覺得你應該看看這裡!」


  「這並不是什麼高難度的技術,但是如果沒有豐富的數據,一個醫生花1個小時也未必能看出什麼來,現在25分鐘就可以得出準確的診斷結果了。」Yuval Yanai說。


  

 

 

一個數據分析師的新發現

與點擊廣告相比,Jeff Hammerbacher相信,數據應用能夠催生更多更好的商業模式。


文|CBN記者 李蓉慧

  H= Jeff Hammerbacher  Cloudera創始人
  C= CBNweekly


  C:你的數據挖掘工作始於華爾街投行Bear Stearn,那是怎樣一份工作?


  H:當時我是固定收益部的數據分析師,主要處理有關債權、抵押以及其他金融衍生工具的事務。我為交易員清理外匯期權的電子數據表。清除完成後,我還要通過複雜的隨機微分方程把定價引擎應用到這些期權上。


  後來我得根據金融產品價格變動,維護它的固定收入的期限結構模型。期限結構模型是對收益率曲線發展的預測—很複雜的算法,每晚都得運行。我還開發了同步模擬通貨膨脹的期限結構模型。


  空下來的時候,我會去維基百科管理一下上面的答案。現在我是Quora的活躍分子,就知識交換而言,Quora比維基好得多。


  C:從你的工作經歷來看,你怎麼看待數據應用這個問題?


  H:我不是很瞭解許多大機構的宏偉目標,我只能談談我的領域。在我開始為數據應用做貢獻前,還有一大堆的知識等著我去消化。我一直試圖找出更簡潔和更準確的模型來處理那些被篩選出來的重要信息。


  曾有一件事,讓我真正明白了數據管理和複雜模型的價值。有天,我們丟失了路透社有關交易所的數據反饋,所有的活動都被迫停止。但是負責數據反饋的那個 工程師卻外出午飯去了,在他回到座位之前,我們完全束手無策。那時我覺得,沒有可靠的數據結構,華爾街賺不了錢,不管它有多少數學博士。


  還有另外一件事情讓我感到複雜模型的侷限性。當時我們的一位交易員決定在某個金融產品上停用我們的模型,原因是模型預測的價格和其他交易員預測的價格有很大差異。這讓我明白,所有的模型都必須考慮它所針對的金融工具的背景信息。


  C:後來你去了Facebook,還組建數據團隊,工作性質變了嗎?


  H:2006年,我以研究科學家的身份進入Facebook。就在我加入的前幾個月,Facebook聘請了他們 第一位分析總監。他搭建了Facebook第一個數據庫,加入後的頭幾個月我都在幫他幹這個活。同時,我也會負責一些數據分析項目,尤其是分析在News Feed功能和開放註冊推出之後網站訪問量的增長情況。


  幾個月之後,我便清楚我們的增長速度將使得我們的數據結構超出任何當時的商業軟件處理能力,於是我便向我的老闆,Facebook的CTO Adam D'Angleo建議,我們要有自己的、由結構工程師和研究科學家組成的數據團隊。我深刻地覺得,這兩種人一起工作對於開發早期數據結構軟件太重要了。


  此後,我的工作主要就是在世界範圍內招聘最出色的數據結構工程師,一起去證明我們的遠見。


  C:你在那些數據挖掘裡發現了什麼?


  H:這工作感覺太棒了:News Feed發佈之後的第二天簡直就是瘋狂的一天。一整天我都在把Facebook的流量數字更新給馬克·扎克伯格,佐證他當時的直覺—不管當時的新聞報導如 何唱衰,News Feed對於用戶來說會是個好東西。最讓我興奮的還要數推出平台的那天。在接下來的那個星期,我第一次明白Facebook會成功的,就像它今天一樣的成 功。


  然而最棒的時刻,是我們終於可以把軟件進行開源的那?天。


  C:但你後來又離開了,還說「最聰明的人都在讓人們把注意力轉到點擊廣告上,真糟糕」。你為什麼會這麼想?


  H:正確的引用應該是:我一代中最聰明的人都在想著怎麼讓更多人點擊廣告,這真是糟糕透了。這很容易理解:在線廣 告已經成為了過去十年財富創造最可靠的來源。把消費者和銷售者配對起來,以及創造新的消費者和銷售者,這對於任何市場來說都是最重要的問題。在線瀏覽和在 線購買都變得非常容易估量。當你有估量方法,你就可以研究科學。在這種情況下,我這一代中最聰明的人則在推動科學的前?進。


  但不幸的是,我人生中大部分有朝一日可以被解決的問題,都不會因更精準的廣告而迎刃而解。我不確定如何整合我們的社會,才能讓致力於解決長期挑戰的人覺得自己得到了應得的回報,但是這是一個值得問出口的問題。


  當然,廣告之外現在已經有了大量的其他數據應用,我現在就能脫口而出那些公司的名字:GitHub讓開發開源軟件變得更容易;Kickstar讓項目 可以更快地獲得資金支持;Rock Health和Imagine K-12在教育和資助下一代創業公司應該把更多目光投向醫療和教育領域的實際問題;Sage Bionetworks正在創造一個軟件和數據的共享倉庫,幫助疾病模型的建立和藥品的開發;EyeWire用眾包的方式研究大腦結構。有一些在線廣告公 司已經開源了工具包,比如Facebook的Open Compute項目就是其中很有意思的一個。


  C:你現在工作的Cloudera有什麼不一樣?


  H:Cloudera的特別之處在於,我們的軟件可以和任何形式、任何規模的數據匹配,並且是開源的。我們希望可以在數據分析的基礎上創造更為開放的平台。


  我們的主要產品是Cloudera Enterprise,它是我們的資產管理軟件Cloudera Manager最重要的組成部分。它的銷售一路走紅,讓我們得以從小團隊成長為200多人的公司,到今年年底可能會超過300人。做一個開源軟件還能賺錢 是一個讓人興奮的事情。最近我們新增了一些企業用戶功能,比如可以讓企業把被毀滅的數據恢復過來。


  Cloudera更讓人興奮之處在於,許多公司的成功是建立在我們所提供的平台之上,投資我們的Accel公司很看好這個平台,它催生機遇,目前Accel在各種大數據領域的公司裡投資了將近1億美元。


  C:你在硅谷看到數據挖掘的趨勢是什麼?


  H:數據收據和數據挖掘最有趣的部分仍然發生在互聯網公司之內,廣告是構成這類公司營收最重要的部分。然而,在過去的幾年裡,這些公司當中有的已經成功地把開源工具商業化,創造了其他高收益的商業模式。我希望未來幾年,會有更多的革新出現在這些公司裡。


  現在發生了很多有趣的事情。在人工智能方面,許多算法已經被隱藏到了開源軟件平易近人的交互界面之下,比如Scikit-Learn,它能讓用戶很方便用各種模型做試驗;還有像Vowpal Wabbit、Kaggle等等。


  瀏覽器已經成為了數據可視化最棒的平台。JAVA Script, HIML5和WebGl,還有像D3和Crossfilter等實驗室都讓數以億計的數據互動性更強、更可視化。當數據可視化在瀏覽器上實現了以後,合作 將變得更便利,並隨之催生出更多讓人興奮的新技術和工具。


  我可以說出許多在數據蒐集方面很有意思的工具:LearnStructure、SchemaDictionary、密歇根大學開發的Fisheye,還有斯坦福和伯克利大學合作研發的一個叫Data Wrangler的工具。


  C:你現在怎麼看待數據的價值?


  H:我深信科學是社會一切美好事物的偉大來源。數據則是被科學管理著的世界的代表,因此收集越多的數據,我們就有 能力做更多的科學研究。在廣告於過去十年變得無比成熟的同時,許多產業甚至還沒有進入數字時代。其中最突出的是醫療產業。我並不認為醫療產業在2030年 還會如今天的情況一樣駐足不動。在Cloudera,我們已經有了許多來自醫療行業的客戶,同時我也希望我們能在這個進程中保持領先地位,因為醫療數字化 這一天一定會到來。


PermaLink: https://articles.zkiz.com/?id=33432

思考的碎片--4/27 Big Data之後續 slamnow

http://blog.sina.com.cn/s/blog_6a54e96a01011bwk.html
前幾天寫過Big Data,當時的結論:數據是對過去的遞歸,數據是優化現狀的工具,但是數據無法先驗,無法預測未來。數據對創新的價值幾乎為0。

寫完後有些許爭議。也引發我的思考。很有趣的是最後又是殊途同歸。
和我一貫的思路是契合的。so任何事情追根溯源都有世界觀和價值觀問題。
這個結論根源竟然是自由意志。很是有趣。

證券投資上其實也有對數據崇拜的現象,比如技術分析。
技術分析就是對過去數據的分析推演到未來。這和Big Data不是異曲同工之妙嗎?
信任所謂Big Data的人一定在證券市場上也是技術分析為主。
so兩者是相同的。
有人舉出B/S模型的例子,我只想說他們的LTCM是倒閉鳥。
少扯倒閉人的故事。一般而言我有一個結論一個諾貝爾做董事就是倒閉
LTCM是例子,Decode也是例子。聽說過deCode?好像@本尊是馬甲也有一個例子可惜我沒記錄下來也是諾貝爾=倒閉的例子。

技術分析和基本分析是老生常談。不參與爭論。我只想寫幾句我個人的看法,而且這些看法是早前沒見過人寫的。

so技術分析的方法論是過去可以推演未來,這個方法的來源應該是物理學。或者數學。
這個方法論的基礎是對象是遵循規律的。物理研究的對象應該如此吧。物理不研究有生命的物質。
數學好像也是抽象的。

物理是吧客觀現象歸納總結推演出定理。

這和技術分析很類似。

差別是證券市場作為一個市場而言參與者是人。而非客觀事物。

人和客觀事物的差異是自由意志。

這也可以解釋為何現在沒人看牛頓的巨著,但是依然有人看亞里斯多德的文章。
客觀世界簡單,主觀的人類的世界複雜和多變,雖然人性總有幾個基礎假設是普遍認同,這就是所謂經濟學研究的基礎。比如人是自私的。
人不自私經濟學沒法研究鳥。
但是人的研究更多只能定性無法定量。這在心理學裡也有涉及最簡單的大一的實驗心理學就有閾值的概念。應該是第一堂實驗課。閾值是區間而且是波動的。非精確的。
個人的對刺激的反應都會因為時間不懂而變化,包含心情影響等,
如何可以精確一群人對刺激的反應,簡直天方夜譚。
so物理學的方法論不適合證券投資。

喜歡Big Data的人書讀少鳥,這是我的看法。另這東西的討論不來錢,到此為止。只是思考的樂趣。

PermaLink: https://articles.zkiz.com/?id=33461

Ztrader – the Data 港股博弈

http://clcheung.wordpress.com/2013/10/01/ztrader-the-data/

Oct 1, 2013

Recently busy in developing a new TA system, named Ztrader, which targets high performance, fast new indicator development, fast real-time scanning, portfolio management and etc. Later I will share more about this new system’s capability and new features.

 

===

 

The Data

 

Ztrader is the 3rd system I developed for stock trading. The reason to develop my own system was backed to few years ago. I’ve attended Mr Sky Cheung’s training course, at that time, my TA knowledge was zero and I was a “simple FA” guy. The course did only teach very basic TA skills which likely you can learn by yourself from reading several TA books in library.

 

As discussed previously in http://clcheung.wordpress.com/2012/06/09/%E7%B3%BB%E7%B5%B1%E6%96%B0%E5%8A%9F%E8%83%BD%EF%BC%9A%E7%B5%82%E6%A5%B5%E5%9C%96%E8%A1%A8%E5%8A%9F%E8%83%BD%E6%9B%B4%E6%96%B0/

in 除淨因素, the dividend effect was not count in most free service providers.

 

The first good thing I learn in the course was : TA system depends on good data. The software using at the course was Metastock, which is a simple to use software for beginner. So I subscribed Metastock data from a local vendor. Unfortunately, the data provider regularly gave wrong data in a delayed manner. It was frustrating. Also, I was trying to build cross market data functions, like sectors and market indicators, which seems not easy to do so at that version of Metastock. Metastock’s capability also imposed quite a lot of limitations and it was difficult to program complicated indicators in the environment. (I am not sure if the latest version of Metastock has any improvement.)

 

Although my system seems fixed the data issue, which I do ex-dividend, split and merge, and stock code migration, ex-right, board switching, etc., properly. The data issue is still not completely solved. Re-quote the example here:

最後再談談除淨因素。先看題目是有一個股票大派股息:

Day 1: 股價 $95

Day 2: 股價 $100 股價上升 5%+$5 (5.26%)

Day 3: 股價 $10 ,因為派息 $90

Day 4: 股價 $5 股價下跌 50%-$5 (-50%)

 

How to handle this dividend payout is complicated. Now consider again another example:

 

Day 1:

Close $100

High $105

 

Day 2

Price +$1

Close $101 +1%

High $106

 

Day 3

Pay $50 Dividend, Price close at $51

Close $51 0%

High $56

 

Day 4

Price +2

Close $53 +3.92%

High $57

 

Day 100

Price from Day 5 to Day 100 +$53

Close $103 +100% relative to Day 4

High $110

 

Day 101

Pay $100 dividend, Price close at $6

Close $6 +100%

High $7

 

This stock totally paid $150 dividend. If the dividend is not excluded from the historical stock price, all TA indicators will be useless. If dividend is excluded from the historical stock price, you will see the historical price goes below zero. This makes quite a few indicators failed or information changed. For example, the ROC indicator. Failing means back-testing of the effectiveness of the indicators or any trading system failed.

 

To deal with the situation properly, a new delta adjusted method will be used, which worked like the current “price comparing” function. This delta adjusted method assuming the dividend of a stock can be re-invest on the stock immediately. Not 100% correct, but makes the system more practical and almost any indicators will be functioned as expected.

 

To illustrate with a practical case, consider 2088 this year, it paid 0.75 sp dividend on July 4:

 

from Google:

 

image

Definitely the chart is not helpful, it only tags a special dividend there.

 

from aastock:

image

 

 

the chart data seems correctly ex-dividend. However, the ROC indicator got confused. Also, aastock system does not showing negative prices.

 

From my existing stockmaster system:

image

same problem as in aastock, ROC indicator is confused.

 

In the new Ztrader system, the data is delta adjusted accordingly, instead of one-off ex-dividend:

 

image

ROC is correctly displayed. The rate of return on this stock can be much better calculated in this system.

 

In fact the Stockmaster or aastock ex-dividend method changes also the historical volatility. The candle height relative to the closing price are amplified by the ex-dividend effects.

PermaLink: https://articles.zkiz.com/?id=77003

談比亞迪、tsl及回覆@data 大道至簡-榮令睿

http://xueqiu.com/1471745203/28926545
幾年來,我的言論都有意迴避出現tsl,陷入口水戰沒有意義,未來得靠市場決定。回答你的問題前。我先重複一下自己的觀點:
1、很長時間內,對於個人市場,插電式混合動力汽車才是主流,這由電池成本、充電方便性、用戶使用習慣、用戶體驗等已經決定。插電式混合動力車市場規模會是純電動車的幾倍甚至幾十倍。目前來看,從公開渠道,還沒有看到的tsl在插電式混合動力車方面的投入和產品。
2、作為汽車,更具有耐用消費品屬性,而不是快速消費品屬性,成本至關重要。汽車是家庭裡的大宗購置品,不是「賣幾個腎」就能買到的,而蘋果手機對於普通小白領來說一個月的工資或者「賣個腎」就能買到,所以高性能的蘋果手機會爛大街,高性能的汽車不會,80%以上吹捧tsl車的人可能是買不起其產品的,那他們買什麼?在其他條件相差不大的條件下,電動汽車銷量規模也會由成本以及終端產品的價格來決定,拿一個19萬補貼後13萬的秦跟70多萬的tsl ms比外觀內飾有什麼意義?至少得拿一個價格是其一半的比亞迪汽車去比吧,只是像「漢」這樣的車還沒有造出來。比亞迪的產業鏈整合、自主技術開發、成本控制是有目共睹的,不管現在還是遙遠的未來,比亞迪的成本控制都會遠遠低於tsl。

簡單回答如下:

1、相對於tsl,秦的外觀、以及唐的外觀都不夠炫。誰都承認的。假設比亞迪要做出更炫的秦、更炫的唐,重新設計、開模、測風阻、碰撞測試等,推出的時間分別比現在晚2年,我們大家覺得是好的策略嗎?前所未有的發展機遇都會錯過了!這不是危言聳聽,看看比亞迪奔馳的騰勢用了多長時間,4年!比亞迪唐去年下半年才立項,今年4月就擺在了我們面前,5秒、4驅、2升油!那些叫囂著比亞迪重新設計外形的人,真的以為自己比廠家管理層還聰明嗎?

2、宣傳方面,tsl當然有優勢,看musk是誰,當然是厲害的。外觀上面一條中已經說了,內飾你看看現在的S7以及年底或者明年量產的唐,就會感受比亞迪飛速的進步了,再說tsl內飾被批判的也不少。比亞迪用戶群怎麼著也不是定位為迪粉,我說tsl還定位為特粉呢。前期買入當然以粉絲買入為先,都是這樣,如果今年比亞迪秦能賣出15000輛,那它的粉絲也忒多了。比亞迪目的是「普世科技」,用戶定位範圍要超過tsl幾十倍、幾百倍,是年輕人、是普通老百姓。比如現在的秦,當然還會有定位為高端的電動汽車,將來也會有獨立的品牌,誰也不比誰傻的。秦、唐會是絕大多數的唯一一輛車,而tsl不是,你剛好說反了。對了,比亞迪從秦開始,對新能源車的宣傳越來越成功,像媒體試駕、秦戰列國等,用戶知曉率前所未有的提高,我開福特的鄰居說你不知道嗎比亞迪出了個跑的飛快的車,我說我知道啊我去開過了,還有像你也知道啦。

3、質量與消費環境。比亞迪質量以前出過差錯,現在口碑還正在恢復,是這樣的,比亞迪應且行且珍惜。外觀和內飾是很重要,不是最重要,最重要的技術創新、質量控制、成本控制等。但比亞迪要向中高端突破,是必須要過外觀和內飾這一關的。我認為純電動車才更依靠政府補貼,但純電動車以公交為主,政府也將願意並有能力長期補貼。對於純電動車,個人市場假設不補貼,中國目前的這些新能源汽車,先死的肯定不是比亞迪,但都不會有好的結果,tsl可能好些。關於鼓勵政策的可持續性,就中國面臨的情況,石油匱乏對外依存度達到60%以上,天然氣不足甚至連出租車都仍在燒油,未來10年汽車保有量要從1億多輛發展到5億輛,中國不鼓勵發展電動車還能鼓勵發展什麼車?並且鼓勵的手段也不僅僅只有財政補貼,李不是剛說了:還可以減稅、對燃油車增加排污費等來補貼電動車。並且很多城市迫於霧霾原因,可能越來越多對燃油車限號,對電動車不限。受比亞迪定位中產偏下,這是短期的也是沒有辦法的,但高性能車生產出來,才有可能定期高端,可以等等看,不用擔心。

4、你說雙手互博,除了像tsl這樣的車企外,比亞迪的包袱是最小的,在電動車的投入和決心也是最大的。比亞迪當年f3dm上吃過你說的虧,外觀和內飾跟燃油車沒有區別,人家都不知道你開的是新能源車。但從秦開始比亞迪已經開始明顯的改變,甚至不惜採用誇張的前臉和尾燈,跟比亞迪以前的車完全不同。別再提側面、C柱、內飾硬塑料等,原因我已經說過了。比亞迪是最不怕左右互博的,因為插電式混動車上了規模後,他有能力把傳統車價格定的毛利很低,秦和速銳的定價模式只是剛開始。

馬斯克的批評是不是中肯,我就不評價了。產品不光是內在的技術,還有外觀內飾等外在的設計,市場定位、營銷策略等也許一樣重要的部分,這都沒有錯的。但我更希望把技術、質量的內功練好了,tsl和比亞迪都不要再著火。比亞迪肯定會推出一些面向高端人群的提升產品檔次的車,並且可能採用新的品牌。

若有言辭不周,敬請包含,只是借寶地,不對個人。呵呵,你還圈了我的,多交流。

===========================
馬斯克的批評非常中肯!
"....我覺得從產品層面他就是不夠好,你要先是個好產品吧..."
比亞迪的產品定位,產品外觀,產品宣傳,與TSLA的差距確實很大,所以他需要政府支持(當然,TSLA在美國,政府也支持,但在中國及歐洲,至少現在還沒有)。
TSLA的高端定位,產品的互聯網概念,內飾及外觀設計,等產品在目標客戶的號召力是空前的,很多有錢的用戶以擁有TSLA為榮,這是產品設計及宣傳的終極目標。
比亞迪的短板:
1、外觀不夠炫。這是第一印象。
2、宣傳不夠吸引人,定位有偏差。不注意外觀和內飾,以技術指標吸引的主要是迪粉,但這是有限的。這其實是產品定位的偏差,迪粉是理科男、自主創新、技術控、中產人群的一個分支和交集,數量太少,客戶群基礎有限,支付能力也沒法像TSLA的消費人群那樣基本是第n輛車。
3、質量與消費環境。質量以前出過差錯,現在口碑還正在恢復,因此外觀和內飾更為重要。如果策略是迪粉帶動,說下一步電動車面向的是中產偏下(僅指消費能力)的人群,但比亞迪在外觀、價格、質量的穩定、停車、充電及修理等這些消費環境方面又都不確定,唯一的依靠是政策的支持,這就存在很大的不確定。
4、雙手互博。電動車與傳統車面向的都是中產偏下(僅指消費能力)的人群,這些人群的消費能力基本就是一戶一輛,那麼電動與傳統在外觀及內飾上沒有區別(相對低端),將必然出現雙手互博局面。
因此,馬斯克的批評非常中肯!,產品不光是內在的技術,還有外觀內飾等外在的設計,市場定位、營銷策略等也許一樣重要的部分,比亞迪必須推出一些面向高端人群的提升產品檔次的車,哪怕不賺錢,即所謂的鍥型戰略。
否則概念和政府支持過後將會又是一堆現實的困難。
PermaLink: https://articles.zkiz.com/?id=96855

Big Data大戰香港仔撼贏阿里大盜

2017-06-08  NM

阿里巴巴的馬雲、順豐的王衞、以及騰訊的馬化騰,三個人的住屋反映三種風格。馬雲買入山頂白加道前比利時領事超級豪宅,要大地在我腳下;王衞住九龍塘喇沙利道的自建獨立屋,布滿天眼,守衞森嚴;而馬化騰則喜歡石澳大浪灣道的寧靜,從華光航運的趙世光手上接貨。馬雲和王衞這兩大巨頭,近日終於正面爆發了衝突。順豐與阿里旗下淘寶的數據接口突然關閉,買家不能追蹤貨物最新位置,賣家亦無法確定貨物是否已被接收,交流大受影響。事件驚動阿爺出手,強調要「講政治、顧大局」,雙方暫且握手言和。據馬雲的身邊好友指,近年他猶如「阿里戰士」上身,東征西討,霸道成魔。偏偏砵蘭街起家、已進身香港第五大富豪的王衞,已經不是靠馬雲搵食,被逼埋牆角終於反擊,企硬落馬雲面。

坐擁十二萬人速遞大軍的順豐,總部在隔岸深圳;老闆王衞在一○年,以三億五千萬元買入九龍塘喇沙利道五十五號地皮,方便中港兩邊走。項目於三個月前以七千多萬元補地價,現已建成三層高獨立屋。記者在現場視察,發現這座外形如一個「方箱」的建築物,四角布滿天眼,門前還種了多棵大樹遮蔽大屋,守衞相當森嚴,反映主人極之小心謹慎。記者在週六、週日登門拜訪,屋內菲律賓工人並沒露面,只透過對講機說王衞不在家。《壹週刊》拿得其設計圖,發現全屋竟有十間睡房,四個主人房,總共有十五個廁所!另外有自修室(Study room)及健身室。記者從高處往內望,發現在大門內,放有一座華麗金色的巨型四面佛,在天台,則放了兩個練拳用的沙包,以供發洩。據知私生活神秘的王衞,已經結婚,妻子在香港科技大學畢業,入了順豐工作並結識王衞。上週六,在王衞大宅,便有一名年輕男子拿着籃球出入,樣子與王衞極為相似。

割斷網友命根

上星期,王衞突然主動出手,讓外界終感受到他的速遞大哥權威。上週五順豐與淘寶數據接口突然關閉,互相指摘對方先切斷信息接口,令淘寶的買家、賣家,不能即時追蹤及確認貨物的位置及資訊。事件震撼網界,而對一些喜歡在淘寶購物的中環OL來說,影響頗大,因為她們淘寶購物後,都習慣留意貨物運送資訊。在中環做文職的阿菲表示,上週五才知道他們系統出現問題,查不到貨物資訊,「平時會上網查閱,會追蹤貨物嘅check in 號碼,因為可以知道貨物幾時到去攞貨。」現在不能查閱,她說十分不便,「都好麻煩,如果急用都好麻煩,因為查唔到。」查閱貨物資訊這麼重要?「都頗重要,因為如果貨物較貴重,都希望運送過程安全。」她又說,不時會在淘寶購物,「都經常買一些細小嘅物品,衣服,配襯用品,電腦用品同書本。」並且多數選擇順豐運貨,「因為順豐較快和有效率,其他公司會慢一點。」另外,有OL又抱怨,現在順豐很多體積大的貨品都不收,連狗尿片都不可以,鐳射唱片又說有機會侵犯版權,所以有可能因為這情況激發雙方決裂。

菜鳥vs豐巢

順豐與阿里決裂的關鍵,是規模已成熟的順豐,已不願順應阿里的所有要求。阿里於一三年成立了物流網「菜鳥網絡」,旗下軟件可以查詢及寄出快遞,支援網購如淘寶、天貓、京東、蘇寧等包裹跟蹤功能。追蹤物流對網購平台來說相當重要,阿里就曾因物流慢及快遞服務差等原因,收到多次投訴,有用戶甚至因此轉用淘寶主要競爭對手京東。當時順豐及部分快遞公司,都「被迫」加入菜鳥成為小股東,以免得失阿里這個大客。不過「菜鳥」愈來愈壯大後,馬雲的野心才昭然若揭。菜鳥根據天貓、淘寶等平台的交易及銷售數據,建立一個數據庫,稱為「天網」;在不同地方及物流區設有的倉庫,稱為「地網」。透過天網跟地網配合,菜鳥可以利用數據,調配存貨及物流,提升效率。例如利用大數據,事先分析及預測買家需求,並提前要求店主準備存貨,讓買家在實際發出訂單前,已把貨品送往買家附近的中心及網點,大大縮短物流時間。搭通了「天」、「地」線,中間的物流速遞,亦即是順豐現在的業務,自然亦是馬雲的囊中物。二○一五年,淘寶透過運用「菜鳥」收集到的訊息,在「雙十一」光棍節,以一日半時間便發了二點七億個包裹。同年順豐與部分行家,成立快遞櫃平台「豐巢」自保,抗衡菜鳥,雙方搶佔物流「最後一公里」(即把貨物從倉庫送到消費者手上)。去年三月豐巢和菜鳥合作,菜鳥提供買家手機號碼資料給豐巢,豐巢則提供快遞櫃資訊給菜鳥,互相交換Big Data。不過,今年三月傾續約時,菜鳥提出豐巢要回傳所有包裹、包括非淘寶系訂單資訊給菜鳥,結果「豐巢」斷然拒絕,引發今次風波。

試底線

順豐王衞拒絕與馬雲分享數據,企硬唔俾面馬雲。不足一日國家郵政局便要出口調停,強調雙方要「講政治、顧大局,尋求解決問題的最大公約數」。後來更召集兩方高層,要他們連夜到北京開會,最終達成共識恢復數據交流,Big Data大戰才暫且平息。香港中文大學亞洲供應鏈及物流研究所所長張惠民分析,這場爭議明顯是圍繞數據,菜鳥認為順豐在其「底下做生意,應該把所有數據俾晒我」,所以試其底線。數據是錢,他舉例,「跟蹤貨船的路線下,對天氣的預測可能比天文台還要準確。」在未來,數據不能以錢買到,只能以數據交換數據。王衞的反撲,獲騰訊的馬化騰、京東的劉強東,網易的丁磊,以致一眾網友讚好。王衞亦的確不用買馬雲的賬,根據快遞市場份額,連順豐在內的五間快遞公司,佔市場逾六成,排列為圓通(14.67%)、中通(14.25%)、申通(12.42%)、韻達(10.31%)及順豐(9.53%)。順豐市佔率雖然最小,但單價高,毛利亦最多(通達系平均每單毛利降至一元以下,順豐仍可維持在四元以上),令其利潤冠絕全行。順豐的核心優勢在於固有的商務快遞,即為寫字樓客戶傳送高價值文件及物品,而非網購層面,客戶已包括蘋果、華為、小米、Uniqlo等。

砵蘭街起家

身為「香港仔」的王衞,在內地出身,但七歲已來港,持有非「R」字頭的香港身份證。他於砵蘭街數百呎地鋪起家,初時只有六人,專替企業運送信件到自己鄉下順德,王衞亦要親自中港兩邊跑,更以割價搶灘,「人哋收七十蚊一件貨,順豐收四十,靠量拉低成本,搶了不少生意。」街坊對他印象深刻,指他幾乎每日凌晨已經在店內工作,做到晚上才離開,「以前條街無咩人行,佢開咗鋪之後,多咗貨車上上落落,跟住其他物流公司、足浴都相繼開鋪,帶旺成條街。」惟順豐生意愈做愈大,貨車及員工經常霸佔整條街,惹來鄰鋪不滿,「嗰時成條街啲鋪都唔鍾意佢,我哋想停車都無位,惟有向警察投訴,成日有鐵馬嚟趕車,直到順豐搬走至解決。」為擴大勢力範圍,王衞拉攏中港的行家加盟,每區有判頭負責開鋪,「佢寧願賺少啲,請班判頭返嚟賣命,幫佢不斷設立網點。」但各區諸侯乘機搵着數,某些大區因勢力坐大,竟自行開檔搶生意。九九年王衞見情況愈趨嚴重,決定買回所有網點,足足三年,才統一版圖。至今,順豐已經是年收入五百多億的大企業,並於今年初於A股上市。王衞持六成半順豐。內地的大企業亦難免有國家隊的身影,招商局及國開金融間接合共持有順豐近一成三股份。

馬雲輸氣度

另一邊廂,馬雲被指缺乏氣度,其身邊人指他近年變得太霸道。馬雲對操控王衞手頭的物流訊息極為着緊,淘寶的前高層,現職Mydress董事的Leon說,物流正正是決定阿里巴巴生死的其中一環,「做電子商貿有三大環,第一是平台本身的資訊流,第二是現金流,第三是物流,其實缺一不可。」淘寶雖然貴,但系統較清楚、員工有穿制服形象較好,「而如果計快遞公司,順豐我估係香港最貴。內地都偏貴,例如廣州寄廣州,十蚊以下,但順豐十幾蚊。百分比計接近七十幾八十。」馬雲的管理哲學非常動聽,說企業管理如同太極一樣,陰和陽,物極必反,什麼時候該收,什麼時候該放,什麼時候該化,什麼時候該聚。然而員工競爭極大,為免被辭退、亦為高薪厚職極度進取,阿里經理級別年薪三十萬人民幣起跳,更能分得阿里2400股(相等於二百萬港元)。有員工需要連續十二天上班,在重壓下患上中度抑鬱症;有孕婦因子宮大量出血死亡,家屬指女兒為準備假期工作交接,凌晨十二點還在工作,過勞引致死亡。雙十一備戰期間連家也不能回,公司在門外空地準備好數千帳篷、被鋪,讓員工安心工作至凌晨,故他們有「阿里戰士」之稱。阿里巴巴的員工有兩成人會被評為優秀員工,這些員工的收入有頗大差距,亦是另一造成「阿里戰士」的原因。淘寶的前高層,現職Mydress的Leon說大家對公司都很有歸屬感,希望公司賺到更多錢,分紅都多一點。

霸氣之形成

馬雲霸氣的建立,亦在於其政治影響力。馬雲一直被視為江派人物,阿里巴巴於美國上市的招股書中,發現一批江派公司持有大量阿里股份。其中有江澤民曾孫江志成創辦的博裕資本,江派的中信集團、國開金融、中投公司共出售二千六百萬股,套現近一百四十億。中投公司出售後仍持有阿里巴巴集團總股數的2.1%。曾是江派入幕之臣的馬雲,近年多次陪同習近平外訪,馬雲都緊隨其中,又被收編為習派。作為向新主習派「洗底投誠」的政治籌碼,他豪擲過百億人仔,堆砌傳媒王國,習近平熱愛足球,馬雲便投資恒大足球投其所好。習近平亦有依賴馬雲的地方,特朗普主張美國優先,狠批中國搶走美國的職位,要帶回那些職位,對中國毫不客氣。馬雲成了中美的窗口,今年初馬雲獲特朗普接見,討論了支持小商家的發展,尤其是美國中西部地區的小商家。王衞與馬雲,都有國家隊背景;在這場緊湊的數據大戰中,兩人將繼續且戰且行。

馬雲金句

1. 你窮,是因為你沒有野心。2. 上當不是別人太狡猾,而是自己太貪。3. 當你成功的時候,你說的所有話都是真理。4. 因為信任,所以簡單。5. 我從太極中悟到:事情並沒有好與壞,關鍵是看你怎麼看。6. 每個人都有成功的機會,就看你給不給自己機會。7. 一個好的東西往往是說不清楚的,說得清楚的往往不是好東西。8. 想成功就要瘋狂一點。9. 在未來人們不僅關注力量和力氣,他們更注重於智慧,善良,責任。10. 首富生活很痛苦,人人都圍着我的錢轉。

撰文:孫樂祈、王敬蓮攝影:財經組協力:李海澄[email protected]

PermaLink: https://articles.zkiz.com/?id=251927

Future Data Group Limited (GT View) (8229) 專區

1 : GS(14)@2016-03-23 02:16:03

https://www.google.com.hk/search ... 0.7.537.Gio8hTznnso
2 : GS(14)@2016-03-23 02:16:25

http://www.hkexnews.hk/APP/GEM/2 ... ls-2016032103_c.htm
招股書
3 : greatsoup38(830)@2016-03-26 02:03:01

1. 韓國公司,搞資料整合及維護服務
2. 韓國業務佔絕對部分,得一個馬來西亞項目
3. 1,400萬以上項目下降,反之有增加
4. 客戶增長,集中度不高
5. 供應商較集中,但不算非常集中
6. 8031、8086 前老闆投資
7. 上市前派過1,560萬股息
8. 2015年搞緊項目有1.2億
4 : greatsoup38(830)@2016-03-26 02:05:05

9. 風險: 項目性質、歷史業績不可當未來、科技技術、人、依賴韓國,特別是首爾、分包商、外匯、項目延遲、擴張、競爭、地域
5 : greatsoup38(830)@2016-03-26 02:07:33

10. 1997年韓國成立,在努力取得客戶下,員工人數由5人增至167人,引入資金,然後香港上市
6 : greatsoup38(830)@2016-03-26 02:36:56

11. 仁川機場、韓國軍方都用他們系統
12. 經常客戶佔比好高,佔約75%
13. 好多客都是政府機構,約佔25%,其他都是私人機構
14. 銷售團隊有40個成員
15. 中標政府的機率好高
16. 90日數期付客
17. 供應商美國多
18. 分包一年都7千萬,佔銷售額12%
7 : greatsoup38(830)@2016-03-26 02:38:08

19. 顏志強:621、8031
20. 王錫基:8031
21. 倪潔芳:1280、2100、940、1450、1515
8 : greatsoup38(830)@2016-03-26 02:39:42

22. 立信德豪
23. 盈利降38%,至620萬,3,200萬現金
9 : GS(14)@2016-06-29 09:39:14

http://www.hkexnews.hk/listedco/ ... LN20160629026_C.pdf
招股書
PermaLink: https://articles.zkiz.com/?id=298543

Next Page

ZKIZ Archives @ 2019