📖 ZKIZ Archives


小窺大數據公司和未來發展 素韻琴心

http://xueqiu.com/2314498984/28117283
@Frankel 那天問起一些大數據公司的問題。去年一年,大數據絕對是Top 10科技類熱門詞彙之一,但熱門的同時也引來不少爭議。一些人認為大數據被吹捧的過熱,神乎其神,似乎是忽然被找到的最後一塊拼圖。

個人認為,大數據本身包含存儲、搜索、計算挖掘等多種技術,不可一概而論。每一個方面的技術都有其難點和高於傳統技術的優點。本人較為熟悉的是大數據挖掘,算是本行,所以本人在總結一些初創數據分析公司的時候會對大數據挖掘方面多做討論。請各位前輩多多指教。

之前被一些IT大公司收購的數據分析初創公司已經有不少,簡單的列表:
1. Twitter收購大數據分析及可視化公司Lucky Sort,將關閉其服務,用於Twitter自己的文本挖掘。
2. IBM公司同意收購私人持有的企業搜索和導航軟件提供商Vivisimo公司,以繼續擴大其大數據平台。
3. 3G門戶母公司久邦數碼宣佈收購移動廣告平台GetJar,CEO鄧裕強稱主要看中其移動數據分析能力。
繼續看受人矚目的獲得多輪融資的一些初創公司:
1. 可視化大數據分析服務ClearStory致力於商業智能,會從不同數據源收集信息並進行分析,供企業做決策參考。
2. Alpine Data Labs 的客戶包括索尼、耐克及巴克萊銀行等大型企業,這些客戶一般都在 Hadoop 方面有了一些投資,這款流行的開源軟件框架可基於商品化硬件來處理大規模數據集,成為各類公司各類海量內外部數據的流行選擇。
3. 實時社交網絡大數據分析初創企業Dataminr幫助企業客戶在微博大海中撈針。
4. 另外可參見這篇報導:
http://venturebeat.com/2013/10/30/big-data-little-companies-these-six-startups-want-to-disrupt-the-data-world/ 
http://strataconf.com/stratany2013


被收購的一些大數據初創公司已有不少,獲得多輪融資的更多。大家有興趣可以繼續在36kr裡搜索大數據、數據分析的關鍵字,就很容易看到,大數據公司的新聞層出不窮。
但是,從這些公司的服務內容上可以一窺這類公司的能力點:
1. 基礎服務(云服務、云計算)
2. 數據整合能力(多來源)
3. 數據挖掘能力
4. 數據可視化能力
上述公司基本立足於某一特定領域(比如醫療、社交、交易市場),然後提供上述四種服務的一種或多種。

個人曾經參與一家國內創業公司,做數據分析(諮詢)類服務,幫助電商和銀行做一些數據服務。當時是努力建造一個國內的「Google Analytics」(不知道大家是否對這個服務熟悉)。其實現在過去了快兩年,可視化服務、數據分析自動報表等服務已經更加成熟,比如國內的由徐小平投資的Pic Labs裡開發的Jigsaw可視化服務,自動根據數據的特徵選擇可視化類型,展現出來。已經在聚美優品等公司投入使用。

提到上面的插話是想引出,除了基礎服務,數據整合能力、挖掘能力、可視化能力是幾乎不可分割的。現在的服務多數是想讓毫無數據挖掘背景的普通客戶也能很快「上手」,看懂數據、理解數據、甚至自己能通過簡單的幾下點擊做出數據分析。
即從大數據中挖掘出未知且有用的知識。

第一點就是整合能力。
查看原图相信大家對於此圖應該並不陌生。互聯網搜索中用戶的行為數據都可以納入其中,可以對用戶的行為進行描述。我們上網的過程中,會產生會話(Session),它和Cookie一起幫助瀏覽器或者說數據分析商來識別,這一段時間內是否是同一個用戶在訪問網頁。所以如果想做好數據整合,到底有多少用戶在使用產品,如何把這些使用軌跡、行為特徵對應到正確的用戶上,都是非常基礎的一步。數據整合有助於瞭解全貌,發現未知的關係,提升預測的準確率。

現在國內一些公司入股合作後,就會出現賬號對應的合作,比如大家熟悉的新浪微博和taobao。通過後台的賬號匹配還有iframe等網頁代碼的內嵌或者用戶的Session、Cookie,就可以將你剛剛瀏覽過的taobao的記錄、通過推薦算法,將推薦產品展示在新浪微博右邊的廣告頁面上。

回到上圖,該模型的數據需要從多個數據源中獲取,並通過整合處理而得到。這個整合的過程,ID對應的過程,並不簡單。


再說數據挖掘。

大數據挖掘的一個非常好的例子就是解決「一詞多義」。熟悉的案例有Apple,Apple既可以代表水果蘋果,又可以代表蘋果公司。當用戶搜索關鍵詞「Apple」時,我們想要呈現出他想搜索的結果。通過過去的研究發現,一個用戶一次只會搜索一種意義的內容,不會既想搜索水果蘋果又想搜索蘋果公司。這種數據挖掘的又叫用戶意圖預測,也叫副主題挖掘(水果蘋果和蘋果公司都是「副主題」)。

當我們過去對於用戶的數據掌握的少的時候,這樣的用戶意圖預測是不可實現的。因為不具有統計意義,同時也很難對應上過去用戶的歷史瀏覽記錄(一個常搜索電子產品的用戶很可能是想搜索蘋果公司)。



接著說數據可視化。

相信現在大家看很多數據分析公司的季度報表已經可以看到各式各樣的可視化,以前的條形圖、餅狀圖都已經是小兒科,詞云等等也見怪不怪。流量圖、熱點圖,各種可視化技術層出不窮。數據和數據之間的關聯、大小關係、顏色關係、性質等等都可以很好的被可視化技術展現出來。

但這種技術,個人覺得,必須向自動發展。一個沒有接受過可視化培訓的普通用戶,很難很快掌握選擇出合適的可視化類型。這也是我為什麼上文說徐小平投資的Jigsaw是我覺得現在較好的國內可視化技術(但是似乎還不支持特大數據,這點不清楚,很少見公開報導)。

之前我記得有一個國外的服務,是可以上傳數據,後台自動選擇可視化方式並生成結果。那個服務我試了一下,用的是兩列的ID-文本數據,結果是速度非常慢,但是選擇的可視化類型還可以。只能說想法很不錯,但是真要做好還是很難的。




最後總結一下:

大數據挖掘關鍵是決定挖什麼,儘量多方面地採集數據;收集數據後,應該儘量將數據整合在一起。大數據也有侷限性,會遇到長尾挑戰。結合事先給定的知識進行挖掘,或許是解決長尾挑戰的一條出路。紐約時報記者能從搜索查詢數據中挖掘出用戶的身份,也是因為用了基於常識的推理。機器要變得具有同樣的智能,需要採用相同的手段。
PermaLink: https://articles.zkiz.com/?id=92705

Next Page

ZKIZ Archives @ 2019