在美的華人創業團隊有一個天然的優勢——龐大的中國市場。一邊講著流利的中文,一邊運轉著美式思維,這些創業者正在絞盡腦汁如何把手頭的技術推送到母國市場。
汪曉宇剛剛結束中國的行程回到美國北卡羅來納州。2013年,他創立大數據分析公司Taste Analytics,在此之前,他是北卡大學夏洛特分校的助理教授,並在美國五大視覺中心之一的夏洛特視覺中心任職。
簡單來說,Taste Analytics的工作就是讓“非結構化數據”最終以圖像的形式輸出,讓有一定文化基礎的人都能看懂這些數據在說什麽。
Taste Analytics創始人兼CEO汪曉宇博士
非結構化數據對應的是結構化數據。在數據分析行業,大致的統計是,世界上約80%的數據都是非結構化數據。此前,數據分析絕大部分是針對結構化數據,比如姓名、性別、年齡這些信息,可以以word、excel等形式呈現的數據。而非結構化數據是更加“莫可名狀”的:它們通常藏在你的聊天記錄、郵件、發布的圖片、語音以及視頻中,數據分析師相信,對它們的研究可以讓你深度了解自己。
在中美兩國科技界對未來技術的甄選中,大數據分析通常位列其中,而非結構化數據又被認為是大數據產業的一個核心。
雅虎是這方面的先行者,包括後來的谷歌。中國企業在這個方面也做了很多努力,2012年官方也成立了非結構化數據管理標準工作組。
“國內現在在這一塊的數據積澱相對較少,現有的數據絕大部分都是結構化的,而美國已經到三七分的比例。”汪曉宇對記者說道。他認為國內對於非結構化數據的分析處在“有概念、無工具”的狀態。
不過,中關村大數據產業聯盟副秘書長陳新河認為,非結構化數據分析在國內已經發展了多年,工具並不缺失,比如,輿情分析、廣告上的應用以及語音識別上的應用,這些細分領域發展得都不錯。
記者也從業內了解到,除了百度、阿里這些數據大戶,一些創業公司及上市公司在這方面都有發力。
2014年,百度大數據部一位從業者曾表示,中國網民每年都會產生很多數據,移動端所帶來的爆發式增長給大數據從業者帶來非常大的挑戰,這些數據有很多是非結構化數據,怎樣把它們的價值分析和挖掘出來,是百度大數據面臨的嚴峻問題。
事實上,在美國市場上,這也不是一項成熟技術。2005年左右,美國開始了對結構化數據的分析,2010年左右才開始重點關註非結構化數據領域。
“2013年時,我們曾經對60多家美國企業的高層進行訪問,發現當時這方面的技術很落後,這就證明了,在非結構化數據分析領域存在非常大的藍海。”汪曉宇說。
他開始朝著這個方向努力。此前,他曾在微軟和富士通的研究院里接觸到了大量文本分析的技術,包括自然語言的處理和機器學習。
兩年之後,Taste Analytics擁有了一批美國金融機構以及世界500強公司的用戶,並且在澳洲、荷蘭開拓了市場。公司提供的業績數據顯示,2015年同比2014年收入增長了6倍,並且季度營收增長速度保持在300%左右。
Taste Analytics回國的第一步是給自己找到了來自於中國的投資者和合作夥伴。
近期,公司獲得來自真格基金和聚合數據領投的pre-A輪投資,融資金額340萬美金,前兩者共投出了220萬美金。
聚合數據是一家在線數據交易平臺,為用戶提供在線數據調用API服務。去年年底時,聚合數據曾經拿到中國文化產業投資基金、京東等合投的2.18億元人民幣的B輪融資,並且宣布啟動國內上市計劃。
“我們的本事是數據源,在數據分析的處理上還有不足,此次投資Taste也是希望補足短板。”聚合數據創始人左磊對《第一財經日報》記者說。公司此前提到將在數據分析、行業解決方案方面加強投入,此番向Taste Analytics投出了100萬美金,並且會為Taste提供國內用戶資源——目前聚合約有35萬註冊用戶。
提高決策效率是每一個企業決策者渴求的事情,但他們絕對不會想每天面對數千條枯燥的數據,即便是這些數據里隱藏了巨大的商業機密。
在大數據的創業中,這就是一個機會,“特別是在垂直領域的數據應用分析,創業公司的機會主要在此,數據源和大數據基建上基本沒有什麽機會了。”左磊認為。
汪曉宇正在試圖抓住這個機會。Taste Analytics對於非結構化數據分析的過程分為三步:第一步是由其開發的Signals平臺通過數據接口幫助企業收集數據(這些接口包括亞馬遜、天貓、Twitter、Facebook、Apple Store等),或是由用戶將數據導入系統中,通過對細小到每一個字的數據進行深度學習,系統快速分析出各種結果信息,並形成預測性的分析結果;第二步,輸出一個簡潔明了的圖像化分析結果;第三步,用戶建立自己的分析模型。
第一步的預測性分析和第二步的可視化結果是Signals平臺的核心。在日理萬機的企業決策者看來,圖像可能要比看word的白紙黑字和excel硬邦邦的表格有趣很多。
客服管理和電商數據處理是Signals平臺的兩個主要應用場景。對於很多公司來說,現在客戶服務的周期越來越長,需要耗費很高的人力成本來處理大量的數據,跟蹤各種奇葩的訴求。汪曉宇希望通過平臺實現對這些客服數據的快速瀏覽和標準化分析,達到預判的目的。
對電商的數據分析是Signals的另一個應用方向。比如,一家深圳做音響的廠商想了解國外競品的市場狀態,將這個競品在亞馬遜上的網址粘貼到Signals平臺上,Signals可以自動分析這款競品的評價、走勢。汪曉宇表示,Signals有自己的爬蟲和數據采集器,覆蓋了美國幾乎所有的電商,目前正在滲透國內的電商平臺。
現在,經常往返於中美兩國的汪曉宇正在和京東接觸,對於非結構化數據分析工具來說,電商平臺海量的商家數據、客戶評論是一個富礦,這也將是他們拓展中國市場的切口。不過,他還會面臨諸多的難題,比如市場對於非結構化數據的整體認知,人們在多大程度上可以信賴這些“莫可名狀”的數據;電商和社交平臺是否願意開放數據給“外來者”。況且,在中國市場上,百度和阿里這些數據大戶所設立的競爭門檻也並不容易跨越。
更多精彩內容
請關註第一財經網、第一財經日報微信號