📖 ZKIZ Archives


大數據爭當“選股聖手”

來源: http://www.infzm.com/content/109655

各大互聯網社交平臺上的用戶行為大數據,成為投資股市最新鮮及時的決策參考因子。 (東方IC/圖)

每個平臺的用戶都像是亞馬遜叢林里的“蝴蝶”,他們扇動翅膀,可能影響到股票走勢。

如今,這些沈澱的數據試圖預測股市“風口”,不過,信息的傳播是否足夠自由是其最大挑戰。

BAT再度碰頭,手中武器未變,背景換成了全民熱捧的大牛市。互聯網巨頭們祭出“大數據”這一殺器,試圖為變幻莫測的股市“風口”提供路標。

自2014年9月份以來,新浪財經、百度以及阿里旗下的螞蟻金服陸續與基金公司、指數公司合作,發布相應的大數據指數基金產品。據南方周末記者了解,騰訊也正在與某基金公司洽談合作,出品自己的大數據指數基金。

此刻A股瘋牛暫歇,走出了普天同漲的熱鬧局面之後,個股開始顯著分化。

資金卻不改饑渴。從機構到散戶,每一筆資金都在急切地尋找著可能將爆發的領域、題材或者概念。但前往“風口”的路並不好走,市場里的一個小噴嚏,都可能令投資人措手不及。

以上與互聯網公司合作的基金無一例外地宣稱,其利用各自互聯網平臺的大數據優勢,能夠更及時地感應到輿論、市場或者行業的情緒變化,並在一個更短的周期里迅速調整決策,以獲得更穩定優質的回報。

眾神齊聚,剩下的問題只有一個,大數據真的能幫你避開風險,並如願找到“風口”嗎?

用“衛星”監控行業

抓住社交平臺的總體情緒,似乎就抓住了許多事情的走向。

按照傳統投資理論,一只股票的價值事實上在於其公司未來的盈利能力,以及市場對該能力值的綜合預期。“為了盡可能合理地做判斷,以前的投資人都要看財報,派專人去公司調研,或者跟他的上下遊供應商客戶去交流。但等到財報來了,數據至少已經滯後一個季度了。”螞蟻金服相關人士對南方周末記者說。在他眼里,大數據做的事情,就是實時監控行業情況。

擁有數百年悠久歷史的金融行業對於各實體行業里公司的估值事實上已經有了一套成熟的方法論,大數據並沒有改變這個方法論,而是為其帶來了最新鮮及時的數據。

“美國有一家投資機構幹了一件事兒,用衛星拍各大商場的停車場的車的數量,推導進超市買東西的人的頻次、密集度,來分析快消行業的景氣程度。”上述人士對南方周末記者說,“但是成本太高,現在這麽多的交易在網上進行,電商數據就可以起到這個衛星的作用。”

在“中證淘金大數據100指數”中,螞蟻金服的貢獻是一個叫做“行業景氣指數”的因子。影響這個“行業景氣指數”的變量包括行業價格、行業活力、行業供需等,這些數據都能夠從電商平臺的數據沈澱中獲知,計算方法則根據行業不同各有差異。

每天,經由阿里系平臺發生的上億筆支付都將匯總到相應的“行業景氣指數”中,經過脫敏後,對下個月的淘金100指數標的組合產生影響。這似乎是“蝴蝶效應”的一個微觀模型:每一個參與網購的用戶都像是亞馬遜叢林里的“蝴蝶”,他們扇動翅膀,可能影響到的是整個行業的股票走勢。螞蟻金服也在其內部PPT上寫道,“收益源於你——沒有你的行為就沒有淘金100大數據,作為聰明的消費者,定會投資自己的行為,分享原本就屬於你的收益。”

從牛市中的表現來看,各只大數據指數基金都十分搶眼,多有超過大盤的表現。2015年第一季度,“中證淘金大數據100指數”收益率41.48%,同期的上證指數上漲15.01%。

這樣的嘗試在海外早有先例。2011年5月,對沖基金公司Derwent Capital Markets發布了世界上首只社交媒體對沖基金。它實時接收Twitter等社交媒體上的信息,將所有用戶產生的與目標股票公司相關的文字編碼為積極、平穩和消極三個情緒指標,再根據情緒指標進行投資決策。這只對沖基金在交易的首月就實現了遠高於其他對沖基金平均數的收益率。

背後還不乏學術界的實證研究。

美國印第安納大學約翰·博倫(Johan Bollen)等人2011年3月發表的研究《Twitter mood predicts stock markets(推特情緒預測股票市場)》稱,Twitter上的發言所體現的情緒能夠對股票市場有預測作用,如果合適地度量投資者情緒,進而可指導投資。

如果按照更細的情緒狀態編碼推文,並與社會事件做對比,Twitter甚至會像一個活生生的人一樣——在大選前一日開始緊張,在大選日當天變得冷靜、活力、友善、幸福,在大選日後又回歸平常;在西方傳統的感恩節當天,整個Twitter洋溢著濃濃的幸福味道,過後又恢複正常。

這些研究者還發現,同樣的方法在預測電影票房、選舉結果等方面都有不俗表現。還有類似的論文對google的搜索日誌進行研究,發現對股票的搜索熱度同樣對股市有預測性。

廣發證券做過一個更簡單的研究。其統計了百度新聞下的滬深300指數成分股的新聞數量,上市公司的新聞突然增多就視為利好,反之視為利空。對2011年至2014年5月2日的歷史數據回測發現,僅通過監測新聞的多寡,就可實現37.03%的年化收益,而同期滬深300指數卻下跌了16.24%。

抓住社交平臺的總體情緒,似乎就抓住了許多事情的走向。但遺憾的是,研究者們也意識到,大數據對於會沖擊金融市場的突發事件仍舊無可奈何。

同一個世界,不同的入口

不同的數據來源特性也決定了大數據的不同擅長領域。

大數據在這一領域的應用,使得每一個平臺的入口地位顯得更為珍貴。有入口才有數據沈澱,有了數據沈澱才有了一切可能。

不同的數據來源特性也決定了大數據的不同擅長領域。電商是阿里當仁不讓的王牌,於是電商消費數據就成了預測的依據之一。不過由於數據入口的性質不一,每顆“衛星”能監測到的範圍也各有不同。

以阿里的淘金100指數為例,其官方資料稱,電商數據涉及三十余個行業,覆蓋了70%的上市公司,但顯而易見的是,鋼鐵、保險、基礎設施建設等行業則成了電商數據難以覆蓋的領域。

涉獵面更廣的搜索引擎則在此有更大空間。上海交通大學互聯網學者魏武揮在鈦媒體的專欄文章中分析到,螞蟻金服基於交易流水的數據,清洗工作量相對小,但覆蓋面對經營者端(to B)的行業有點吃力,“百度百發基於搜索的指數,能覆蓋到幾乎所有的行業。數據源強大但過於碎片,數據清洗工作量大。”

相應地,騰訊在社交和娛樂方面的優勢,也可能在後期展現,但是同樣面臨數據結構化的難題。盡管還沒有正式推出真正意義上的大數據指數產品,騰訊在炒股APP上早有布局,騰訊財經中心金融產品組負責人張軍對南方周末記者表示,“騰訊自選股有五千萬以上的用戶,某一類人加入或者剔除了某一只自選股,也很能說明關註度的變化。大數據不僅僅是(財經報道)文章,還有很多其他指標。”

新浪財經給南方周末記者的回複中顯示,他們提供大數據支持的南方大數據系列指數在決策時加入的參考因子包括海量的財經資訊,以及日均過百萬條的財經博文等。

在公共領域幾乎具有壟斷優勢的新浪微博則是他們的另一個殺手鐧,5億多註冊賬號以及與這些賬號直接相連的超過5萬個應用,產生巨量的用戶行為數據,反映市場情緒。“除了搜索量和關註度,我們還有文本分析與情感判斷,如果一個行業在新浪上的搜索和關註度特別高,我們會進一步判斷與這個行情相關的資訊和用戶內容,區分出是點贊,還是吐槽。”

易方達基金副總裁陳彤剛從矽谷考察歸來,考察的對象也是大數據。他的感受是,擁有數據源一方很容易變得更有影響力——當數據的“烹調方法”被學會之後,占有絕對原材料的一方就理所當然變得更強勢。魏武揮甚至“腦洞大開”地預測,下一個做大數據指數的是搜狗,因為其輸入法的數據沈澱可以輕易獲知人們正在用的詞是哪些。

陳彤問美國的數據分析公司,如何保證擁有大數據的公司會願意提供數據來合作。“一個可能就是,讓那些大公司成為你的股東,但是這樣是不是又會影響到你分析東家的數據時的客觀性呢?”易方達的大數據產品也早在醞釀之中,不過在數據穩定之前料不會示人。

博時基金對媒體稱,螞蟻金服行業景氣指數是其獨特的信息源,也是編制指數的三大因子之一,有獨特作用。根據博時基金測算,螞蟻金服行業景氣指數在整體所有因子中的權重大約是在1/4到1/3左右,這也是隨著不同年份和不同市場的情況變化的。

接近博時基金的人士透露,加入大數據因子,給指數多帶來了大約30%的超額收益。另兩個因子,是博時基金傳統的財務因子和市場驅動因子。

極其類似的是,新浪與南方基金等公司合作發布的南方i100大數據指數的三大因子也包括傳統的財務、市場驅動因子,與螞蟻金服僅有一點不一樣,新浪提供的是投資者情緒因子。與Twitter類似,新浪微博也可以很好地體現市場情緒。但是一個重要的前提是——信息的傳播足夠自由。

大數據是“長跑選手”

大數據投資,不僅需要長時間的實踐來檢驗模型,也更傾向於做長期的理性投資。

大數據在投資策略上的應用才剛剛上路。

“大數據處理需要一套較為複雜的系統,通過回歸分析、因子分析等方法把重要的變量篩選出來。目前在中國,完全基於大數據的(策略)還沒有。更多時候,大數據是作為一個重要因子,給事物分析提供一種參考。”陳彤說。張軍也持相同觀點,“大數據因子只能占到整個選股策略中的部分權重,如果你的大數據是100%的權重,業績想必會很差。”

廣發基金大數據部副總經理季峰對百度成功預測高考作文題印象深刻,通過大數據篩選出的高考作文主題和關鍵詞,在2014年命中了2/3的高考作文題。2014年的巴西世界杯期間,百度又成功預測了八強和四強球隊。

不過季峰發現,即便能夠掌握到人們在一條新聞上停留的時間長短,選擇股票還是沒有這麽簡單。“暴風科技連拉37個漲停,可能當時是市場關註度最高的,但是僅憑這個指標把它選進來,可能就剛好高位接盤了;工商銀行在搜索行為中的絕對存量排名靠前,但是也難以被選入投資組合,因為它的股價表現大家也都能看出來,我們並非單純依靠一兩個指標去選股。你怎麽去處理這個數據,怎麽翻譯,是一個核心的問題。”對於公募基金而言,價格異動、風險偏高都會成為股票進入投資組合的障礙。

數據的波動過大,甚至可能會被作為數據噪點處理,這就要對算法進行進一步調整。在市場的檢驗中,模式識別、機器學習,乃至人工調整都將不斷優化既有的模型。“至少要經歷一個完整的股市周期,我們才能比較完整地看到這種策略的有效性。”張軍說,巴菲特有一個著名的比喻是,只有在退潮時,你才能看到誰在裸泳。

從這個意義上說,大數據是一個“長跑選手”,不僅需要長時間的實踐來檢驗模型,也更傾向於做長期的理性投資。

不過牛市之下,帶有“大數據”字樣的指數基金一銷售起來都是“超短跑選手”。常常等不到第二個申購日,基金公司就不得不因滿額而宣布提前結束申購。

4月22日,由新浪財經與南方基金合作的南方大數據100指數基金於發售當天一日售罄,配售比為27.88%。4月10日,廣發百度百發100E類份額第二次打開申購,僅在百度金融中心的渠道內,4分鐘的申購金額就過億。這次申購只有5億元的額度,每位投資者限額30萬元,卻有20.32億元的資金申購,最終配售比例是24.6%。

陳彤對大數據分析的另一個擔憂是隱私,企業可在個人無法控制或不知曉的情況下,收集、存儲、分析和利用個人數據。他曾在一家著名的數據公司看到,對某個產品的評論可以直接顯示到發言的具體個人。“你可以想象這是多麽恐怖”,後來這家公司在更新版本時就調整為只顯示評論的性質、相應的比例,而不會具體到個人。從其官方網站上的信息源logo來看,騰訊微博和新浪微博已是這家著名公司的數據來源。

出於對商戶數據安全的考慮,螞蟻金服表示,雖然完全有能力,但是他們不會做某一個具體企業的數據。“全部經過脫敏後使用,開放給外部的一些金融機構,”螞蟻金服維他命平臺的孔令西對南方周末記者說,“我們擁有數據,但我們想要搭建的還是一個生態,讓機構入駐進來,然後利用這些開放的數據開發出更多產品。”

依靠這些巨量的平臺入口,每一個用戶在貢獻著自己的行為數據。每分每秒,機器在不斷整理、分析,並以此為人們做出決策參考,甚至直接代替人們瞬時作出重大的投資決定。

虎嗅網的一篇專欄文章據此做了一個大膽的想象,當人工智能通過深度學習等技術能夠控制媒體寫作與輿論的時候,基於輿論的自動決策系統進而敏感快速地作出相應交易,然後輿論被人工智能進一步加強,自動決策系統再次啟動……進入一個循環中。

其調侃地寫道,“A股市場能不能上10000點和人類一點關系都沒有……那時,資本市場已經和整個人類都沒有關系了。”

PermaLink: https://articles.zkiz.com/?id=146538

Next Page

ZKIZ Archives @ 2019