真正的大數據體現在對大數據的深度挖掘應用。
3月1日,一場圍繞數據挖掘的全球賽事——2017中國國際大數據挖掘大賽在貴州宣布啟動。數年前就開始布局大數據的貴州,如今是全國第一個大數據綜合試驗區,政府數據開放是其重要的試驗內容。
大賽組委會一位負責人稱,相對於采集、儲存,數據挖掘是大數據走向應用,創造價值的關鍵。貴州在拼命開放數據的同時,也在全力進行數據挖掘,就是要盡快“逼出”大數據的價值,讓大數據戰略釋放出大紅利。
同時,在此次大賽啟動會上,來自貴陽、北京、上海、深圳、廣州、杭州等17個國內政府數據開放先行城市的代表,共同發布了《共同促進數據開放及應用行動宣言》。作為大量數據的擁有者、管理者,政府及相關機構應該成為數據開放的推動者、先行者。宣言倡議,厘清義務和權利,做好標準和對接,保障安全和隱私,謹慎試驗,堅定探索,共促政府數據開放,引領數字經濟的嶄新未來。
數據價值輸出新時代
一位曾參與國家大數據行動計劃綱要起草的專家表示,如果把大數據比作石油,那麽挖掘就是勘探、鉆井、提煉、加工。核心是把數據資源變現成商用價值。數據資源已經成為國家戰略性資源,當前,我國必須盡快在大數據挖掘這個關鍵點有所突破。
目前國際主流的做法是把大數據鏈條分為數據獲取、預處理、存儲、挖掘或分析、可視化五個關鍵環節,挖掘被認為是核心。
上述專家分析稱,以前對於數據資源的利用更多是信息的獲取,例如企業通過經營數據的分析統計,總結過去的經營活動。而現在不再局限於信息獲取,同時實施對數據資源的挖掘,可以優化業務模塊,可以催生新的業務模塊,這是顛覆性的。
咨詢公司德勤發布的《2016分析趨勢報告》提到,數據挖掘的威力和價值正在凸顯出,它幫助人們作出更明智的決策,優化企業和社會運轉。“商界正在積極尋找可以讓他們贏得優勢的科學方法。”
業內認為,在數據價值輸出的時代,大數據依靠挖掘而呈現的巨大商業價值,正在成為推動經濟變革的新引擎。
挖掘需要更多的數據
豐富的數據源是進行大數據挖掘的前提。德勤最新發布的報告《2017德勤技術趨勢》指出,數據資源正在指數級的增長,到2020年,全球的數字預計將達到44澤字節(zetta bytes)。”
盡管如此,但是數據資源的開放和共享程度卻亟待提升。中國信息通信研究院互聯網法律研究中心主任工程師楊筱敏認為,“從國際上看,政府數據開放還處於初期階段,主要通過制定戰略或政策文件形式指導開放。”
楊筱敏說,2015年,我國密集發布了多個相關文件,其中最主要的是國務院《促進大數據發展行動綱要》。該《綱要》對相關政策進行了梳理,提出在開放前提下加強安全和隱私保護,在數據開放的思路上增量先行,提出在2018年底前建成國家統一的數據開放平臺。
2016年5月舉行的全國推進簡政放權放管結合優化服務改革電視電話會議上,國務院總理李克強要求盡快實現政府數據開放。他提到,“目前我國信息數據資源80%以上掌握在各級政府部門手里,‘深藏閨中’是極大浪費。”
近幾年,貴州就開始了大數據行動,第一步就是打造一個數據開放共享的“聚通用”雲上貴州平臺。2016年下半年,貴州加大了推進力度,啟動“數據‘聚通用’攻堅會戰”。2017年元旦前夕,貴州省法人單位、人口、空間地理、宏觀經濟四大基礎數據庫數據匯入共享平臺,貴州率先實現50%以上政府數據“雲上”開放共享。
據悉,3年內,貴州省、市、縣三級政府應用系統和主要數據將全部遷往“雲上貴州”,實現公共系統互聯互通、公共數據共享開放。
今年伊始,貴州省印發了《貴州省數字經濟發展規劃(2017-2020年)》,成為全國首個發布的省級數字經濟發展專項規劃。《規劃》提出,到2020年,數字經濟增加值占地區GDP的比重達30%以上。
根據公開報道,北京、上海、浙江、青島、武漢等已建立了專門的政府數據開放平臺。河北省和安徽省均表示要在2018年底前初步建成政府數據開放平臺。
大數據出臺地方法規
盡管貴州大數據發展勢頭迅猛,但中國大數據產業卻面臨法律法規缺位等因素下的“野蠻生長”困境。
去年1月15日,貴州省通過《貴州省大數據發展應用促進條例》,這是中國首部大數據地方法規。中關村大數據產業聯盟秘書長、北京大數據研究院副院長趙國棟稱,《條例》的出臺不僅是貴州作為大數據綜合試驗區邁出的堅實一步,對大數據產業的健康發展具有很大的促進作用,更為重要的是,《條例》填補了中國大數據立法的空白。
趙國棟說,大數據一直處在“灰色地帶”,其使用權屬一直以來缺乏明確界定,通過立法確定大數據的使用權屬推動數據的開放利用,有利於保證大數據產業的健康發展。
國家信息中心專家委員會主任寧家駿也對媒體表示,相關法律法規和政策環境的不夠完善,導致政府和有關部門信息共享和開放程度不夠,眾多“信息孤島”造成大數據產業的數據資源不夠豐富,企業擁有的大數據技術和計算能力無用武之地。
面對大數據的開放,政府又該如何保障大數據的安全呢?
貴州省大數據局副局長景亞萍接受第一財經采訪表示,一方面省政府出臺地方法規會采取相應保護舉措,另一方面大賽也會對數據進行分級,建立相應標準,判斷哪些數據可以共享,哪些需要脫敏,這是今年工作的一項重點。當然還會跟參賽團隊簽訂相應保密協議,從而兼顧到數據的安全性與開放性。
“新礦工”掘金大數據
隨著數據資源越來越多,數據形態越來越豐富。貴州省大數據發展管理局副局長康克巖在分享貴州數據開放經驗時表示,在進行海量數據匯集過程中,有一個難題就是數據格式不統一、標準不統一。
大數據的顯著特征是形態各異。《2017德勤技術趨勢》將這種非結構化的數據稱之為“暗數據”,比如,海量的圖片、聲音和視頻甚至互聯網上的閑言碎語。這些“暗數據”是比以往任何時候都更有價值的數據源,當然,對挖掘技術的要求也越來越高。
不過這並沒有阻擋市場挖掘“暗數據”的熱情。移動信息化研究中心2月10日發布的《2016中國大數據市場研究報告》(下稱《報告》)顯示,國內大數據企業此前主要聚焦在技術壁壘較低的應用、可視化等環節,而在存儲和挖掘等環節,極少有企業切入。但是到了2016年,看到了利好消息。《報告》顯示,從2013年到2016年,數據挖掘在大數據產業鏈中的分布情況從4.1%上升到9.2%。
《報告》顯示,從大數據主要產業鏈市場份額占比上看,數據庫約占12.5%,存儲14.7%,應用7.9%,挖掘占比最高,為17.3%。《報告》認為產業鏈縱向各環節均屬藍海市場,而挖掘高風險與高收益並存。
對於大數據挖掘,麥肯錫全球研究所發布報告稱,到2025年,物聯網11.1萬億美元的年產值中60%將來自於對數據的整合和挖掘。
事實上,國內資本看好大數據挖掘這片市場,多數大數據創新企業在A輪或Pre-A輪都可以融到數千萬的啟動資金。在資本的熱逐下,人工智能(AI)、深度學習等大數據挖掘技術和工具的概念也備受重視。時代呼喚新的“礦工”,尋找新的挖掘技術和工具,搶占大數據風口的制高點。