漫漫長路,才剛剛開始。
文 | 傅盛
答案顯而易見。
任何一場革命,絕不是以敲鑼打鼓的方式,來到你的身邊。等到某一天,你忽然發現快要天翻地覆時,再去看,發現自己已被別人拋棄了。
過去以端為中心的技術革命,不能說結束了,但已不再是時代的風口。
技術,進入了一場以數據為驅動的革命。
互聯網不再只是一張虛擬的網,而更像是一個大數據庫。大量的數據,沈甸甸,就在那里。沒有人知道,怎麽把這些數據,更加完整清晰的表達出來。
我們需要重新思考技術的致勝點。
怎麽思考呢?我講幾個關鍵點。
1.數據和運算能力,變得越來越重要。
孔子說過一句話:“學而不思則罔,思而不學則殆”。
先說,學而不思則罔。你拿了很多知識,不深度學習,不行。如果你沒有運算能力,有了一堆數據,算不出來,沒用。不是深度越深,效果越好。
這是個複雜的問題。需要不停算,不停實驗。
今天,整個深度學習的理論,還不夠成熟,依然落後於實踐。更多時候,只能靠試。此時,運算能力,就變得非常關鍵。
假如,別人做一次運算,要兩個禮拜,而你只需要一天或2個小時。同樣時間內,你可以做更多實驗,積累更多寶貴經驗,叠代速度也更快。
這就好像,兩個人起點一樣,但由於叠代速度不同,導致了最後成就的千差萬別。每一次叠代,相當於你的一次翻版。你是一天叠代一次,還是一年叠代一次。你對自己翻版本的速度有多快,決定你最後以多大的成果超過對手。
思而不學則殆呢?簡單說,如果你沒有數據,一點用都沒有。
這個時代越來越需要海量數據。數據量越大越好。甚至於,我們以前被認為不是很關鍵的數據,都有可能灌進去,再看效果。
這才有了一句流行語——Welcome to the GPU world.
GPU最早為快速滿足增長的圖形計算需求而設計。它不同於CPU,在多核多線程處理上浮點性能更佳,使得它在圖形界的並行運算,變得超強。
早期,谷歌發表了一篇論文說——深度學習的結果,要跑在英偉達的GPU上。很快,做芯片起家的英偉達,其公司股價開始蹭蹭蹭一路上漲,漲了好幾十塊。
然而,如果今天,你還以為英偉達是個顯卡公司,那就大錯特錯了。如今汽車的防撞系統,警告系統,以及無人駕駛采用的雙目視覺圖像處理,英偉達是第一大提供商。它其實變成了一家人工智能公司。
說到這,大家可能也會奇怪——今天關於無人駕駛,輔助駕駛的新聞越來越多,也有越來越多的公司在做,為啥呢?
核心就在於,深度學習極大降低了這一門檻。只要你能拿到足夠數據,就可能實現對物體的各種判斷。
本質也帶來了一個技術上彎道超車的好機會。很多公司辛苦積累的軟件技術直接作廢了。包括IBM做了語音輸入好多年,上來就被深度學習超越了。尤其當谷歌進入語音輸入時,一下就超越了IBM多年的技術積累。與此同時,谷歌還有足夠多的數據,以及足夠多的語音樣本,不停輸入。
算法為核心的競爭力,正轉換成數據為核心競爭力。
我個人覺得,甚至有些算法會消失掉。但,並不是說算法不重要。只是神經網絡的核心算法,提升起來太難。
現在大家都把專註度放在了數據和運算。尤其在深度學習里,獲取足夠多的數據,就有機會產生更好的結果。神經網絡本身差異不會很大,關鍵比的是——誰能把這些數據用好,並快速計算。
數據變得越來越重要。尤其在深度學習里,獲取足夠多的數據,就有機會產生更好的結果。神經網絡本身差異不會很大,關鍵比的是——誰能把這些數據用好,並快速計算。
2.公司研發結構會發生很多改變,數據獲取和數據標註會變得非常重要。
中國在這場競爭中,還是有很大機會。能夠輕易獲取的互聯網數據,以及低成本的眾包勞動,將為中國公司帶來訓練所需的計算和人力資源。
第一,數據獲取的量級。盡管美國整個技術的前沿性很好,問題在於——矽谷一家小公司拿到的數據,和一家中國告訴發展的互聯網公司拿到的數據,不可同日而語。
第二,數據標註的成本。在美國,要搞數據標註,肯定很累,多貴啊!但在中國,到珠海或成都隨便找300個人,去幫你標註,成本很低。ImageNet圖像分類大賽,中國人取得的成績明顯突出。國外,微軟或谷歌參賽,都是幾個人去做圖像標註和算法驗證。而中國可以組織足夠多的人去做標註。
我認為,ImageNet大賽,未來的世界冠軍都會來自中國。
3.並行異構計算的人才,變成核心競爭力。
過去計算領域都是以CPU為中心的計算模式。深度學習要將CPU和GPU兩個加起來。這是兩個技術的計算模型,是異構的模型。
為什麽要異構?因為GPU是並行的。它需要用來顯示。為了讓你的屏幕刷新保持更快更流暢,就要把GPU分成很多個小的運算單元。每一個運算單元,負責屏幕某一塊具體區域的刷新。而大量這樣的運算單元都包含在一個GPU當中。要想跑得快,就得把計算邏輯放在CPU中,同時再把你準備好的數據拷貝到GPU中。然後呢?GPU再用並行的方式,計算準備好的這些數據。這就是異構的模型。
這個模型,是計算體系,也是硬件體系的一次革命,是真正的技術革命。
舉個例子。現在要完成一個複雜的大型任務,需分割在100臺機器,讓它們分開跑,又同時共同執行同一個全局任務,需要一個數學上嚴格的方法來完成。這意味著,每一次計算更新的時候,都要把大數據刷一遍,刷幾千遍是何其難的事情。幾十億個參數的深度學習模型,每一次叠代都要把參數刷一遍。尤其數據量足夠大時,這是很難的。
因此,能否調動大量的運算資源,就會成為核心競爭力。我的判斷是,未來整個研發結構——重數據,重運算,這兩點,必然出現。
4.語音和視覺,將成為下一代交互模式。
可能大家沒有註意一個數據,谷歌已經有20%的搜索來自語音。這是很可怕的一個趨勢。
我認為,語音和視覺會是下一代的交互模式。
過去我們從PC時代的十指模式(電腦鍵盤),走到今天的拇指模式(手機),未來一定是自然模式(語音和視覺)。
因為,太多的交互都會變得很簡單。有多簡單呢?只會用接觸的方式去完成。今天之所以還沒有大規模到來,其實是技術不夠成熟。
亞馬遜發布Echo時,為什麽谷歌那麽在意?我覺得很重要的一點,就是它通過300萬臺的設備,不停地拿數據——用戶的每一次說話,都是一次新的數據。這個數據足夠多,又反過來加深它的語音能力。
交互模式的變化,不僅改變了產品,也影響了數據方式。
5.深度學習在各個領域產生的變革才剛剛開始。
無論是現階段的內容個性化推薦,還是未來輸入方式的改變,還有太多地方,可以被深度學習改變。
比如人臉識別。今天你用支付寶,或招商銀行客戶端,都會讓你掃一掃,準確率已經相當高了。高到什麽程度呢?有一家公司專門為海關提供人臉識別服務。以前用人工查看,看兩個小時後就會出錯,加上深度學習算法的系統,極大降低了人臉識別的出錯率。
我認為,只要需求越多,它就會越來越準。
比如小米手機出了面孔功能。根據人臉識別進行照片分類。已經可以達到92%的準確率了。包括獵豹。我們在全球有6億月度活躍用戶,一旦建立起深度學習的核心技術能力,獵豹向很多領域的擴展和應用結合就會變成可能。
如果你把深度學習看成一種“工具”,就會發現——它有很多和其它領域,包括傳統行業相互結合的機會。
漫漫長路,才剛剛開始。