📖 ZKIZ Archives


比特幣礦業史(下):巨頭的誕生,ASIC 時代 36氪

http://techorange.com/2013/05/27/bitcoin-mining-history-3/

編按:本文作者張沈鵬為比特幣交易平台 42btc.com 和 42qu.com 的創始人,也是個神級程式工程師。以比特幣的歷史為題投稿至《36氪》,分為上、中、下三集刊出。如果想對比特幣的種種了解更多,42btc.com 上有更多說明。

比特幣礦業史(上):故事的開始,CPU 時代

比特幣礦業史(中):群眾的覺醒,顯卡時代

  • 3.1 軍備競賽

2012 年的時候,人們意識到可以通過設計專門的 ASIC 集成電路來專門進行哈希計算,提高挖礦效率。事實證明,ASIC 挖礦比顯卡挖礦,相同能耗,速度要快上百倍。

不過,ASIC 製造很昂貴,硬件芯片的生產需要大量的資​​金,遠非普通個人可以承擔。

於是,大家想到了募資。

首先,是蝴蝶實驗室BFL)開始接受 ASIC 訂單,採用 65 納米製造技術。

他們募集了大量資金,然而研發的進展卻異常緩慢——連續八個月,他們僅僅是在 2013 年 1 月的 CES(全球消費性電子大展)大展上展示了一次 ASIC 的原型機的機箱。 人們等待著,對此很不滿。

此時比特幣社區殺出幾路其他人馬,紛紛表示「ASIC 礦機, 我也能做, 只是沒有錢。」

但對於已經開始漸漸瘋狂的比特幣社區而言, 錢的問題,根本不是問題。2012 年 8 月9 日,深圳某公司發言人「烤貓」在 bitcointalk 發帖,聲稱自己的團隊能研發 ASIC 礦機,面向全球網友以比特幣的方式募股,籌集啟動資金。

股份很快被哄搶一空。

2013 年1 月3 日,這批礦機的樣機問世並穩定運行,正式標誌著 ASIC 時代的來臨。

在烤貓團隊公佈樣機的 17 天後,中國的另一團隊「阿瓦隆 Avalon」完成了首個礦機的交付,比特幣網絡核心開發者 Jeff Garzik 有幸成為了第一個商業 ASIC 礦機的擁有者。

2013 年 4 月20 日,瑞典專業 ASIC 設計公司 ORSoC 宣布他們將聯手 KNCminer 進行專業 ASIC 比特幣礦機的設計及生產。

軍備競賽,拉開帷幕。

  • 3.2 瘋狂上漲

比特幣每 4 年的產出減半一次。

2012 年底,比特幣產量首次減半。如果你略懂經濟學, 一定會聯想到,供給的減少將帶來價格的上升。

適逢其會,賽普勒斯金融危機讓比特幣大出風頭。

隨著政府對銀行儲戶徵稅,同時施加嚴厲的資本管制,人們瘋狂尋求資金出路。

那些不再信任政府的人突然發現,比特幣或許可以挽救他們的財富。 於是越來越多的人開始將存款轉化成比特幣,政府確實沒辦法查封你的比特幣,美國人想封維基解密的比特幣帳戶,至今都沒有成功。

於是,最近比特幣的價格持續上漲,而上漲帶來的新聞媒體報導又帶來更多人的關注,導致比特幣上漲速度越來越快,終於在 2013 年 4 月 10 號摸高到了 260 美元。

這一波從 25 美元上漲到 260 美元,短短兩、三個月,價格上漲了 10 多倍。而從 2010 年的 4 月份到 2011 年的 6 月份,比特幣則在 14 個月內暴漲了 1000 倍。

於是在 2013 年的 4 月 11 日,有人寫下了《比特幣的內在價值》一文,充分反映了當時市場的樂觀情緒。引用如下:

「比特幣合理價值到底是多少呢?這取決與你認為比特幣作為一種『貨幣』所能到達的高度。

如果你認為比特幣和黃金差不多,全球央行的黃金儲備總價值大約 12 萬億美元,換算下來一枚比特幣大約價值 57 萬多美元。

如果你認為比特幣能完全替代美元鈔票,美元的 M0(通貨發行額減去金融機構庫存現金,可以簡單理解為流通中的現金)大約 9,000 億美元,如果用 2,100 萬比特幣代替的話,一枚比特幣大約價值 4.5 萬美元。

如果你認為比特幣能夠替代全球隱藏的『黑錢』,由於『黑錢』不好定義,我們用『消失不見』的美元鈔票來代替。全球的黑錢大約有 1 萬億美元。假設都用比特幣來持有,一枚比特幣的價值大約為 4.8 萬美元。

即使比特幣只能達到上述三種情況中的 10%,對應的比特幣價值也有 5,000 到 5 萬美元,遠遠高於現在比特幣的價格。」

比特幣價格瘋狂上漲的結果,就是 ASIC 礦機價格的一路飆升。以 Avalon 為例,其價格從最早的 8 千人民幣,一路飆升到頂峰時的 31 萬人民幣。

作為投機品,房地產與比特幣比起來,簡直是弱爆了。

  • 3.3 產業鏈

大部分經濟學家都相信,分工的不斷深入和細化是產業成熟的標誌之一。比特幣礦業的發展,也驗證了這種看法。

Avalon 成功推出礦機之後便開始宣布轉型--開源 Avalon 除芯片以外的硬件解決方案,但同時只出售芯片,不再出售組裝好的成機。 事實上,Avalon 這樣做,也是不無理由的。Avalon 是由 28 歲的「南瓜張」,北航計算機體系結構在讀博士,負責研發的。對於芯片研發,他的能力毋庸置疑。不過,產品銷售和客服,已經超出了他的專業範圍了。

Avalon 團隊在第二次預售的時候,就給出了幾個霸道的用戶條款:

「在預訂之前,請務必閱讀並認可以下條款:

1. 在任何情況下均不退款。這是因為,我們會用預付款去購買零部件,因此無法退款。

2. 沒有保障。這包括但不限於:現在沒有第三方評測所帶來的風險,我們是騙子的風險,由於客觀和主管原因無法按時發貨的風險,bitcoin 本身出現嚴重問題無法繼續存在等。

3. 沒有銷售客服。由於人力有限,如果您不能理解本公告的全部內容,即請不要購買。同時,QQ 和旺旺等均不作預訂諮詢,所有詢問都不會得到回覆。

4. 收貨地址一經確定即不能更改。」

這些條款後來也被不少人詬病。雖然事後 Avalon 團隊用最先大批量發貨的事實,證明了他們的信用。但至少在當時看來,很多做法在商業上是不夠成熟的。

加上向最終用戶直接出售成品還需要提供後續保修等種種服務,Avalon 團隊顯然覺得這些事情太過繁瑣。於是決定不再出售成品機器,而選擇專注地成為比特幣挖礦芯片提供商。

我想, 他們的決定,是符合分工細化的社會發展趨勢,極端明智的。

  • 未來的展望:量子的幽靈

一個幽靈,共產主義的幽靈,在歐洲大陸徘徊。—–馬克思《共產黨宣言》

若實用的量子計算機誕生,bitcoin 的密碼學基礎則將崩潰。

當然,受影響的將不僅僅是比特幣,而是整個現代計算機密碼學,也就是說,銀行亦不能倖免。

也許很多同學會覺得量子計算機還很科幻。不過, 事實上量子計算機的發展速度絲毫不遜色於比特幣。

2007 年,D-Wave 公司宣布成功開發出世界上第一台量子計算機的工作模型機。彼時就有科學家預言,從模型機到真正生產商業化應用的機器,還有至少 20 到 50 年的時間。

不過,事實證明,在預測未來上,專家往往並不比算命先生靠譜——2011年,D-Wave 發布了全球第一款商用型量子計算機 D-Wave One,採用了 128 量子位的處理器,運算速度是前代的四倍,理論運算速度已經遠超當時的所有超級計算機。

2012,D-Wave Two 量子計算機面世,其處理器達到了512 量子位,它在某些領域的運算能力可以在很長一段時間內保持領先,售價 1,500 萬美元。

2013,Google 決定採購 D-Wave 量子計算機,創辦量子計算實驗室。為了測試 D-Wave 量子計算機的性能,科學家讓 D-Wave 與配置英特爾芯片的傳統計算機運行同一項任務。在某些測試中,量子計算機的速度比傳統計算機快了近 1.1 萬倍。

當然,話說回來,現在妄言量子計算機投入實用還為時過早,更不用說用量子計算機來挖礦——目前,每天比特幣的總產量也才 3,600 個,每四年減半,而一台量子計算機就價值 1,500 萬美元。另外,量子計算機的超強計算能力可能引發 51% 攻擊,這一點也值得擔憂;所謂 51% 攻擊,就是指某人擁有了超過全網 51% 的運算能力,那麼他就可以任意修改比特幣的全局帳單。

儘管有上面的憂患,但我的觀點是,未來總是不確定的,有時無需太過擔心,聰明的人總會找到聰明的解決方案。凱恩斯就有句名言:「從長期的角度看問題,是一種誤導。從長期的角度看,我們都是死人。」

所以如果真有一天量子計算機投入實用,那雖是比特幣之禍,但也是人類之福。

  • 4. 結語

比特幣, 2013 年,四歲。

它的出現是歷史發展的必然,還只是曇花一現的概念?
它將對全球化的進程帶來怎樣深遠的影響,中國又在其中扮演一個怎樣的角色?
它能否生根發芽,以摧枯拉朽之勢重建人類社會的金融體系,進而影響世界的政治格局?

我想, 與其等待答案, 不如給出回答。

和一切新鮮而充滿活力的事物一樣, 比特幣屬於朝氣蓬勃的年輕人。

參考文獻

  1. 中本聰的沃森:比特幣與哈爾·芬尼傳奇http://www.8btc.com/hal-finney
  2. 為什麼我把我的積蓄全部投入Bitcoin ?http://www.btcfans.com/archives/96.html
  3. 13歲的兒子在網上賺錢了
    一.
    http://blog.sina.com.cn/s/blog_79c266260100pmxh.html二.http://blog.sina.com.cn/s/blog_79c266260100ukx7.html
  4. 比特幣的內在價值 http://zhiqiang.org/blog/finance/intrinsic-value-of-bitcoin.html

如果您想看比特幣的技術文,還可以點這篇《走向未來:比特幣何以變得更好》《諾貝爾經濟學家Krugman錯了嗎:數字朋克的比特幣熱愈演愈烈》以及我們在兩年前發布的關於比特幣的介紹:《Bitcoin P2P貨幣:有史以來最危險的項目》《Bitcoin P2P虛擬貨幣原理詳解》

PermaLink: https://articles.zkiz.com/?id=80666

【電子】風起於青萍之末:從CPU到GPU再到ASIC,起底人工智能計算芯片技術大躍遷

來源: http://www.ikuyu.cn/indexinfo?type=1&id=11455&summary=

【電子】風起於青萍之末:從CPU到GPU再到ASIC,起底人工智能計算芯片技術大躍遷

工智能——風起於青萍之末


從3月份智能機器人AlphaGo戰勝李世石,到近期谷歌的最新用於人工智能深度學習的芯片TPU曝光,一個千億級的市場應用逐漸從水底浮向了水面。我們將深度剖析,在人工智能領域,有可能爆發的芯片——GPU、FPGA、ASIC及相關的市場和公司。


1.1.人工智能——下一個千億級市場


人工智能會成為未來的趨勢嗎?答案是會。人工智能,簡單地說,就是用機器去實現目前必須借助人類智慧才能實現的任務。人工智能包括三個要素:算法,計算和數據。


對人工智能的實現來說,算法是核心,計算、數據是基礎。在算法上來說,主要分為工程學法和模擬法。工程學方法是采用傳統的編程技術,利用大量數據處理經驗改進提升算法性能;模擬法則是模仿人類或其他生物所用的方法或者技能,提升算法性能,例如遺傳算法和神經網絡。而在計算能力來說,目前主要是使用GPU並行計算神經網絡,同時,FPGA和ASIC也將是未來異軍突起的力量。



隨著百度,Google,Facebook,Microsoft等企業開始切入人工智能,人工智能可應用的領域非常廣泛。2013年100多家組織開始研發深度學習與人工智能,到2015年,短短2年間,研發機構已經迅速激增到3409家。可以看到,未來人工智能的應用將呈幾何級數的倍增。應用領域包括互聯網,金融,娛樂,政府機關,制造業,汽車,遊戲等。從產業結構來講,人工智能生態分為基礎、技術、應用三層。應用層包括人工智能+各行業(領域),技術層包括算法、模型及應用開發,基礎層包括數據資源和計算能力。



人工智能將在很多領域得到廣泛的應用。目前重點部署的應用有:語音識別,人臉識別,無人機,機器人,無人駕駛等。



人工智能市場將保持高速增長,根據艾瑞咨詢的數據,2020年全球人工智能市場規模約1190億人民幣。而未來10年,人工智能將會是一個2000億美元的市場。空間非常巨大。其中在硬件市場方面,將會有30%的市場份額。



1.2.深度學習


人工智能的核心是算法,深度學習是目前最主流的人工智能算法。深度學習在1958年就被提出,但直到最近,才真正火起來,主要原因在於:數據量的激增和計算機能力/成本。


深度學習是機器學習領域中對模式(聲音、圖像等等)進行建模的一種方法,它也是一種基於統計的概率模型。在對各種模式進行建模之後,便可以對各種模式進行識別了,例如待建模的模式是聲音的話,那麽這種識別便可以理解為語音識別。而類比來理解,如果說將機器學習算法類比為排序算法,那麽深度學習算法便是眾多排序算法當中的一種,這種算法在某些應用場景中,會具有一定的優勢。


深度學習的學名又叫深層神經網絡(DeepNeuralNetworks),是從很久以前的人工神經網絡(ArtificialNeuralNetworks)模型發展而來。這種模型一般采用計算機科學中的圖模型來直觀的表達,而深度學習的“深度”便指的是圖模型的層數以及每一層的節點數量,相對於之前的神經網絡而言,有了很大程度的提升。


從單一的神經元,再到簡單的神經網絡,到一個用於語音識別的深層神經網絡。層次間的複雜度呈幾何倍數的遞增。



以圖像識別為例,圖像的原始輸入是像素,相鄰像素組成線條,多個線條組成紋理,進一步形成圖案,圖案構成了物體的局部,直至整個物體的樣子。不難發現,可以找到原始輸入和淺層特征之間的聯系,再通過中層特征,一步一步獲得和高層特征的聯系。想要從原始輸入直接跨越到高層特征,無疑是困難的。而整個識別過程,所需要的數據量和運算量是十分巨大的。2012年,由人工智能和機器學習頂級學者AndrewNg和分布式系統頂級專家JeffDean,用包含16000個CPU核的並行計算平臺訓練超過10億個神經元的深度神經網絡,在語音識別和圖像識別等領域取得了突破性的進展。該系統通過分析YouTube上選取的視頻,采用無監督的方式訓練深度神經網絡,可將圖像自動聚類。在系統中輸入“cat”後,結果在沒有外界幹涉的條件下,識別出了貓臉。可以看到,深度學習之所以能夠在今天得到重要的突破,原因在於:1海量的數據訓練2高性能的計算能力(CPU,GPU,FPGA,ASIC))。兩者缺一不可。



1.3.算力


衡量芯片計算性能的重要指標稱為算力。通常而言,將每秒所執行的浮點運算次數(亦稱每秒峰值速度)作為指標來衡量算力,簡稱為FLOPS。現有的主流芯片運算能力達到了TFLOPS級別。一個TFLOPS(teraFLOPS)等於每秒萬億(=10^12)次的浮點運算。


增加深度學習算力需要多個維度的齊頭並進的提升:1系統並行程度2時鐘的速度3內存的大小(包括register,cache,memory);4內存帶寬(memorybandwidth)5計算芯片同CPU之間的帶寬6還有各種微妙的硬件里的算法改進。


我們這篇報告將主要關註人工智能的芯片領域,著重討論GPU,FPGA,ASIC等幾種類型的芯片在人工智能領域的應用和未來的發展。


GPU——厚積薄發正當時


2.1.GPU簡介


GPU,又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、遊戲機和一些移動設備(如平板電腦、智能手機等)上圖像運算工作的微處理器,與CPU類似,只不過GPU是專為執行複雜的數學和幾何計算而設計的,這些計算是圖形渲染所必需的。隨著人工智能的發展,如今的GPU已經不再局限於3D圖形處理了,GPU通用計算技術發展已經引起業界不少的關註,事實也證明在浮點運算、並行計算等部分計算方面,GPU可以提供數十倍乃至於上百倍於CPU的性能。


GPU的特點是有大量的核(多達幾千個核)和大量的高速內存,最初被設計用於遊戲,計算機圖像處理等。GPU主要擅長做類似圖像處理的並行計算,所謂的“粗粒度並行(coarse-grainparallelism)”。這個對於圖像處理很適用,因為像素與像素之間相對獨立,GPU提供大量的核,可以同時對很多像素進行並行處理。但這並不能帶來延遲的提升(而僅僅是處理吞吐量的提升)。比如,當一個消息到達時,雖然GPU有很多的核,但只能有其中一個核被用來處理當前這個消息,而且GPU核通常被設計為支持與圖像處理相關的運算,不如CPU通用。GPU主要適用於在數據層呈現很高的並行特性(data-parallelism)的應用,比如GPU比較適合用於類似蒙特卡羅模擬這樣的並行運算。



CPU和GPU本身架構方式和運算目的不同導致了CPU和GPU之間的不同,主要不同點列舉如下



正是因為GPU的特點特別適合於大規模並行運算,GPU在“深度學習”領域發揮著巨大的作用,因為GPU可以平行處理大量瑣碎信息。深度學習所依賴的是神經系統網絡——與人類大腦神經高度相似的網絡——而這種網絡出現的目的,就是要在高速的狀態下分析海量的數據。例如,如果你想要教會這種網絡如何識別出貓的模樣,你就要給它提供無數多的貓的圖片。而這種工作,正是GPU芯片所擅長的事情。而且相比於CPU,GPU的另一大優勢,就是它對能源的需求遠遠低於CPU。GPU擅長的是海量數據的快速處理。


工業與學術界的數據科學家已將GPU用於機器學習以便在各種應用上實現開創性的改進,這些應用包括圖像分類、視頻分析、語音識別以及自然語言處理等等。尤其是深度學習,人們在這一領域中一直進行大力投資和研究。深度學習是利用複雜的多級「深度」神經網絡來打造一些系統,這些系統能夠從海量的未標記訓練數據中進行特征檢測。


雖然機器學習已經有數十年的歷史,但是兩個較為新近的趨勢促進了機器學習的廣泛應用:海量訓練數據的出現以及GPU計算所提供的強大而高效的並行計算。人們利用GPU來訓練這些深度神經網絡,所使用的訓練集大得多,所耗費的時間大幅縮短,占用的數據中心基礎設施也少得多。GPU還被用於運行這些機器學習訓練模型,以便在雲端進行分類和預測,從而在耗費功率更低、占用基礎設施更少的情況下能夠支持遠比從前更大的數據量和吞吐量。


將GPU加速器用於機器學習的早期用戶包括諸多規模的網絡和社交媒體公司,另外還有數據科學和機器學習領域中一流的研究機構。與單純使用CPU的做法相比,GPU具有數以千計的計算核心、可實現10-100倍應用吞吐量,因此GPU已經成為數據科學家處理大數據的處理器。


綜上而言,我們認為人工智能時代的GPU已經不再是傳統意義上的圖形處理器,而更多的應該賦予專用處理器的頭銜,具備強大的並行計算能力。


2.2.王者歸來的NVIDIA


NVIDIA是一家以設計GPU芯片為主業的半導體公司。其主要產品包括遊戲顯卡GeForceGPU,工作站Quadro,可用於深度學習計算的TeslaGPU,為移動以及汽車處理設計TegraGPU。NVIDIA的產品在應用領域來劃分,主要包括圖形處理器(GPU),Tegra處理器(用於車載),以及其他。各塊業務所占比重如圖所示。



NVIDIA在最近12日發布的財報顯示,2016年第一財報季度內,公司整體利潤激增46%,至1.96億美元,營收同比增長13%至13.05億美元。財報公布後,NVIDIA股價一度大漲7.7%,盤中最高觸及38.81美元。



NVIDIA2011-2015年的營收和凈利潤如圖所示。從2013年起,業績明顯呈現出上升的勢頭。這個時間點其實也契合人工智能在深度學習領域開始使用GPU來進行大規模並行計算。2016年NVIDIA的一季報更是呈現出爆發的跡象,整體利潤激增46%,我們認為財報的數據是最有力的證明,GPU正在受益於人工智能深度學習的需求,而廣泛地得到應用。



NVIDIA的產品毛利率從2011年開始,保持了連續上升的勢頭。NVIDIA的核心產品是GPU,從毛利率水平不斷提升來看,NVIDIA的GPU產品始終保持了核心競爭力和更新換代的能力。產品的結構也在不斷優化,從獨立專顯到服務器再到大規模並行計算,隨著應用的不斷升級,產品的結構也越來越優化。從毛利率水平看,NVIDIA的產品保持了不斷更新和競爭力。隨著並行計算在深度學習中的廣泛應用,NVIDIA的產品毛利率還將進一步提升。



在高性能計算機、深度學習、人工智能等領域,NVIDIA的Tesla芯片有十分關鍵的作用。NVIDIA的CUBA技術,大幅度提高了純CPU構成的超級計算機的性能。人工智能和深度學習需要大量的浮點計算,在高性能計算領域,GPU需求在不斷增強。目前NVIDIA的高性能顯卡已經占有84%的市場份額。亞馬遜的AWS,Facebook,Google等世界一級數據中心都需要用NVIDIA的Tesla芯片,隨著雲計算和人工智能的不斷發展,我們認為NVIDIA的高性能GPU也能在未來5年保持20%以上的增長速度。


2.3.GPU國內行業現狀及公司


國內在GPU芯片設計方面,還處於起步階段,與國際主流產品尚有一定的差距。不過星星之火,可以燎原。有一些企業,逐漸開始擁有自主研發的能力,比如國內企業景嘉微。景嘉微擁有國內首款自主研發的GPU芯片JM5400,專用於公司的圖形顯控領域。JM5400為代表的圖形芯片打破外國芯片在我國軍用GPU領域的壟斷,率先實現軍用GPU國產化。


公司的GPUJM5400主要替代AMD的GPUM9,兩者在性能上的比較如下。相比而言,公司的JM5400具有功耗低,性能優的優勢。



雖然景嘉微的GPU芯片主要用於軍用顯示,尚無法達到人工智能深度學習的算力要求,但隨著研發和支持的投入,參照NVIDIA當年的發展歷史,景嘉微也會有潛力成長起來。


分析景嘉微的主營構成,主要分為圖形顯控領域產品、小型專用化雷達領域產品,以及其他。其中圖形顯控領域產品占公司收入的85%多。公司的主要下遊客戶是軍用飛機,目前我國大多數軍用飛機都使用公司的圖形顯空產品



公司從2012-2015年的營收和凈利潤都保持穩定的成長,呈現出向上的趨勢。隨著公司國產GPU的量產和替代,我們預計後續產品的營收和凈利潤將會得到進一步的提升。



我們認為,國內的GPU發展尚處於起步階段,目前的產品還是主要用於於GPU原先的圖形顯控領域,雖然還不能跟現在人工智能深度學習所需要的GPU所媲美,但走在正確方向的道路上,未來也有可能得到突破。


FPGA——“萬能芯片”在人工智能時代複蘇


FPGA(Field-ProgrammableGateArray),即現場可編程門陣列,它是在PAL、GAL、CPLD等可編程器件的基礎上進一步發展的產物。FPGA芯片主要由6部分完成,分別為:可編程輸入輸出單元、基本可編程邏輯單元、完整的時鐘管理、嵌入塊式RAM、豐富的布線資源、內嵌的底層功能單元和內嵌專用硬件模塊。


FPGA還具有靜態可重複編程和動態在系統重構的特性,使得硬件的功能可以像軟件一樣通過編程來修改。FPGA能完成任何數字器件的功能,甚至是高性能CPU都可以用FPGA來實現。


Intel在在2015年以161億美元收購了FPGA龍頭Altera,其目的之一也是看中FPGA的專用計算能力在未來人工智能領域的發展。


3.1.FPGA——高性能、低功耗的可編程芯片


FPGA之所以能有潛力成為人工智能深度學習方面的計算工具,主要原因就在於其本身特性:可編程專用性,高性能,低功耗。


先來看一下FPGA的內部架構。FPGA擁有大量的可編程邏輯單元,可以根據客戶定制來做針對性的算法設計。除此以外,在處理海量數據的時候,FPGA相比於CPU和GPU,獨到的優勢在於:FPGA更接近IO。換句話說,FPGA是硬件底層的架構。比如,數據采用GPU計算,它先要進入內存,並在CPU指令下拷入GPU內存,在那邊執行結束後再拷到內存被CPU繼續處理,這過程並沒有時間優勢;而使用FPGA的話,數據I/O接口進入FPGA,在里面解幀後進行數據處理或預處理,然後通過PCIE接口送入內存讓CPU處理,一些很底層的工作已經被FPGA處理完畢了(FPGA扮演協處理器的角色),且積累到一定數量後以DMA形式傳輸到內存,以中斷通知CPU來處理,這樣效率就高得多。



專用計算領域強過CPU


雖然FPGA的頻率一般比CPU低,但CPU是通用處理器,做某個特定運算(如信號處理,圖像處理)可能需要很多個時鐘周期,而FPGA可以通過編程重組電路,直接生成專用電路,加上電路並行性,可能做這個特定運算只需要一個時鐘周期。比如一般CPU每次只能處理4到8個指令,在FPGA上使用數據並行的方法可以每次處理256個或者更多的指令,讓FPGA可以處理比CPU多很多的數據量。舉個例子,CPU主頻3GHz,FPGA主頻200MHz,若做某個特定運算CPU需要30個時鐘周期,FPGA只需一個,則耗時情況:CPU:30/3GHz=10ns;FPGA:1/200MHz=5ns。可以看到,FPGA做這個特定運算速度比CPU塊,能幫助加速。


北京大學與加州大學的一個關於FPGA加速深度學習算法的合作研究。展示了FPGA與CPU在執行深度學習算法時的耗時對比。在運行一次叠代時,使用CPU耗時375毫秒,而使用FPGA只耗時21毫秒,取得了18倍左右的加速比



能耗顯著降低


FPGA相對於CPU與GPU有明顯的能耗優勢,主要有兩個原因。首先,在FPGA中沒有取指令與指令譯碼操作,在Intel的CPU里面,由於使用的是CISC架構,僅僅譯碼就占整個芯片能耗的50%;在GPU里面,取指令與譯碼也消耗了10%~20%的能耗。其次,FPGA的主頻比CPU與GPU低很多,通常CPU與GPU都在1GHz到3GHz之間,而FPGA的主頻一般在500MHz以下。如此大的頻率差使得FPGA消耗的能耗遠低於CPU與GPU。


FPGA與CPU在執行深度學習算法時的耗能對比。在執行一次深度學習運算,使用CPU耗能36焦,而使用FPGA只耗能10焦,取得了3.5倍左右的節能比。通過用FPGA加速與節能,讓深度學習實時計算更容易在移動端運行。



相比CPU和GPU,FPGA憑借比特級細粒度定制的結構、流水線並行計算的能力和高效的能耗,在深度學習應用中展現出獨特的優勢,在大規模服務器部署或資源受限的嵌入式應用方面有巨大潛力。此外,FPGA架構靈活,使得研究者能夠在諸如GPU的固定架構之外進行模型優化探究。


3.2.Intel收購Altera分析


眾所周知,在深度神經網絡計算中運用CPU、GPU已不是什麽新鮮事。雖然Xilinx公司早在1985年就推出了第一款FPGA產品XC2064,但該技術真正應用於深度神經網絡還是近幾年的事。英特爾167億美元收購Altera,IBM與Xilinx的合作,都昭示著FPGA領域的變革,未來也將很快看到FPGA與個人應用和數據中心應用的整合。


目前而言,FPGA的應用領域以當前的通信、圖像處理、IC原型驗證、汽車電子、工業等為主。整個FPGA市場由Xilinx和Altera主導,兩者共同占有85%的市場份額。FPGA市場規模預計在2016年將達到60億美元,並保持年複合增速9%。



根據Altera內部文件顯示,Altera很早就在研發使用FPGA針對深度學習算法的應用,並在2015年Intel的論壇上展示了產品的性能。結論是在功耗和性能上相對同等級的CPU,有較大的優勢。



我們認為,Intel之所以收購Altera,主要原因就在於看中人工智能的發展,但CPU在計算能力上的先天不足,讓其需要尋找一個合作夥伴。Altera的的FPGA正好彌補了CPU在這方面的缺陷,我們認為,CPU+FPGA在人工智能深度學習領域,將會是未來的一個重要發展方向。


3.3.FPGA國內行業與公司


FPGA整個市場被國外的兩大巨頭所寡占,Xilinx和Altera占了85%的份額。國內目前也有一些公司在FPGA領域有所建樹,其中比較優秀的有同方國芯。


同方國芯的主營業務包括晶體業務,特種集成電路,智能芯片這幾塊。各業務所占比重如下:



同方國芯的FPGA歸屬於特種集成電路業務,我們統計上市以來這塊業務的營收狀況,保持著非常迅速的增長,年複合增速在20%左右。



同時,特種集成電路的毛利率也一直維持在很高的水準,並持續往上升。我們預計隨著FPGA在人工智能深度學習領域的應用增長,還會給公司帶來持續性的利好增長。



ASIC——後起之秀,不可估量


4.1.性能與功耗完美結合的ASIC


ASIC(ApplicationSpecificIntegratedCircuits,專用集成電路),是指應特定用戶要求或特定電子系統的需要而設計、制造的集成電路。嚴格意義上來講,ASIC是一種專用芯片,與傳統的通用芯片有一定的差異。是為了某種特定的需求而專門定制的芯片。


ASIC作為集成電路技術與特定用戶的整機或系統技術緊密結合的產物,與通用集成電路相比,具有以下幾個方面的優越性:體積更小、功耗更低、可靠性提高、性能提高、保密性增強、成本降低。


回到深度學習最重要的指標:算力和功耗。我們對比NVIDIA的GK210和某ASIC芯片規劃的指標,如下所示



從算力上來說,ASIC產品的計算能力是GK210的2.5倍。第二個指標是功耗,功耗做到了GK210的1/15。第三個指標是內部存儲容量的大小及帶寬。這個內部MEMORY相當於CPU上的CACHE。深度雪地的模型比較大,通常能夠到幾百MB到1GB左右,會被頻繁的讀出來,如果模型放在片外的DDR里邊,對DDR造成的帶寬壓力通常會到TB/S級別。


因為全定制芯片ASIC綜合考慮了工藝和性能方面的權衡,隨著工藝的進步,性能和價格的進展如下:



全定制設計的ASIC,因為其自身的特性,相較於非定制芯片,擁有以下幾個優勢:


●同樣工藝,同樣功能,第一次采用全定制設計性能提高7.6倍


●普通設計,全定制和非全定制的差別可能有1~2個數量級的差異


●采用全定制方法可以超越非全定制4個工藝節點(采用28nm做的全定制設計,可能比5nm做的非全定制設計還要好)


我們認為,ASIC的優勢,在人工智能深度學習領域,具有很大的潛力。


4.2.從“比特幣挖礦機ASIC發展”推導“ASIC在人工智能領域大有可為”


ASIC在人工智能深度學習方面的應用還不多,但是我們可以拿比特幣礦機芯片的發展做類似的推理。比特幣挖礦和人工智能深度學習有類似之處,都是依賴於底層的芯片進行大規模的並行計算。而ASIC在比特幣挖礦領域,展現出了得天獨厚的優勢。


比特幣礦機的芯片經歷了四個階段:CPU、GPU、FPGA和ASIC。其中2009年1月比特幣創始人中本聰利用電腦CPU挖出了第一個創世塊,其後大約一年時間BTC網絡主要依靠CPU挖礦,CPU設計中需要大量的邏輯判斷和很強的通用性來處理不同類型的數據,而GPU處理簡單的SHA-256算法速度更具優勢;GPU由於采用了大量並行處理的核心架構,對於簡單的SHA256算法處理速度較快,2010年9月挖礦進入了GPU時代,但是GPU也存在功耗高、搭建部署困難的缺陷,不適合大規模部署;2011年12月出現了基於FPGA芯片的挖礦設備,其功耗為同類型的GPU的1/40,但是FPGA芯片價格昂貴、部署也很複雜,主要被少數具備專業背景的礦工所使用,這個階段FPGA和GPU成為挖礦的主力軍;2013年首臺基於ASIC芯片的Avalon礦機面世,挖礦進入了ASIC時代。ASIC芯片是專為挖礦量身定制的芯片,它將FPGA芯片中在挖礦時不會使用的功能去掉,與同等工藝的FPGA芯片相比執行速度塊,大規模生產後的成本也要低於FPGA芯片。



在CPU、GPU時代,挖礦門檻較低,家庭的普通臺式機或者帶有獨立顯卡的筆記本都可以用來挖礦,2012年以前挖礦還是大眾可以參與的相對公平對等階段;隨著FPGA、ASIC芯片的出現,挖礦逐漸開始向一些專業人士聚集。ASIC芯片是為挖礦量身定制的,與同等工藝的FPGA芯片相比ASIC芯片的執行速度更快,大規模生產後成本也會比FPGA芯片低。目前ASIC芯片已成為主流的礦機芯片,挖礦速度基本都達到了GH/S的級別,比如BITMAIN的第四代芯片BM1385,單顆芯片算力可達32.5GH/S,在0.66V的核心電壓下功耗僅為0.216W/GH/S。ASIC芯片隨著矽片加工精度的提升,其性能更好,功耗更低。目前矽片加工精度已經130nm提升至14nm,基本接近現有半導體技術的極限。



以上,從ASIC在比特幣挖礦機時代的發展歷史,可以看出ASIC在專用並行計算領域所具有的得天獨厚的優勢:算力高,功耗低,價格低,專用性強。的谷歌最近曝光的專用於人工智能深度學習計算的TPU,其實也是一款ASIC。


4.3.ASIC國內行業與公司


我們認為,國內的比特幣芯片生產廠商,都有可能在人工智能時代華麗轉身,成為擁抱深度學習的定制芯片供應商。在這塊領域有所深耕建樹的公司有,國內的深圳烤貓、迦南耘智、比特大陸和龍礦科技。擁有自產芯片的礦機生產商的盈利能力強,普遍的毛利率達到50%以上。


總結


綜上,我們的觀點:人工智能時代逐步臨近,GPU,FPGA,ASIC這幾塊傳統領域的芯片,將在人工智能時代迎來新的爆發。風起於青萍之末,一起關註人工智能時代芯片的大機會!



(完)



股市有風險,投資需謹慎。本文僅供受眾參考,不代表任何投資建議,任何參考本文所作的投資決策皆為受眾自行獨立作出,造成的經濟、財務或其他風險均由受眾自擔。


新財富酷魚正在積極建立和讀者、合作夥伴的聯系,你想獲取更多有價值資訊嗎?你想成為我們網站的作者嗎?你對我們的網站的更新有什麽建議?請掃描以下二維碼聯系我們的主編(本微信號不洽談廣告投放事宜,加的時候請註明“新財富+您所在公司”):

PermaLink: https://articles.zkiz.com/?id=235116

Next Page

ZKIZ Archives @ 2019