幾起安全事件的發生,讓互聯網世界顯得如此脆弱。 (CFP/圖)
人們對飛速前進的互聯網生活已經習以為常,很難意識到這樣一個真相——僅僅一兩次惡意或無意的破壞發生後,你眨眼就可以回到蒙昧時代。
互聯網公司常常將資源集中於高速發展的業務,而忽略了在安全方面的投入。對於從事互聯網金融的公司,這是個致命的缺陷。
從2015年5月27日下午開始,一直到5月29日上午,你很可能接連遭遇到這樣三件倒黴透頂的事:支付寶結不了賬;攜程宕機了;眼看著大盤暴跌,股票軟件卻賣不了股票。
先是你去超市里購物,以為打開手機里的支付寶就能付款,當你結賬的時候,收銀員卻說支付寶這會用不了,可是你又沒有帶錢包,最後只能空著手回家。
第二天早上你要出差,打開手機里的攜程客戶端,發現用不了,打開電腦登錄攜程官網,還是登不上。這天下午,中國A股暴跌超過6%。
到了第三天,股市早盤一度暴跌4個點,你打算把股票賣了,卻發現你的證券軟件無法交易。公開報道顯示,招商證券、國泰君安和國金證券等股票軟件一度出現無法交易現象。
人們對飛速前進的互聯網生活已經習以為常,很難意識到這樣一個真相——僅僅一兩次惡意或無意的破壞發生後,你眨眼就可以回到蒙昧時代。
“如果是真的做到了異地多活,應當是分鐘級別的切換。兩個小時已經足夠拷貝一個數據庫的備份,然後找一個新機房重新開啟業務了。”
2015年5月27日17時左右,擁有數億用戶的支付寶被部分用戶反映,服務突然無法正常使用。
5月27日22點37分,支付寶在其官方微博上發布聲明稱,本次事故由杭州一主要機房的光纜被市政施工挖斷所造成。南方周末記者獲得的一份蓋有“中國電信杭州分公司”公章的說明函顯示,此次市政施工未通知電信公司,頂管施工導致了“四條大對數光纜中斷”,造成了阿里巴巴公司的業務受到影響。
到19時左右,支付寶的服務恢複正常。事實上,在服務恢複正常的時候,被挖斷的線路還未修複完畢。上述說明函顯示,一直到28日淩晨3點57分,光纜才陸續搶通。南方周末記者就事故修複過程咨詢支付寶內部的多位技術人員,對方表示,無法提供更多的技術細節。
一家國有銀行的信息部門人士對南方周末記者表示,對於支付寶事件一種可能的推測是,連接數據中心的雙線中的一條線被破壞後,原有的容量對僅剩的一條線產生極大壓力,於是“擠爆了”支付寶的有效傳輸通道。如果剩下的一條傳輸線路中突增的服務請求不能被合理分發到所有服務器中,部分壓力過大的服務器就有可能宕機、停擺。剩下的就是滾雪球效應了:尚未宕機的服務器接到越來越多的未處理請求,壓力逐漸變大而接連發生宕機。
雙線架構是一般金融機構傳輸信息的基本架構,兩條通路的布置方向和位置還必須互相遠離,例如一條線從南出,另一條線就得從北出,甚至這兩條通信線路還要來自兩個相互獨立的運營商,以充分規避風險。
網絡上的段子手們再次第一時間發聲:“什麽互聯網+、大數據、雲計算,都頂不住傳統行業一鏟子。”
支付寶官方在回答公眾可能關心的問題時,用到一個關鍵詞“異地多活”。這也被業內人士稱為“分布式多活”,即在不同的地理空間分布著多個數據中心,一般情況下彼此地位均等,協同工作,並行提供服務;而在某個中心發生故障的情況下,其他數據中心可以正常運行並對關鍵業務或全部業務實現接管,互為備份,實現用戶的“故障無感知”。
但此次支付寶的部分用戶明顯對故障有感知,“異地多活”的救場似乎還未達到支付寶想要的最理想狀態。
其在官方聲明中也說,“作為一個金融系統,對切換中的數據與資金安全性要求極高,因此切換速度上沒有做到更快,後面我們會不斷提升切換速度。但是,這並不代表我們對這次恢複時間是滿意的,我們希望未來這樣的切換能讓用戶無感知或者最小化感知。”
但對於在“異地多活”的環境下仍超過兩小時的恢複時間,來自一家國有大行和一家互聯網公司的兩位信息安全人士均持懷疑態度:“如果是真的做到了異地多活,應當是分鐘級別的切換。兩個小時已經足夠拷貝一個數據庫的備份,然後找一個新機房重新開啟業務了。”
“當然這種猜測是基於不清楚他們的負載均衡策略和架構的,更多的符合事實的細節還是要他們自己來披露。”前述銀行人士說。
目前,國有大型銀行基本上采用“兩地三中心”的架構模式來應對緊急情況,即除了同城有一個災備中心外,異地也有一個災備中心。當一個機房出問題時,系統會切到同城或者異地的災備中心。以廣發銀行為例,南海數據中心、廣州同城備份中心、深圳異地災備中心就形成了典型的“兩地三中心”整體架構。
傳統的災備切換模式下,備用中心在接替主中心時需要較長的時間、關系複雜,會嚴重影響用戶的業務辦理,備用中心的投資回報也無法達到預期。真正在“兩地三中心”架構上實現的“異地多活”模式則具有無中斷時間、無數據損失等對客戶透明的效果,在正常運行時,備份中心也不會閑置,而是可以提供成倍的服務能力。
“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過了;攜程癱了,也平靜地過了;證券公司癱了,沒有逃成頂沒有抄成底,也平靜地過了,如果是銀行呢?”
支付寶的光纜搶通後7個小時,攜程又陷入了麻煩。5月28日上午11點左右,攜程的用戶反映,攜程的官網和App無法使用。
按照攜程官方的說法,5月28日11時09分,因部分服務器遭到不明攻擊,導致官方網站及App暫時無法正常使用。一位接近攜程的消息人士告訴南方周末記者,攜程在第一時間啟動了技術排查,所有技術人員緊急值班。大家很快發現問題出在數據庫被刪除了,而且被刪除的情況“很嚴重”。在修複過程中還發現,只要你在上面上傳代碼,數據會自動被刪除。一直到下午一點半,數據還在“持續被刪”中。
“一開始大家的第一反應是外面的黑客攻擊的,但很快意識到,應該是內部人所為,黑客不可能把數據庫刪除得這麽幹凈。”上述人士對南方周末記者透露。
當天23點左右,攜程在宕機12個小時後恢複正常。按照攜程一季度財報公布的數據計算,攜程宕機的損失為平均每小時106.48萬美元。
5月29日1點30分,攜程發表聲明稱,經攜程技術排查,確認此次事件是由於員工錯誤操作導致。
奇虎360網絡攻防實驗室負責人林偉對南方周末記者表示,即便是大企業,災備方案也做得不夠完整。
“支付寶屬於金融支付,如果是銀行,就不會出現這樣的情況,銀行有同城和異地災備等完善災備體系。攜程被刪除的代碼經過8小時還沒有恢複,有可能是在重新上線的過程中遭遇攻擊者的阻礙,影響了服務恢複的進度,否則在有備份的情況下,代碼和數據一般能在1小時內恢複。這個修複時間太長了,刪除應該是故意的,誤操作的可能性很低。”他說。
攜程的聲明發布8個小時之後,中國A股開市,經歷了5月28日的暴跌之後,A股在29日早盤一度下跌4個點,很多人紛紛賣掉自己的股票,但有些股民發現自己的證券交易軟件又出了問題,預定的逃頂和抄底計劃不得不紛紛擱淺。
互聯網公司以指數級別的加速度構築起了我們的互聯網世界,另一方面,也將用戶置於瞬時崩潰的危險之中。
但對大多數人來說,互聯網服務的中斷,遠較對其錢袋子的威脅來得輕松。相比之下,傳統金融機構開設的實體網點、背後的國家信用都讓用戶天然地抱有更多信任,當然他們的要求也更高,遇到問題常常激起更廣泛關註。
一名銀行研究人士在一個非公開的場合總結了5月底這三天接連發生的互聯網安全事件:“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過了;攜程癱了,也平靜地過了;證券公司癱了,沒有逃成頂沒有抄成底,也平靜地過了,如果是銀行呢?”
“當時主中心已經宕機,是可以選擇切換的,但是可能覺得切換的風險比修複的風險更大,所以沒有選擇切換,而是進行了修複。”
“世界上沒有絕對的安全,只有通過一個平衡可以把客戶體驗和安全做得最佳。”時任阿里小微金融服務集團(現為“螞蟻金服”)首席風險官胡曉明在接受南方周末記者采訪時曾說,在數據存儲、安全體系上,如果要投入,就是一個非常大的數字。
廣發銀行負責安全應急的部門在給南方周末記者的回複中稱,在網絡、信息系統服務器等采用高可用性架構的基礎上,還要加上日常開展有效應急演練及專項應急演練,金融機構才能比較有效應對突發情況,減少中斷時間甚至是實現無縫切換。
“這也需要在網絡設計、系統架構、數據同步、安全控制以及配套的運維管理等方面均有非常高的要求和資金投入。”一位銀行相關人士表示。
但是註重投入產出比,是大多互聯網公司安全體系建設所面臨的現狀。
“互聯網公司發展得很快,一片欣欣向榮,在自己的架構方面,可擴展性、高並發能力總是考慮得多一點。安全性、容錯性上就相對差一些。”負責過數家互聯網公司信息安全事務的林鵬對南方周末記者說,高速發展的業務通常是互聯網公司首要考慮的,在安全性上,互聯網公司遠沒有傳統金融機構的沈澱這麽多。
互聯網安全社區“烏雲”的多位人士都曾對南方周末記者提及,互聯網公司更看重業務的拓展,安全部門的地位經常居次。
金融則是對安全極為敏感的行業,當互聯網公司也爭先恐後涉足金融領域時,不得不像傳統金融機構一樣如履薄冰。
“任何一筆投資、交易的丟失都是無法被用戶接受的。”林鵬說,可資對比的是微信,作為騰訊的拳頭產品,微信也因光纜被挖斷而出現過故障,但是“發生意外時丟兩條聊天記錄,顯然在用戶的接受範圍內”。
“發生支付寶這種事件時,切是可以切的,但是誰來保證切過去之後信息的一致性?”林鵬說,通常的情況是,沒有人敢。這樣的切換即使在技術上能達到,目前對於各大銀行等金融機構來講也是幾乎未在實際操作中嘗試過的昂貴操作:一則風險太大,要保證整個數據的完整性;二則可能切換不回來。
“據我所知從沒有哪個銀行真的切換了的,大多是在演習。有一些故障時,一般是等到故障修複或者系統回退,而不是選擇切換。”前述銀行信息部門人士對南方周末記者說。
2013年6月23日上午10點38分至11點23分,工商銀行部分地區因計算機系統升級原因造成櫃面和電子渠道業務辦理緩慢,ATM機暫停服務,甚至連余額都無法查詢。“當時主中心已經宕機,是可以選擇切換的,但是可能覺得切換的風險比修複的風險更大,所以沒有選擇切換,而是進行了修複。”一位接近工商銀行的人士對南方周末記者說。
金融機構的信息系統出現問題,往往還會帶來意料之外的猜測甚至恐慌。
工商銀行短暫宕機事件適逢全國“錢荒”,在故障剛出現時,就有輿論揣測,工行是因為資金鏈緊張而無法辦理取款業務。最終,其官方微博在23日12點50分時表示,“系統已恢複,各項業務正常辦理。”事後的複盤也證明,確實是信息系統故障導致了前述事故。
IBM方面提供給南方周末記者的一篇報道顯示,2014年8月,中國工商銀行的同城雙活數據中心投產。“雙活”方案意味著,“當任何一個站點的系統計劃內或計劃外需要停止運行時,金融交易可以在分鐘級的時間內全部轉移至另外一個中心,並對外提供服務”。
但這是任何一家金融機構不到最後不願按動的“最危險按鈕”。