什么樣的云服務才可靠?
身處“互聯網+”時代,互聯網已經像吃飯睡覺一樣,成為了許多人生活中不可或缺的一部分。這在對相關云服務提供商提出越來越高要求的同時,其所要承擔的風險也在急劇增加。以金融行業為例,如果某銀行系統中斷1小時,將直接影響其基本支付業務;中斷1天,將對其聲譽造成極大傷害;中斷2-3天以上不能恢復,將直接危及其他銀行乃至整個金融系統的穩定。由此我們不難想見,一旦云服務出現故障,用戶將會多么抓狂。
正是因為對業務持續性有著極高的要求,業界對數據中心供電提出了“5個9”的可用性標準,即一年之內保持99.999%的時間不斷電。換句話來說,也就是數據中心一年之內斷電時長不超過5分鐘。不過即使是亞馬遜AWS這樣的巨頭,也很難達到這樣高的標準。
為了更好地對不同標準的數據中心基礎設施進行區分,國際正常運行時間協會(the Uptime Institute,簡稱UI)將其劃分為從T1到T4等四個級別:
一、T1第一級數據中心:基礎類型
T1有計算機電力配送和制冷,但不一定配備架空地板、UPS或發電機。即使有UPS或發電機也是單模塊系統,具有多處單點故障。為了進行預防性的維護和維修,一般基礎設施每年需要完全關閉一次,在緊急情況下甚至可能需要頻繁關機。對各部件的操作錯誤或自然故障,將導致整個數據中心運行中斷。T1數據中心的可用性為99.671%。
二、T2第二級數據中心:組件冗余
T2配備架空地板、UPS和發電機,并具有一些冗余組件,因而引發數據中心中斷的可能性小于T1數據中心。不過T2的UPS和發電機的設計容量是N+1且為單回路設計,有單點中斷可能。對關鍵電路和其他基礎設施進行維護,需要程序式地關閉設備。T2數據中心的可用性為99.741%。
三、T3第三級數據中心:在線維護
T3可以在不引起計算機硬件運行中斷的情況下進行所有的計劃性現場活動,包括保護性和程序式的維護、維修和元件替換,增加或減少與處理能力相關的部件,對部件和系統進行測試以及更多活動。使用水冷的大型系統需要兩個獨立通路提供充足的處理能力和配電通路,允許在一條通路承擔負載工作的同時,用另一條通路進行維護和測試。不過操作錯誤或設施部件自然故障等非計劃活動,還是會引起數據中心的中斷。T3數據中心的可用性為99.982%。
四、T4第四級數據中心:容錯系統
T4需要所有的硬件都具備雙路供電,其容錯能力不但可以保證任何的計劃性活動不會引起關鍵負載的中斷,而且還能為基礎設施提供至少可以忍受一次的最糟糕情況——非計劃性故障或非關鍵性負載事件的沖擊的能力。這需要同時活動的兩條配送途徑,通常是雙系統(S+S)配置,從電力角度來說則需要兩個獨立的(N+1)UPS系統。不過根據消防和供電安全規范的要求,還是會有因為火災報警或啟動緊急停電程序而導致的停機時間發生。T4數據中心的可用性為99.995%。
目前常見的數據中心基礎設施,其等級大多介于T3和T4之間。而選擇亞馬遜、阿里云、騰訊云這類IaaS(Infrastructure as a Service,基礎設施即服務)云服務提供商的企業,則是租用其提供的服務器,然后自行安裝配置各種軟件環境。其中作為眾多同行學習的行業標桿,亞馬遜AWS用的是自建數據中心,功能很強但是價格也偏貴;而由于規模原因,阿里云、騰訊云等國內互聯網巨頭在香港的數據中心則是租用了合作伙伴的,這種非自建的租用模式對合作伙伴的能力和內部協調效率都是一種考驗。最近兩個月來一連串的宕機事件也說明,大廠商、大品牌并不一定可靠,構建多IDC的同城災備或異地災備系統才是王道。不過包括阿里云和騰訊云在內,其在香港都是單一數據中心,尚未構建同城災備系統。
有意思的是,阿里云、騰訊云均聲稱目前正在籌建香港的第二個數據中心。這也從另一個側面體現了多IDC災備系統的重要性。