數(shù)據(jù)中心宕機會對整個企業(yè)產(chǎn)生負面影響,雖然首席信息官們不需要每天考慮數(shù)據(jù)中心的運營情況,但他們需要了解有關(guān)數(shù)據(jù)中心業(yè)務的一些基本要素,因為這些要素與數(shù)據(jù)中心宕機事件有關(guān)。以下就是首席信息官必須知道的關(guān)于數(shù)據(jù)中心宕機的10個問題:
1.假設(shè)數(shù)據(jù)中心明天要宕機,你會怎么做?
這是一個價值上百萬美元的問題,大概很多首席信息官都回答不上來,但是,如果事前不知道數(shù)據(jù)中心存在的漏洞和缺陷,就更有可能出現(xiàn)業(yè)務中斷的情況。首席信息官需要與經(jīng)驗豐富的顧問合作,利用他們的專業(yè)知識,通過新的視角來解決這個問題,這樣以來至少可以審查兩件事情:數(shù)據(jù)中心的設(shè)計方式和數(shù)據(jù)中心的運作方式。審查將有助于確定數(shù)據(jù)中心潛在的風險,并指出減輕潛在風險的方法。
2.你的企業(yè)是否定義了何為重大中斷事故?
這里的關(guān)鍵定義是“重大中斷”,不同規(guī)模的企業(yè)對這個定義的認識會不同,同時,定義也會因應用程序而發(fā)生變化。“重大中斷”這一定義對于發(fā)現(xiàn)和阻止意外中斷至關(guān)重要,一旦定義完成,企業(yè)就會開始跟蹤,測量和傳達這些定義。
3.你的企業(yè)最為關(guān)鍵的應用程序是什么?
我們常常會聽到每個應用程序都很重要,但是每個企業(yè)都有自己定義的最為關(guān)鍵的應用程序和服務。例如,一家醫(yī)院的網(wǎng)站中斷并不能阻止病人得到治療,但是一家電子商務公司的網(wǎng)站中斷就會導致銷售錯誤,并帶來一定的損失,這是因為醫(yī)院和公司定義的最關(guān)鍵的應用程序不同。企業(yè)一旦確定了最關(guān)鍵的應用程序和服務,就會根據(jù)具體的業(yè)務情況和風險承受能力,確定誰將保護它們以及如何保護它們。
4.如何衡量數(shù)據(jù)中心中斷的成本?
清楚數(shù)據(jù)中心中斷成本可以幫助企業(yè)做出更好的決策,通過開發(fā)一個模型來確定業(yè)務的中斷成本,并根據(jù)成本來降低風險,幫助企業(yè)做出更明智的決策。企業(yè)的停電總成本可能是模糊的,因為它需要花費一定的時間去做統(tǒng)計。有些發(fā)電機項目和UPS升級失敗,只是因為經(jīng)理沒有將數(shù)據(jù)中心中斷成本告訴業(yè)務人員。所以,這里給出一個忠告:停電的證據(jù)和費用必須是真實的。
5. 數(shù)據(jù)中心中斷造成的間接業(yè)務成本是多少?
雖然每個企業(yè)之間的成本差別很大,但都是難以量化的成本,如生產(chǎn)力損失,競爭優(yōu)勢的喪失,客戶忠誠度降低,監(jiān)管罰款,以及許多其他類型的損失。
6.你是否制定了程序和制度來減少數(shù)據(jù)中心的人為錯誤?
根據(jù)最近Uptime Institute機構(gòu)的統(tǒng)計顯示,大約73%的數(shù)據(jù)中心中斷是人為原因引起的。在人們能夠采用機器取代工作人員之前,解決這個問題的唯一方法是明確定義流程。目前,這個統(tǒng)計數(shù)字并沒有隨著時間的推移而改變,這表明大多數(shù)企業(yè)在這方面還有很多工作要做。同時,執(zhí)行這些政策也至關(guān)重要,因為許多企業(yè)雖然有健全的政策,但沒有充分執(zhí)行。
7.你的數(shù)據(jù)中心安全策略是否與你的業(yè)務安全策略一致?
現(xiàn)在,IT部門和設(shè)施部門正在協(xié)作,并在為尋求更好的合作而努力。人們常見的問題是,企業(yè)物理安全系統(tǒng)需要在數(shù)據(jù)中心內(nèi)運行,但企業(yè)其他部門則不需要,如果把企業(yè)安全和數(shù)據(jù)中心運營整合或共享數(shù)據(jù),則會產(chǎn)生問題。
8.你是否有一個結(jié)構(gòu)化和持續(xù)的應用程序?
隨著業(yè)務需求的變化,企業(yè)的應用程序和服務也會發(fā)生變化。所以在數(shù)據(jù)中心中運行的所有應用程序應至少每年進行一次評估和評審,并根據(jù)業(yè)務的可靠性、性能和安全需求,為每個應用程序確定最佳類型的基礎(chǔ)結(jié)構(gòu)。
9.你的物聯(lián)網(wǎng)安全策略是什么?
現(xiàn)在大多數(shù)企業(yè)已經(jīng)解決或減輕了自攜設(shè)備(BYOD)的威脅,物聯(lián)網(wǎng)設(shè)備很可能成為下一個跟蹤和監(jiān)控的主要類別的輸入設(shè)備。但是一直以來企業(yè)只監(jiān)視應用程序堆棧的活動,而不監(jiān)視物聯(lián)網(wǎng)設(shè)備,而這些設(shè)備在運行企業(yè)的IT堆棧的物理基礎(chǔ)設(shè)施(如電源和冷卻系統(tǒng))中起著重要作用,由于這些設(shè)備沒有受到保護,數(shù)據(jù)中心中斷的風險則會增加。
10.你的業(yè)務連續(xù)性、災難恢復過程是什么?
如果你有一個非常重要的數(shù)據(jù)中心活動,那么你是否已經(jīng)做好計劃?活動的流程是很關(guān)鍵的,大多數(shù)企業(yè)在這些過程中都會進行設(shè)計、實施,并記錄。如果你還沒有做好計劃,企業(yè)的員工是否知道他們需要做什么?然而,大多數(shù)人不了解這些過程并且沒有實踐經(jīng)驗,所以他們不知道當一個重大事件發(fā)生時該怎么辦。
以上十個問題是數(shù)據(jù)中心IT運營面臨的最大的風險和問題。你能否回答這些問題?如果不能,現(xiàn)在是尋找答案的時候了。