對于服務(wù)器租用用戶來說再好的數(shù)據(jù)中心也會有因為數(shù)據(jù)中心升級導(dǎo)致的停機事故發(fā)生。那對于用戶而言如何避免呢?
數(shù)據(jù)中心的升級計劃
數(shù)據(jù)中心升級的第一步是計劃。首先考慮計劃購買的硬件,或確保新軟件版本與網(wǎng)絡(luò)上的其他資源兼容。這個階段的過程還涉及到如何在不中斷的情況下執(zhí)行升級。
傳統(tǒng)上,數(shù)據(jù)中心升級計劃意味著為組織提前通知各個系統(tǒng)將離線進行維護,然后通常在夜晚無人或很少有人工作時進行升級。這種方法在現(xiàn)代工作流程中不太可行,因為組織經(jīng)常開展遠程工作,并且可能在非工作時間工作。此外,全球性組織必須支持在不同時區(qū)全天候工作的最終用戶。
減少數(shù)據(jù)中心升級影響的一種方法是將受影響的工作負載臨時移動到公共云。一旦移動這些工作負載并重新加載路由流量,就可以開始升級過程,而不必擔(dān)心組織的工作負載中斷。
數(shù)據(jù)中心的升級測試
準備升級的第二步是在升級之前測試可以測試的任何內(nèi)容。執(zhí)行升級前測試的能力可能會因組織正在升級的內(nèi)容而異,但通?梢詼y試某些內(nèi)容。例如,如果組織計劃將某個軟件升級到較新版本,則可能需要在實驗室環(huán)境中完成升級過程,以了解其工作原理。一旦實驗室設(shè)置能夠運行新的軟件版本,就可以測試錯誤和兼容性問題。
如果組織不具備內(nèi)部專業(yè)知識,請務(wù)必研究可以幫助進行配置和軟件測試的服務(wù)提供商。對于規(guī)模更大或?qū)I(yè)的升級來說,這有助于減少升級過程后必須執(zhí)行的故障排除。
數(shù)據(jù)中心的冗余
人們對于冗余的討論通常集中在容錯上。即便如此,在整個數(shù)據(jù)中心升級過程中保持關(guān)鍵工作負載在線運行也很有幫助。例如,如果組織需要更換老舊的網(wǎng)絡(luò)交換機,則通常會在執(zhí)行更換之前通過輔助交換機建立冗余通信路徑。這可以防止組織的工作負載在升級期間丟失連接。
同樣,數(shù)據(jù)中心內(nèi)的Windows服務(wù)器通常分組為故障轉(zhuǎn)移群集。微軟公司設(shè)計了Windows故障轉(zhuǎn)移群集功能以支持不斷升級。組織可以在整個升級過程中以允許群集保持聯(lián)機的方式一次升級群集節(jié)點(不包括正在升級的節(jié)點)。將節(jié)點置于維護模式,進行離線升級,然后重新聯(lián)機并退出維護模式。
然后,組織可以使用下一個節(jié)點重復(fù)此過程,直到升級每個節(jié)點。由于一次只有一個節(jié)點處于離線狀態(tài),因此所有群集的高可用性工作負載將在整個升級過程中保持聯(lián)機狀態(tài)。但是,在開始升級之前,必須確保群集具有足夠的電源和冷卻資源,以便在沒有群集節(jié)點的情況下運行其工作負載。