災備建設的(de)最終目的(de)就是要保護業(yè)務的(de)連續性運行(xíng),除了技術(shù)層面的(de)支撐外,還有(yǒu)人(rén)員、規劃和(hé)流程等非技術(shù)決策層面支撐。隻有(yǒu)技術(shù)和(hé)規劃通力配合,才能(néng)在真正發生災難時保證業(yè)務連續性;
業(yè)務連續性規劃是進行(xíng)災備建設的(de)大(dà)前提。沒有(yǒu)業(yè)務連續性規劃,災備建設就沒有(yǒu)意義,充其量隻能(néng)做到(dào)數據不丢失,不能(néng)及時恢複業(yè)務運行(xíng),而保障業(yè)務連續性運行(xíng)才是真正核心。通過業(yè)務連續性規劃,分(fēn)析梳理(lǐ)出各項業(yè)務的(de)恢複優先級及其恢複要求(RTO、RPO 以及恢複業(yè)務所需的(de)資源等),進行(xíng)業(yè)務連續性規劃的(de)方法通常采用(yòng)國際上(shàng)流行(xíng)的(de)DRI 十大(dà)最佳慣例:
①規劃啓動與管理(lǐ)
②風險評估與控制(zhì)(RA)
③業(yè)務影響分(fēn)析(BIA)
④制(zhì)定業(yè)務連續性策略
⑤應急準備及響應
⑥編制(zhì)和(hé)貫徹實施業(yè)務連續性計(jì)劃
⑦認知與培訓計(jì)劃
⑧業(yè)務連續性計(jì)劃的(de)演練、審計(jì)和(hé)維護
⑨危機溝通
⑩與外部機構的(de)協調
這些規則适用(yòng)于企業(yè)和(hé)業(yè)務功能(néng),當然也(yě)适用(yòng)于信息系統。業(yè)務連續性規劃确定了保護業(yè)務的(de)各項要求(如(rú)RTO、RPO等),支持業(yè)務運行(xíng)的(de)信息系統自然就要根據這些要求來确定相(xiàng)應的(de)信息系統恢複目标和(hé)恢複策略。
通過業(yè)務連續性規劃梳理(lǐ)出業(yè)務的(de)恢複要求和(hé)恢複優先級後,就要根據這些要求來梳理(lǐ)支持這些業(yè)務的(de)IT 應用(yòng),同樣需要分(fēn)析出這些IT 應用(yòng)的(de)恢複優先級和(hé)恢複指标(RTO、RPO,以及恢複所需的(de)資源等)。
災備規劃采用(yòng)的(de)方法與業(yè)務連續性規劃的(de)方法基本一緻,主要區别僅在于前者針對的(de)是支持業(yè)務運行(xíng)的(de)IT應用(yòng)和(hé)系統,後者主要關注的(de)是業(yè)務流程。這裏針對IT應用(yòng)和(hé)系統的(de)恢複要求應該與針對業(yè)務的(de)恢複要求相(xiàng)匹配。通過災備規劃,确定所有(yǒu)支持業(yè)務運行(xíng)的(de)IT系統的(de)各項恢複指标,并制(zhì)定IT系統的(de)恢複策略以及IT系統的(de)恢複計(jì)劃。
根據災備規劃對支持業(yè)務運行(xíng)的(de)IT 系統提出的(de)恢複要求和(hé)恢複策略來設計(jì)災難恢複技術(shù)方案,例如(rú)同城災備、異地(dì)災備、兩地(dì)三中心、雙活、雲災備等等。需要注意的(de)是,評價這些技術(shù)方案的(de)适用(yòng)性時,并非恢複時間越短就越好(恢複時間越短往往成本也(yě)越高(gāo)),滿足災備規劃确定的(de)恢複要求才是最爲重要的(de)。隻有(yǒu)滿足災備規劃提出的(de)恢複指标要求、技術(shù)成熟可(kě)靠、成本效益高(gāo)的(de)災備方案才是最佳選擇。
災備方案的(de)實施是确保所設計(jì)的(de)災備方案真正有(yǒu)效的(de)重要環節,需要制(zhì)定詳細的(de)工(gōng)作計(jì)劃,包括場(chǎng)地(dì)選址、産品選型、服務商選擇、資源保障、項目管理(lǐ)、驗收評審、演練測試等内容。同時還應該根據災備設計(jì)方案,結合業(yè)務連續性規劃要求,制(zhì)定出完整的(de)災備計(jì)劃(包括災難應急響應總體預案、危機溝計(jì)劃、各系統的(de)專項應急預案等),确保各部門在災難發生時能(néng)夠統一協調地(dì)行(xíng)動。
風險分(fēn)析與業(yè)務影響分(fēn)析
1. 風險分(fēn)析
企業(yè)需要根據自身所處環境的(de)實際情況,确定IT運行(xíng)環境中存在哪些無法接受的(de)物(wù)理(lǐ)威脅或者可(kě)能(néng)發生的(de)災難,并對災難發生的(de)可(kě)能(néng)性、目前可(kě)能(néng)的(de)防護措施的(de)有(yǒu)效性和(hé)該災難所威脅的(de)資産價值進行(xíng)分(fēn)析,最終得到(dào)帶有(yǒu)優先級别的(de)需要防範的(de)風險及其分(fēn)級列表,并制(zhì)訂出可(kě)能(néng)的(de)處理(lǐ)方法。例如(rú)接受該災難發生時的(de)風險而不進行(xíng)防範、制(zhì)訂該災難的(de)預防措施或者采取購(gòu)買保險等風險轉嫁策略。
2. 業(yè)務影響分(fēn)析
在本階段,通過走訪各業(yè)務部門的(de)相(xiàng)關人(rén)員對各種業(yè)務流程進行(xíng)分(fēn)析,了解各種業(yè)務流程對企業(yè)的(de)重要性和(hé)時間敏感性。同時根據相(xiàng)關的(de)評判原則,得出在核心流程由于災難發生而無法正常進行(xíng)時企業(yè)本身的(de)損失情況。這種損失可(kě)能(néng)是可(kě)以量化的(de),例如(rú)單據的(de)丢失、計(jì)算的(de)錯誤而導緻的(de)直接損失;也(yě)可(kě)以是無形的(de)損失,例如(rú)客戶滿意度及競争優勢的(de)丢失。通過對可(kě)量化和(hé)不可(kě)量化損失的(de)綜合考慮,得出各種核心業(yè)務流程對于災難受損的(de)可(kě)容忍程度,并作爲确定其恢複優先級的(de)決策依據,最終确定這些核心業(yè)務流程的(de)恢複要求指标。
災備方案設計(jì)
結合分(fēn)析階段的(de)分(fēn)析成果,以及企業(yè)本身在災備上(shàng)的(de)投入,制(zhì)訂企業(yè)短期、長期範圍内的(de)災備策略和(hé)目标,并有(yǒu)意識地(dì)将企業(yè)本身的(de)人(rén)員組成和(hé)組織架構做出調整以适應策略要求。本階段最爲重要的(de)是制(zhì)訂出災備的(de)具體實施方案。
災備方案可(kě)供選擇的(de)範圍很大(dà),但(dàn)所有(yǒu)的(de)災備方案都(dōu)必須考慮的(de)因素包括恢複時間、實施與維護災備策略所需的(de)投入等。災備恢複時間的(de)需求越短,所需的(de)實施成本就越大(dà),實施難度也(yě)就越高(gāo)。
災備計(jì)劃制(zhì)定
有(yǒu)了IT 系統的(de)恢複方案,隻能(néng)夠保證在災難發生時,IT 系統的(de)恢複能(néng)夠支持業(yè)務的(de)恢複目标,但(dàn)是業(yè)務的(de)連續性并不隻是IT 系統的(de)恢複。因此,災備方案在設計(jì)中還需要涉及包括辦公場(chǎng)地(dì)、辦公設備、緊急流程、指揮架構、人(rén)員調度等多方面、多部門的(de)綜合考慮。隻有(yǒu)業(yè)務執行(xíng)過程的(de)每一個(gè)環節都(dōu)達到(dào)災備目标的(de)要求,才能(néng)夠認爲災備方案的(de)目标得到(dào)了滿足。因此,需要制(zhì)定一個(gè)完整的(de)災備計(jì)劃,來統一協調各部門在災難發生時的(de)行(xíng)動計(jì)劃。同時制(zhì)定災備計(jì)劃時需要确保其與企業(yè)業(yè)務連續性計(jì)劃協調一緻。一般來說,每個(gè)企業(yè)都(dōu)應該設立一個(gè)由領導挂帥,各業(yè)務部門和(hé)IT 部門聯合組成的(de)一個(gè)災備指揮小(xiǎo)組。
災備方案實施
災備體系的(de)搭建經常需要涉及到(dào)公司内多個(gè)部門的(de)協調,因此在方案實施的(de)過程中,需要把每項工(gōng)作的(de)内容、目标要求、實施的(de)方法步驟以及督促檢查等各個(gè)環節都(dōu)做出具體明(míng)确的(de)安排,具體落實到(dào)工(gōng)作分(fēn)幾個(gè)階段、什(shén)麽時間開(kāi)展、什(shén)麽人(rén)來負責、領導及監督如(rú)何保障等。
方案在實施的(de)過程中具有(yǒu)很強的(de)規定性,表現在一方面,方案實施要根據方案分(fēn)析和(hé)方案設計(jì)的(de)具體操作流程進行(xíng),而不能(néng)是随意進行(xíng)。有(yǒu)效的(de)災備操作流程往往可(kě)以節省大(dà)量的(de)時間和(hé)減少(shǎo)錯誤。反之,就會(huì)帶來不必要的(de)損失。例如(rú),在虛拟環境下的(de)災備系統,就要提前規劃需要用(yòng)幾台服務器(qì)去虛拟出三十、四十,甚至上(shàng)百的(de)虛拟服務器(qì),而且需要長期運行(xíng)。如(rú)果沒有(yǒu)好的(de)操作流程,不利于災備中心的(de)運維。另一方面,方案實施工(gōng)作具有(yǒu)強制(zhì)性,一旦開(kāi)啓,相(xiàng)關部門單位就要按照(zhào)具體計(jì)劃認真組織實施。
災備演練
災備演練是基于不同災備類别中某一特定的(de)場(chǎng)景而進行(xíng)的(de),災難場(chǎng)景不同、災備技術(shù)複雜度不同,演練的(de)技術(shù)過程與周期也(yě)不盡相(xiàng)同。
具體的(de)演練包括:系統更新、調整,原有(yǒu)的(de)災難恢複預案是否仍然有(yǒu)效;災備系統是否需要進行(xíng)有(yǒu)效的(de)更新;系統切換流程、步驟是否有(yǒu)遺漏和(hé)錯誤;災備系統的(de)切換時間是否可(kě)以滿足業(yè)務的(de)恢複需要等。常見的(de)三種災備演練方式包括:
桌面演練也(yě)叫“沙盤推演”,是最基礎的(de)災備演練方式。通過對初始災難恢複預案的(de)一個(gè)理(lǐ)論驗證,進而測試急響應預案和(hé)災難恢複體系的(de)完整性和(hé)有(yǒu)效性,使相(xiàng)關人(rén)員了解應急響應及業(yè)務恢複流程,全面驗證技術(shù)及業(yè)務管理(lǐ)指揮、流程操作、協調配合等方面的(de)綜合能(néng)力。
模拟演練以桌面演練結果爲基礎,由IT 部門與相(xiàng)關業(yè)務部門參加模拟演練,采用(yòng)模拟數據和(hé)模拟業(yè)務系統運行(xíng)演練。模拟演練的(de)過程高(gāo)度接近真實災難發生時的(de)處理(lǐ)過程,通過演練可(kě)以檢驗災備系統的(de)可(kě)用(yòng)性、災難恢複預案的(de)可(kě)行(xíng)性以及增加參演人(rén)員對災難處理(lǐ)過程的(de)感知度與配合的(de)默契度。
作爲災備演練的(de)最高(gāo)的(de)階段,實戰演練的(de)場(chǎng)景最爲真實,更易于發現潛在問題并進一步完善災備系統,但(dàn)随之而來的(de)就是演練成本的(de)提高(gāo)。因此,在實戰演練中,也(yě)會(huì)存在很多挑戰,這時,關鍵是使其理(lǐ)解并支持演練能(néng)夠周期性地(dì)進行(xíng),同時發現問題及時改進才是成功的(de)演練(無論是否用(yòng)到(dào)真實環境),應避免流于形式的(de)表演。