災難恢復(Disaster recovery,也稱災備),指自然或人為災害后,重新啟用信息系統(tǒng)的數據、硬件及軟體設備,恢復正常商業(yè)運作的過程。
災難恢復定義
本文講述的是信息技術與管理概念。關于人體意外與急救,詳見“災難應對”。
災難恢復規(guī)劃是涵蓋面更廣的業(yè)務連續(xù)規(guī)劃的一部分,其核心即對企業(yè)或機構的災難性風險做出評估、防范,特別是對關鍵性業(yè)務數據、流程予以及時記錄、備份、保護。
虛擬化恢復
通過允許虛擬機在物理服務器之間進行無縫遷移,虛擬化提供了革命性的災難恢復計劃。
構建災難恢復站點的準備
在構建一個遠程威睿災難恢復站點之前,有許多問題需要考慮。
清查現有的基礎設施。在徹底理清一個主要數據中心的資產之前,不能對其進行復制。
了解應用程序和它們的依存關系。明確哪些應用程序需要抵抗災難的能力。要考慮到(主站點和備份站點)存儲和網絡架構之間任何潛在的差異,確保程序即使在不同的環(huán)境下,也能夠按照預期實現把故障轉移到備份站點。
建立恢復點目標(RPO)和恢復時間目標(RTO)。如果數據每小時復制到第二數據中心,當災難發(fā)生時,有可能最多丟失之間59分59秒的數據。如果這樣是可接受的,不會嚴重地影響業(yè)務,那么PTO可以設定為一個小時。
為用戶服務。終端用戶也許不能夠訪問運行維護的所有的服務器和應用程序。要考慮怎樣替換用戶們的桌面和應用程序,明確他們怎樣進行遠程訪問。
構建災難恢復站點的實施
選取數據中心地址。一條可承擔到主數據中心的高速連接是選擇災難恢復中心需要考慮的關鍵的幾個因素之一。
獲取、安裝和準備硬件。
安裝和配置VMware vSphere。
選擇工具。
實施復制。初始化數據的復制將是最大規(guī)模的數據傳輸,隨后的對發(fā)生改變的塊進行復制將會小很多,但是復制數據的大小會依據應用程序中數據量改變的大小而定。復制的數據的大小也會依據復制的間隔(由RPO決定)而變化。
虛擬化在災難恢復時中的作用
硬件獨立:基于物理系統(tǒng)的災難恢復解決方案都需要將相同的硬件保留到恢復站點,或必須經過很多復雜耗時的步驟在新的或不同的硬件上重建服務器操作系統(tǒng)。有時候碰巧恢復服務器就是同一個硬件模型,但是包含了最新硬盤控制器固件,會導致服務器鏡像延遲。虛擬化使硬件從操作系統(tǒng)中抽象化,而且使操作系統(tǒng)中使用的設備驅動器統(tǒng)一化,不管是何種底層硬件模型,所有虛擬機都使用一個共同的驅動集。這樣,在新服務器上安裝服務器鏡像時就省了很多設備驅動對應的麻煩,大大減少了恢復時間和配置錯誤的風險。
虛擬機磁盤格式文件:虛擬機將其子操作系統(tǒng)、應用、存儲和配置(如IP地址)存放在一個文件里。這個文件——虛擬機磁盤格式(VMDK)或虛擬硬盤(VHD)文件,包含了整個操作系統(tǒng)環(huán)境以便能進行簡單的虛擬機裝載和保存。這個文件不僅包含了操作系統(tǒng)鏡像和應用編碼,還描述了虛擬機所需的配置,其中包括虛擬處理器、內存和設備。這個簡單的可移動文件包含了組成服務器所需的一切信息、服務器環(huán)境描述、實際碼和數據。從虛擬機磁盤文件啟動虛擬機時系統(tǒng)會自動迅速設置所有參數。在災難恢復站點進行恢復會變得很簡單,只需啟動VMHD或VHD。
物理工具到虛擬工具:虛擬機解決方案需要利用管理工具來創(chuàng)建、啟動、停止和保存虛擬機鏡像。為了方便創(chuàng)建虛擬機,有很多工具可以幫助分析物理服務器和從服務器創(chuàng)建VMDK或VHD。從物理系統(tǒng)創(chuàng)建的VMDK或VHD文件可以很快地部署到恢復站點。
硬件再利用:恢復站點的虛擬機硬件不必閑置在那里等著災難發(fā)生,它也可以用作開發(fā)、測試或其它用途。當發(fā)生災難時,關閉用于測試或開發(fā)的虛擬機,然后啟動生產虛擬機,這個過程只需幾秒鐘即可完成。
災難恢復的復雜性剖析
由于用戶對于服務器虛擬化技術接受程度不斷提高,業(yè)界有一種對于所謂的“萬能的高可用策略”的需求。雖然這種做法可以在一定程度上通過集群故障遷移技術實現簡化數據保護的步驟,但并不是所有的數據保護都支持這種做法。
首先,即使當前關于服務器虛擬化部署最樂觀的預測成為現實,到2016年也仍然有21%的X86平臺的關鍵業(yè)務(產生收入的高性能事務處理程序)運行在高達75%的沒有使用任何虛擬化技術的物理服務器上。所以,針對虛擬化和非虛擬化的不同服務器采用不同的策略是很有必要的。
在采用了 x86 虛擬化技術的工作負載中,一些虛擬機(VMs)和它們對應的數據盤(表現為VMDK 和 VHD 文件)相比其他虛機和數據盤次要一些。在沒有使用虛擬化技術的環(huán)境中存在很多不同的虛擬程序,但并不是所有的應用程序都是關鍵業(yè)務相關。傳統(tǒng)的服務器環(huán)境中,一些應用程序和虛擬機被頻繁使用,也有一些使用的不是那么頻繁,這些現實情況都影響著數據備份和數據復制的頻率和策略。
災難恢復計劃
制定災難恢復計劃和構建基礎架構是一件讓IT經理煩惱的事。云服務提供更低的成本和更大的靈活性,但并不是沒有風險的。
災難恢復即服務意味著更多的部署和靈活性測試,但也意味著更多的不確定性。
災難恢復(DR)會導致大量令人棘手的問題;災難恢復系統(tǒng)價格昂貴, 災難恢復配置難度較高,而且大多數災難恢復只能在非業(yè)務時間進行故障恢復測試,災難恢復模擬故障的內容很容易就過時了。災難恢復服務(DRaaS)是一種云端容災的方法,成本更低,更容易部署,有定期提供測試計劃的能力,能與企業(yè)的變化保持同步。
值得注意的是,云端的災難恢復選件可能在毀滅性的災難之后不可用。這意味著滯留IT資源和數據,使企業(yè)癱瘓。
如何制定災難恢復計劃
數據中心工作人員和業(yè)務相關人員花了很多時間和精力在到制定和測試災難恢復腳本上。
首先,預測潛在的數據中心災難:災害性天氣,停電,供應商系統(tǒng)脫機,內部人員的破壞或外部攻擊都是有可能的。
確定公司的災難恢復應用程序要立即在線。審核清單和優(yōu)先考慮日常運作的重點程序。
接下來, 原始資料和安裝冗余數據中心基礎設施——服務器、軟件、網絡連接、支持應用程序的載體,。災難恢復計劃無法避免成本考慮;一個離線數據中心是昂貴的。
通常, 災難恢復計劃要求復制每個應用程序的基礎設施組件。此外, 災難恢復需要和主備份站點網絡連接,給備份系統(tǒng)當前的軟件信息。
適當的工作人員需要了解如何調用備份進程。他將決定哪些系統(tǒng)使用和哪些員工應該更換系統(tǒng)備份。災難恢復的職責包括通知他們的網絡和系統(tǒng)提供商更改的數據和確保員工知道如何恢復系統(tǒng)。理想情況下,業(yè)務用戶只是略有影響。IT團隊需要在災難恢復數據期間提供最新的備份資料程序給工作人員。
IT部門經常花很多時間在設計和分析物理災難恢復計算環(huán)境上,而不是把時間用在編碼和測試中增加價值。測試一個災難恢復計劃,數據中心團隊要和相關的操作系統(tǒng)和所有最新的補丁一起測試需要,接收、框架、堆疊和安裝硬件。他們創(chuàng)建災難恢復用戶帳戶,部署框架或應用程序服務器環(huán)境和安裝測試工具。程序員可以花一半的時間在普通的災難恢復基礎設施問題上,而不是把時間用在實際的測試程序。
因為災難恢復過程復雜,企業(yè)通常一年一次或兩次進行測試偶發(fā)性的災難恢復計劃。公司越大,對災難恢復計劃證明過程越復雜。
一旦災難恢復程序進入計劃,他們很快變成過時。應用不斷變化,因此團隊必須在經常審查和更新災難恢復程序。大公司在計劃的每個細節(jié)上花費員工眾多的時間和高達7位數以上的金錢($1,000,000+)。災難恢復花費更多以確保計劃仍然是可行的。
許多企業(yè)只是口頭上承認災難恢復。在IT投資上,花大量的時間來緩解這1%,甚至更低的災難恢復風險似乎并不是個好的投資。IT經理有一份又長又不斷增長的日常優(yōu)先清單,而當災難發(fā)生時,災難恢復是唯一重要的事。
災難恢復服務選項
云服務在共享基礎設施上不斷省錢。云的虛擬化和自動化的進步使之有更大的靈活性。企業(yè)根據需要使用云資源,雖然只是在關鍵的應用上。暫時的案例中災難恢復測試發(fā)生容易增加。
基于云端的災難恢復,程序員不用在比特和字節(jié)上苦干;他們在硬件和操作系統(tǒng)界面上工作。因此更多的IT自動化的任務,生產力的提高和災難恢復測試時間的減少。數據中心的工作人員可以做為優(yōu)先程序更經常, 分配更多的資源測試整個災難恢復服務功能。
云端災難恢復服務的價格正在上升: 根據咨詢公司預測,從2013年的640,800,000美元漲到2018年的5,800,000,000美元,復合年增長率為55.2%。
當云端成為一個風暴
災難恢復服務有其局限性。
“云端災難恢復供應商無法完備份系統(tǒng)冗余,“劍橋公司的災難恢復分析師Rachel Dines說。
災難恢復供應商不能證明以模仿每個客戶的基礎設施設置建設的數據中心成本, 所以他們走捷徑。災難恢復服務提供商將構建系統(tǒng)處理數量有限的故障。理論上講,如果遇到災難恢復特定場地的問題,比如數據中心的電力中斷,企業(yè)將災難恢復他們的系統(tǒng),。然而,如果發(fā)生重大自然或人為災害,可能沒有足夠的空間在災難恢復站點運行每個災難恢復服務客戶的應用程序。當發(fā)現當災難發(fā)生時, IT組織在危難關頭唯一能做的是找到它并解決,因為災難恢復服務比傳統(tǒng)的災難恢復構建有更大程度的風險。
云端的災難恢復也增加了企業(yè)網絡帶寬的需求。在供應商的云端災難恢復服務放置應用程序副本和虛擬機(VM)鏡像。那些應用程序和虛擬機鏡像不斷更新,來自企業(yè)生產站點與災難恢復服務供應商的數據中心的數據傳輸。這種加載應變可用帶寬。災難恢復服務能夠很好地處理簡單的應用程序,但可能降低網絡性能的進程密集型系統(tǒng),如客戶關系管理、企業(yè)資源規(guī)劃應用程序。
四種方式
對于企業(yè)——特別是自己運行虛擬桌面環(huán)境的企業(yè)——來說,確保部署可靠的災難恢復計劃是非常重要的。但是現在應該如何制定VDI災難恢復計劃?我們可以考慮Hyper-V、Windows To Go、存儲同步和離線虛擬桌面等四種方式。
Hyper-V的災難恢復
第一種災難恢復方式不是很常用,但是據我所知已經至少有一家企業(yè)選擇使用這種災難恢復方式。這家企業(yè)在微軟Hyper-V平臺當中運行自己的災難恢復虛擬桌面,并且將災難恢復虛擬桌面的備份版本存儲在云中以防萬一。
對于大規(guī)模災難恢復事件來說,企業(yè) 通常會和硬件供應商達成協(xié)議,供應商將一批桌面PC租借給企業(yè)以供緊急使用,直到企業(yè)完全從事故當中恢復為止。根據協(xié)議,這些PC將會運行Windows 8并且已經安裝Hyper-V。企業(yè)的災難恢復計劃是將虛擬桌面的備份版本推送到所有PC上,使用Windows 8當中的Hyper-V功能為用戶提供災難恢復虛擬桌面服務。
然而對于災難恢復大型企業(yè)來說,完成這項災難恢復計劃需要投入異常龐大的工作量,因此災難恢復可能是不切實際的,但是對于災難恢復中小型企業(yè)來說,災難恢復確實是一種十分高效的方式。這種災難恢復方式使得企業(yè)不再依賴于任何后臺基礎架構,就能夠恢復虛擬桌面的正常運行。
唯一的要求是DHCP(動態(tài)主機配置協(xié)議)服務器可以為虛擬桌面分配IP地址。對于這種災難恢復情況來說,企業(yè)可以使用無線路由器提供到PC的網絡連接并且分配IP地址。
Windows To Go的災難恢復
另外一種可行方案是Windows To Go的災難恢復。這種災難恢復特性在Windows 8當中被首次推出,災難恢復允許由USB閃存盤引導啟動Windows。
采用這種災難恢復方案的企業(yè)需要在遭遇災難襲擊之前,制作大量的USB閃存盤。將這些閃存盤存儲在遠離辦公地點的場所,在遭遇災難襲擊時分發(fā)給用戶。
不幸的是,使用Windows 7的企業(yè)不能采用WindowsTo Go這種災難恢復方式,但是可以使用Boot toVHD作為替代災難恢復解決方案。
不論對于 哪種災難恢復情況,USB閃存盤的容量都將限制虛擬桌面鏡像的大小,因此,安裝有大量應用程序的桌面鏡像并不適合存放在USB閃存盤當中。
這種災難恢復方式的另外一種缺點是如果想要實現真正的高效恢復,就需要提前花費大量時間準備閃存盤。如果虛擬桌面鏡像版本十分穩(wěn)定,那么并不是什么問題,但是如果企業(yè)需要定期更新其虛擬桌面鏡像,那么這種災難恢復方式就變得不切合實際了。
存儲同步的災難恢復
另外一種在VDI災難恢復領域使用更為廣泛的方式是將現有環(huán)境構建在多個數據中心,或者災難恢復直接延伸到云中,但是這種災難恢復方式是否可行在很大程度上取決于廠商的解決方案。雖然這是一種最為可靠的災難恢復方式,但是災難恢復也是最為昂貴的。
橫跨數據中心的基本理念是擴展虛擬桌面所在的主機集群,以便能夠分布在多個數據中心。同時將保存有虛擬硬盤的存儲設備復制到其他數據中心,使用這種災難恢復方式,可以將虛擬桌面同時存儲在兩個不同地點。
盡管理論上,可以實現將虛擬桌面故障轉移到第二數據中心,但是在第二數據中心創(chuàng)建一個完全分離的虛擬桌面池卻是一種更為高效的災難恢復方式;將虛擬桌面運行在其他位置也會產生網絡變更需求。
在一些災難恢復情況當中,相比于遠程恢復現有虛擬桌面,將用戶連接到其他位置的虛擬桌面可能會更加容易一些。
離線虛擬桌面的災難恢復
威睿提供的新特性允許移動辦公用戶離線查看和使用虛擬桌面。理論上,企業(yè)可以使用這種災難恢復方式實現災難準備,以災難恢復應對能夠提前通知的、即將到來的災難,比如緩慢逼近的颶風。
但是這種災難恢復方式的缺點也十分明顯。首先,在災難已經出現之后采用這種災難恢復方式并不容易。其次,這種特性只能工作在VMware環(huán)境當中。
已經部署VDI環(huán)境的企業(yè)必須在災難恢復業(yè)務連續(xù)性計劃當中解決虛擬桌面問題。保證后端服務器資源在災難襲擊之后還能夠正常工作是最為基礎的部分,但是如果沒有虛擬桌面,用戶就不能正常訪問這些資源。
災難恢復現狀
若處理得當,災難恢復(DR)計劃是一項復雜而耗時的任務,這有助于解釋為什么在過去的幾年中,調查顯示有連續(xù)計劃的企業(yè)數量在下降。在一個年度普華永道(PricewaterhouseCoopers)的研究中,有災難恢復計劃的企業(yè)下降到約為39%,而去年同期的調查為50%左右。這些公司中,那些真正測試災難恢復計劃的企業(yè)通常是聲稱有計劃中的一小部分。這些只有災難恢復計劃文檔但是沒有實際測試的公司,其實際上對災難恢復的準備更加讓人擔憂。
由于對災難恢復必要性和實際價值的誤解,相關的計劃活動也少了。明顯的,雖然“更少(的員工)更高效的工作”就是“使用計算機來提高效率,”并且較少員工數量實際上更加依賴于自動化資源不間斷的使用以及減少(哪怕是短時間的)中斷操作帶來的誤差,但是這些見解和確保自動化的連續(xù)性和彈性的需求并沒有聯(lián)系起來。
能力評估
評估災難恢復小組的能力的基本指標包括:知識,可以通過取得的專業(yè)證書或者參加的教育計劃獲得記錄;經驗,可以根據以前的工作職責或者參與實際的災難來判斷;積極性,可以根據參與專業(yè)機構、出席并且/或者在大型會議上演講以及發(fā)表的文章來判斷。每一項都可以被輕松地定義并制訂成基準,而且可以作為評估和增加災難恢復小組成員的技巧和技能的一個有效的出發(fā)點。
能力發(fā)展
IT專家們看到對于災難恢復(DR)的需求,并且很多人因為這個原因而使用OpenStack私有云。但是災難恢復投資回報(ROI)的模糊不清使得把這個推售到企業(yè)的業(yè)務部門成為很艱難的任務。
上周在亞特蘭大舉行的OpenStack峰會上的一次會議中,小組專家成員討論結果表明Swift存儲應用程序接口或者API,對于為災難恢復營造更好的環(huán)境尤為關鍵。
老化的基礎架構和過期的災難恢復計劃,與此同時還要遷移到24小時不間斷的運營模式,促使了,一家位于新澤西州Somerset的移動和存儲公司搭建了一個基于Swift的對象存儲環(huán)境。
參考資料 >
DRaaS將消滅災難恢復計劃?.TechTarget.2015-10-10
科技驅動未來:飛康災難恢復技術贏得尤尼克斯青睞.freestor.2017-01-08
災難恢復計劃的十個“不要”.TechTarget.2015-10-29