灾备行业里经常能够听到备份、容灾、灾难恢复、业务连续性等等概念,说的好像都是差不多的事情,那它们具体有什么区别呢?
图1-业务连续性管理
总的来说,业务连续性管理是指企业或组织开展的一项综合管理流程。它涉及到各种灾难场景下对各项业务的影响分析和风险评估,并开发制定出应对各种情况的灾难恢复计划、方法和流程,并在日常工作中去执行,以减轻灾难可能带来的不利影响。
备份其实很好理解,就是将你的文件或者数据复制一份到另外一个地方。假设你把C盘的文件复制了一份到D盘,当C盘的文件损坏之后,你就可以将D盘的文件副本再拷贝回来,这个就是恢复(Restore)的过程。
图2-灾备1
图3-灾备2
来举个例子,假设你正在奋笔疾书自己的毕业论文,论文放在了云盘上,你在自己的笔记本上每编辑一下,更新的数据都会同步到云盘上。
图4-容灾1
图5-容灾2
大多数重要的计算机应用程序需要一个包括多个冗余组件的设计。这种容错设计通常包括硬件、软件、电源备份,以及网络故障安全措施。容错是一种确保计算机应用程序在发生灾难性故障时仍能正常工作的设计。
接着举例:比如存储你毕业论文的云盘的后端存储有个节点突然损坏了,你担心你的论文在云盘上丢失。但是云盘发布公告说因为云盘后端存储做了3副本的数据冗余,一个节点损坏并不会丢失数据,论文还保存在云端。
灾难恢复就比较好理解了,就是指在灾难发生后,将生产系统恢复到正常状态的过程。这里面会涉及到数据的恢复,整个业务系统的重建等等。如果前期灾备系统做得好的话,这个灾难恢复的工作就会比较轻松,可以很快的让业务系统恢复起来,且基本不丢失数据。
对于IT系统来讲,灾难恢复是个系统的工作,需要做详细的规划和严谨的执行。
业务连续性管理起源于上个世纪70年代的容灾恢复计划。在那个时代,灾难恢复的活动由数据处理经理来管理。在那个时候,如果出现大的故障或危机,中断是以天计算而不是小时计算的。金融组织,如银行和保险公司大都选择在另外一个远离主中心的地方存储备份磁带。恢复活动经常是由火灾、水灾、暴风或其他物理损坏引发的。
到了上个世纪80年代,曾出现了很多商业恢复中心,在共享设备上提供计算服务,但重点还在IT的恢复。到了上个世纪90年代,IT出现重大的革命,灾难恢复计划发展为业务连续性计划。
IBM使用自动化、前瞻性和适应性功能,将现场和非现场的备份功能结合起来满足用户的独特需求。通过IBM系统存储部提出的基于GDOC和存储HA的解决方案,可以真正地帮助客户实现业务的连续运转,保证了用户可以在IT技术层实现第七级的业务连续性解决方案。
同时配合IBM业务连续性和灾难恢复方法论,由分析评估、设计实施和维护管理组成一个循环往复的闭合系统,推动企业的业务连续和灾难恢复能力不断提升。
这个方法论将贯穿于IBM所有的业务连续性和灾难恢复服务当中。循环前进的方案体现了IBM对客户长期技术支持的承诺。IBM提供的服务将始终与环境变迁保持同步,并根据最新的技术、客户的需求及时进行服务升级及补充,以确保企业的连续运作,实现企业的灾难恢复能力的螺旋形上升,使业务连续性计划与外界环境变同步发展。
1.项目启动和管理
2.风险评估和控制
确定可能造成机构及其设施中断和灾难、具有负面影响的事件和周边环境因素,以及事件可能造成的损失、防止或减少潜在损失影响的控制措施。提供成本效益分析以调整控制措施方面的投资达到消减风险的目的。
3.业务影响分析
4.制定业务连续性策略
5.应急响应和运作
制定和实施用于事件响应以及稳定事件所引起状况的规程,包括建立和管理紧急事件运作中心,该中心用于在紧急事件中发布命令。
6.制定和实施业务连续性计划
7.意识培养和培训项目
准备建立对机构人员进行意识培养和技能培训的项目,以便业务连续性计划能够得到制定、实施、维护和执行。
8.维护和演练业务连续性计划
对预先计划和计划间的协调性进行演练、并评估和记录计划演练的结果。制定维持连续性能力和BCP文档更新状态的方法使其与机构的策略方向保持一致。通过与适当标准的比较来验证BCP的效率,并使用简明的语言报告验证的结果。
9.公共关系和危机通信
制定、协调、评价和演练在危机情况下与媒体交流的计划。制定、协调、评价和演练与员工及其家庭、主要客户、关键供应商、业主/股东以及机构管理层进行沟通和在必要情况下提供心理辅导的计划。确保所有利益群体能够得到所需的信息。
10.与公共当局的协调
建立适用的规程和策略用于同地方当局协调响应、连续性和恢复活动以确保符合现行的法令和法规。
业务连续性计划(BusinessContinuityPlanning,BCP)是一套事先被定义和文档化的计划,明确定义了恢复业务所需要的关键人员、资源、行动、任务和数据。需要考虑的问题包括:关键业务数据被彻底破坏,只能用昨天的备份恢复,该怎么办服务器瘫痪,该怎么办技术更新换代,怎么样对业务影响最小发生了灾难事件,该怎么办IT系统恢复是否就可以开放业务运营
BCP的内容不应该只局限在IT方面,应该涵盖如下几个方面:
笼统地说,BCP的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性。而有关BCP的一些特定目标我们将在以下各个部分中加以描述。
BCP实施的最终结果是:
每个企业所制定的BCP都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的BCP主要是由以下一些关键部分构成的:
比如说,如果按照有无警示性先兆来分,各类危险还可以分为:
如果按照危险的破环类型或程度来分,它们对业务的影响可以分为:
显然,对于企业来说,一个完备的BCP必须尽可能多地考虑到所有可能的危险情况,只有处理灾难性事件的计划而没有处理应用系统失误的计划,这样的BCP是不完备的;反之亦然。
企业所制定的BCP应该同时兼顾两个方面——预防和控制。例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预防。而应用系统的错误则可以通过对软件的有效评测与测试来预防。
危险评估的最后结果应该是一份有关危险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和缓和危险的措施,同时要有因为克服了危险而带来的收益分析。这份报告还应该描述清楚任何现有的前提或者限制因素。
业务影响分析(BusinessImpactAnalysis)实质上就是对关键性的企业功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析。
对于企业业务运营的关键人员来说,他们需要分析:
A.影响
B.业务恢复需求
在进行了这些分析之后,才有可能对企业的各种功能进行分类:
a)关键功能——如果这类功能被中断或失效,就会彻底危及企业的业务并造成严重损失。
b)基础功能——这些功能一旦失效将会严重影响企业长期运营的能力。
c)必要功能——企业可以继续运营,但这些功能的失效会在很大程度上限制企业的效率。
d)有利功能——这些功能对企业是有利的;但它们的缺失不会影响企业的运营能力。
影响分析可以帮助企业确定各类业务功能的优先顺序,换句话说,也就确定了各业务功能的优先恢复顺序。
BIA有助于定义恢复对象。在进行了影响分析之后可能会发现,在一次灾难之后恢复业务运营时,首先恢复部分功能就足够了,比如说在24小时内先恢复日常业务的40%就够了。
成本因素在进行影响分析时也是不能忽略的。我们需要记住以下一些事项:
BCP应包括以下策略:
A.预防预防的目的在于减少灾难发生的可能性。
企业希望保障其资源(包括信息资产)的可用性和安全性,其安全策略必须针对这些对象而制定,并且提供有关资源使用和管理的指南。在熟悉了企业的所有资源、资源的布局以及危险管理等之后,才可能拿出实施安全策略所需的必要的控制措施。这些控制措施或安全举措必须时时加以检查和测试。
如果一种安全策略,能将预防措施都部署到位,可以监控对系统的入侵并防范那些试图破坏系统的行为,那么其本身就是一种制止控制。预防计划的执行必须小心谨慎。必须保证实施安全策略时既不能对日常业务带来限制,出现瓶颈,也不能引起可用性问题,或者给系统的访问和使用带来障碍。
B.响应响应就是当危险发生时的反应。
准确的告知程序必须事先制定好。必须清楚地记录在案:需要告知谁,怎样告知,由谁告知,而且还得有逐步扩大的机制。
在BCP中必须设立好一棵告知树。最初的告知发送给一组人,然后再由他们中的每个人去告知另一组人,依次类推。属于这棵告知树的人都有不同的责任和作用,所涉及的人员应包括:
危险评估团队应该是最早(或者与管理团队同时)被告知的。他们应当最早来到现场,以便评估所遭受的危险程度和级别。如果工作现场已经遭到破坏,那么他们就应该做好各项准备,一旦允许进入现场就开始工作。
有了危险评估团队提供的有关受损程度和受损区域的详尽信息,技术团队便可立刻投入工作。
BCP必须拥有一组基于业务影响分析和持续性目标的预设参数,这些参数应该能够区分出中断和灾难的不同性质,同时也能评价出危险的严重程度。
当危险评估团队和技术团队开始工作时,其他BCP团队也应依照警示告知到位,以便按照连续性计划采取应当采取的行动。
C.业务接续(Resumption)
一旦BCP被激活,命令将从指挥中心发出。这个指挥中心应该是在一个不同于日常经营场所的地方。该中心应配备相应的通信设施、办公设备,可能的话还应该构建局域网和VPN。
需要做出的第一个决策是,关键性业务的运营能否在日常的工作场所或者在一个备选场所很快恢复运营。
备选场所可以分成以下几类:
(c)温场所(WarmSite)——该场所实际上就是配备了部分设备的热场所,数据备份不算最新,但也不能太旧。
(e)镜像场所(MirroredSite)——该场所在所有方面都与主要经营场所完全相同,信息和数据也与主要场所同步。实际上该场所就是正常状况下的一个冗余场所,因而通常也是成本最高的一种选择。
在备选场所(或主要场所,如果仍然可用的话),工作环境需要恢复。通信、网络和工作站需要设置。与外界的联系必须持续畅通。企业可以首先手动恢复一些业务,直到关键的IT业务可以继续运行为止。当然,如果恢复计划(下面就要讲到)允许,那么关键业务功能也可采用自动方式迅速恢复。
D.业务恢复(Recovery)
在进行业务恢复的场所(可以是主要经营场所或备选场所),需要在备份的设备上恢复操作系统,并按照关键性次序恢复必要的应用系统。当服务于关键功能的应用系统恢复之后,则需要从备份磁带或其他异地备份媒介上恢复数据。
一旦数据达到了可靠的状态,企业的事务就可以加速运行,因为灾难已经得到处理,所有的关键性功能都已得到接续。逐步地,其他业务也可开始恢复其功能。
E.复原(Restoration)
复原则是修复并恢复主要的经营场所。最终是要在原有的场所或者一个全新的场所完全恢复所有的业务流程。
就在恢复团队开始从某个备选场所开始支持恢复运营的时候,对主要场所的全部功能进行复原的工作也可以展开。如果原有场所在灾难后的确无法恢复,则需要在一个新的场所进行复原工作。恢复团队和复原团队的成员有可能是同一组人。
必须确保该复原场配备必要的基础设施、设备、硬件、软件和通信设备。而且要对该场所能否处理全部的业务流程进行测试。
在危险评估和业务影响分析阶段之后,保持业务连续的基础业务就已经显现出来。我们在上面已经说过,按照业务术语可将企业的业务功能分成4类,即关键业务、基础业务、必要业务和有利业务。
这种分类可以让业务连续的优先顺序十分清晰,这样,业务恢复的目标就可以用下面的指标进行量化:
参考资料:
1、同创永益备份、容灾、业务连续性?有什么区别?;
2、业务连续性管理(BCM)与业务连续性计划(BCP)的区别.
开通会员
解锁海量优质VIP资源
立刻开通
未认证
燕窝儿社区专注于企业服务,是企业及企业服务人员的共同家园!