3.1 不同容灾技术方案概述
不同企业的不同业务需求和应用特点将可能需要有不同的容灾技术要求,可以采用多种容灾技术来建容灾系统,EMC专业咨询服务部将更许客户的实际需求提供不同的技术方案。对所有客户的容灾技术平台建设而言,容灾方案的技术核心是数据的保护,实现远程数据复制,并能够在灾难发生时在远端利用复制数据提供企业业务运营支撑服务,因此数据复制技术是构建容灾技术平台的核心。不同数据复制技术的分类如下:
如上图所示,对容灾项目而言,比较可行的是采用连续数据复制技术。
根据不同容灾方案所采用数据远程复制技术位于企业IT架构不同层面又可以分为以下三类容灾方案:
ü 基于存储层面的容灾方案—利用存储系统的远程数据复制功能建设容灾系统,它包括:
同类存储平台之间的数据复制;
异构存储平台之间利用虚拟存储技术实现数据复制。
ü 基于主机层面的容灾方案—利用主机厂家提供的相关功能软件或第三方的主机软件实现远程的数据复制,建设容灾系统。
ü 基于应用层的容灾方案—如利用应用软件如Oracle数据库的本身的远程数据复制技术建设容灾系统
本节将针对以上“基于存储层面数据复制的容灾方案”、“基于主机层面的容灾方案”和“基于应用层容灾方案(以Oracle Data Guard为例)”等三类不同方式容灾方案进行分析。
对不同的用户,EMC将根据客户的容灾技术方案的实际需要以及技术条件进行评估,为用户最合适的容灾技术方案。
3.2 基于存储的数据复制技术建设容灾系统
采用基于存储的容灾方案的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。基于存储的容灾方案示意图如下:
基于存储数据复制技术的容灾方案示意图
采用基于存储的数据复制技术建设容灾系统是目前金融、电信企业、政府采用较多的容灾方案,有非常多的应用案例,是容灾建设可选择的技术方案之一。
基于存储的复制可以是如上示意图的“一对一”复制方式,也可以是“一对多或多对一”的复制方式,即一个存储的数据复制到多个远程存储或多个存储的数据复制到同一远程存储;而且复制可以是双向的。
基于存储的容灾方案有两种方式:同步方式和异步方式,说明如下:
同步方式,可以做到主/备中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列将利用自身的机制(如EMC的SRDF/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。
异步方式,是在应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如EMC的SRDF/A)将写I/O写入后备磁盘阵列,实现数据保护。
采用同步方式,使得后备磁盘阵列中的数据总是与生产系统数据同步,因此当生产数据中心发生灾难事件时,不会造成数据丢失。为避免对生产系统性能的影响,同步方式通常在近距离范围内(FC连接通常是200KM范围内,实际用户部署多在35KM左右)。
而采用异步方式应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制(可以通过IP连接来实现数据的异步复制)。
采用基于存储数据复制技术建设容灾方案的必要前提是:
l 通常必须采用同一厂家的存储平台,通常也必须是同一系列的存储产品,给用户的存储平台选择带来一定的限制。
l 采用同步方式可能对生产系统性能产生影响,而且对通信链路要求较高,有距离限制,通常在近距离范围内实现(同城容灾或园区容灾方案)
l 采用异步方式与其他种类的异步容灾方案一样,存在数据丢失的风险,通常在远距离通信链路带宽有限的情况下实施。
尽管有以上限制,基于存储的容灾技术方案仍然是当前最优先选择的容灾技术平台,尤其是基于EMC公司的存储系统建设容灾方案有非常广泛的应用,这主要是由于基于存储的容灾技术方案有如下优点:
l 采用基于存储的数据复制独立于主机平台和应用,对各种应用都适用,而且完全不消耗主机的处理资源;
l 基于存储得数据复制技术,由于在最底层,实施起来受应用、主机环境等相关技术的影响最小,非常适合于这样主机和业务系统很多、很复杂的环境,采用此种方式可以有效降低实施和管理难度;
l 采用同步方式可以完全不丢失数据,在同城容灾或园区内容灾方案中,只要通信链路带宽许可,完全可以采用同步方案,而不会对主数据中心的生产系统性能产生显著影响。采用EMC基于存储的同步复制方式的容灾案例有很多,有非常多的成功经验,如江苏移动、中国光大银行、辽宁移动、黑龙江移动都采用了EMC同步复制技术,并能满足大规模I/O吞吐情况下的同步数据复制要求。而目前同城容灾环境中已经具备上述条件,可以很方便部署同步方式复制;
l 采用异步方式虽然存在一定的数据丢失的风险,但没有距离限制,可以实现远距离保护。异地数据中心,则采用与北京两个中心的异步复制方式进行数据保护。
l 灾备中心的数据可以得到有效利用。
对于基于应用、基于主机、基于存储的三种容灾方案而言,灾备中心的数据通常不可用,仅为生产系统中的数据提供灾难保护和灾难恢复。但对采用基于存储技术的容灾方案中,有很灵活的技术手段可以充分利用灾备中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下图所示:
基于存储的容灾方案有效利用灾备数据
如上图所示,生产中心的“源数据—R1”通过存储本身的数据复制机制被复制到了灾备中心,即“目标数据R2”。“目标数据R2”在正常生产情况下是不可访问的,灾备中心的后备主机只能在灾难发生时,主中心服务停止后,才可以访问“目标数据”,接管主中心的服务(基于主机和应用的容灾方案的灾备中心数据与此类似)。但采用基于存储的容灾方案时,我们可以为“目标数据”建立一个BCV卷或快照、克隆,从而可以给到另外的服务器使用。
利用这种机制,用户可以在容灾中心做很多工作:
ü 用户开发测试人员可以利用R2-BCV或R2快照得到真实的数据进行新应用开发、测试工作,从而保证新应用的质量,加快新产品上市时间。这种方式在采用基于主机方案和基于应用方案都很难实现,或在获得一份真实数据进行开发测试时需要很长的时间,消耗大量的资源。
ü 用户的其它应用也可以利用R2-BCV或R2快照满足其它业务的需要。如数据仓库应用通常需要从生产系统抽取数据,一旦进行大规模数据抽取,生产系统几乎处于停顿状态,这时可以利用R2-BCV卷进行数据抽取,从而避免数据抽取给生产系统带来的巨大性能冲击。企业的决策分析系统的数据来源也都可以基于R2-BCV来实现。
由于以上优点,基于存储灾难保护方案是目前采用最多的灾难保护方案。
3.3 采用虚拟化存储技术建设容灾系统
存储虚拟化的技术方法,是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到屏蔽存储设备的异构和主机的异构的目的。通过虚拟化技术,用户可以利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成对用户来说是单一视图的存储资源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技术,用户可以根据自己的需求对这个大的存储池进行方便的分割、分配,保护了用户的已有投资,减少了总体拥有成本(TCO)。另外也可以根据业务的需要,实现存储池对服务器的动态而透明的增长与缩减。
通过存储虚拟化技术可实现数据的远程复制,以确保容灾中心与主站点的数据保持同步以实现数据容灾。
存储虚拟化技术可以在不同层面实现,如在智能交换机层面、存储层面或增加第三方设备来实现。采用虚拟存储技术进行数据复制同样也可以有同步复制方案和异步复制方案,需要根据具体的需求选择合适的产品。
采用虚拟存储化技术建设容灾方案有以下优点:
l 主生产中心和容灾中心的存储阵列可以是不同厂家的产品,存储平台选择不受现有存储平台厂商的厂商限制(但目前市场上产品还没有做到这一点);
l 对不同厂家的存储阵列提供统一的管理界面;
在虚拟存储环境下,无论后端物理存储是什么设备,服务器及其应用系统看到的都是其熟悉的存储设备的逻辑镜像。即便物理存储发生变化,这种逻辑镜像也永远不变,系统管理员不必再关心后端存储,只需专注于管理存储空间,所有的存储管理操作,如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等比从前的任何产品都容易,存储管理变得轻松简单。
采用虚拟存储化技术建设容灾方案需要考虑以下问题:
l 虚拟存储技术比较新,虽然为异构环境设计,但在异构环境种保证兼容性和数据的完整性依然存在很大风险;
l 采用虚拟存储技术,尤其是增加第三方硬件的方式将需要评估对整个系统的高可用性和性能的影响;
l 需要验证选择的产品和技术的成熟性以及和现有设备、未来设备的兼容性能力,尤其是难以满足复杂环境、大规模容灾要求的实际适用情况;
l 虚拟存储技术目前尚不够成熟,还处于发展阶段,而且对于异构存储环境部署基于虚拟存储技术的容灾方案,目前还无任何案例和应用;
3.4 采用基于主机的数据复制技术建设容灾系统
采用基于主机的容灾方案的示意图如下:
基于主机的容灾方案示意图
采用基于主机系统的容灾方式的核心是利用主、备中心主机系统通过IP网络建立数据传输通道,通过主机数据管理软件实现数据的远程复制,当主数据中心的数据遭到破坏时,可以随时从备份中心恢复应用或从备份中心恢复数据,从而给企业提供了应用系统容灾的能力。
实现远程数据复制的数据管理软件有很多产品,主机厂商和一些第三方软件公司(如Veritas)提供基于主机的数据复制方案,如Sun公司的Availability Suite软件和Veritas Volume Replicator(VVR)等软件可实现基于主机的远程数据复制,从而构建基于主机的容灾系统。
采用基于主机的数据复制技术建设容灾方案有以下优点:
l 基于主机的方案最主要的优点是只对服务器平台和主机软件有要求,完全不依赖于底层存储平台,生产数据中心和后备数据中心可以采用不同的存储平台;
l 既有针对数据库的容灾保护方案,也有针对文件系统的容灾保护方案;
l 有很多不同的基于主机的方案,可以满足用户的不同数据保护要求,提供多种不同数据保护模式;
l 基于IP网络,没有距离限制;
同时,采用主机的数据复制技术建设容灾方案有以下局限:
l 基于主机的方案需要同种主机平台;
l 基于主机的数据复制方案由于生产主机既要处理生产请求,又要处理远程数据复制,必须消耗生产主机的计算资源,对于主机的内存、CPU进行升级是非常昂贵的,因而对生产主机性能产生较大的影响,甚至是产生严重影响;
l 灾备中心的数据一般不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
l 利用主机数据复制软件的方案比较复杂,尤其是和数据库应用结合的时候需要很复杂的机制或多种软件的结合,从而对生产系统的稳定性、可靠性、性能带来显著影响;
l 如果有多个系统、多种应用需要灾难保护,采用基于主机的方案将无法有统一的技术方案来实现。
l 管理复杂,需要大量的人工干预过程,容易发生错误。
目前,企业采用基于主机的数据复制技术建设容灾方案相对比较少,通常适合单一应用或系统在I/O规模不大的情况下局部使用。在应用I/O负载比较大,需要灾难保护的应用及应用类型比较多、主机环境复杂的时候,基于主机系统的方案并不适用。
3.5 基于应用的数据复制建设容灾系统
基于应用之间的数据复制技术也有很多种,以下按常用的Oracle 9i/10G用自带的Oracle Data Guard技术来进行分析(Microsoft SQL*Server的Mirror技术采用类似方式)。
Oracle Data Guard技术是Oracle数据库系统特有的灾难备份和恢复技术,利用了Oracle数据库系统的日志备份和恢复机制。Data Guard的基本原理是在与主系统完全一致的硬件和操作系统平台上建立后备数据库系统,同时对主数据库的数据库日志(Log)和控制文件等关键文件进行备份。
在主系统正常工作的同时将主系统产生归档日志文件(Archived Log)不断的传送到后备数据库系统,并且利用这些日志文件在后备数据库系统上连续进行恢复(Recover)操作,以保持后备系统与运行系统的一致。当主系统发生故障时,使用备份的数据库日志文件在后备数据库上恢复主数据库内的数据。
图5.18. 采用Oracle Data Guard的容灾方案
Oracle9i/10G Data Guard提供了三种模式:
ü 最大保护模式
ü 最大可用模式
ü 最大性能模式
Oracle Data Guard最大保护模式提供了对于主数据库最高级别的数据可用度,是一种保证零数据丢失的容灾解决方案。当运行最大保护模式时,Redo纪录以同步的方式从主数据库发送到后备数据库,而且,在主数据库方的事务,一定要等到至少有一个后备数据库确认接收到事务数据,该事务才被提交。在这种模式下,一般配置至少两个后备数据库,以提供双重容错保护。如果后备数据库不可用,则主数据库方会自动挂起处理进程。
最大可用性模式提供了对于主数据库次高级别的数据可用度,保证零数据丢失,并对单个组件的失败提供保护。与最大保护模式一样,redo数据被同步地从主数据库发送到后备数据库。在主数据库方的事务,一定要等到后备数据库确认接收事务数据,该事务才被提交。然而,如果后备数据库因为诸如网络连接之类的问题而不可用时,主数据库方的处理会继续执行。这样,会出现后备数据库暂时与主数据库不一致的情况,但是一旦后备数据库恢复可用,数据库会自动同步,不会有数据丢失。
最大性能模式是缺省的保护模式。与最大可用性模式相比,它对于主数据库提供稍弱一点的保护,但是性能更高。在这种模式下,当主数据库对事务进行处理时,日志数据被以异步的方式传送到后备数据库。在主数据库方,提交操作在完成写的动作前、无需等待后备数据库的接收确认。在任何时候,如果后备方不可用,主数据库方的处理继续执行,这样对性能不会有什么影响。
采用Oracle 9i/10G Data Guard技术进行灾难备份需要满足以下前提条件:
ü 后备系统与主系统的硬件平台、操作系统、操作系统版本等保持一致;
ü 后备系统与主系统上Oracle用户的权限一致;
ü 后备系统与主系统的Oracle数据库版本一致;
ü 后备系统与主系统的Oracle数据库配置文件一致。
采用Oracle Data Guard建设容灾方案有以下优点:
l 完全通过Oracle数据库机制来实现,完全不依赖于其它软件和底层存储平台;
l 可以满足用户的不同性能、数据保护要求,提供多种不同数据保护模式;
l 可以实现一对多的数据复制,提供多重保护;
l 后备数据库可以在很短的时间内提升到生产状态(因为数据库已经在运行);
l 基于IP网络,没有距离限制;
同时,采用Oracle Data Guard建设容灾方案有以下限制:
l Oracle Data Guard的三种模式都将对生产数据库系统的性能产生影响,因而需要更多的处理资源;
l 后备数据库不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
l 只能对Oracle数据库数据提供保护,不能对其它应用数据—如文件应用等提供灾难保护;
l 管理复杂,需要大量的人工干预过程,并且要精通数据库恢复技术,容易发生错误;
l 难以实现大数据量源数据库和目标数据库初次同步,没有相应解决方案;
业界其它基于应用的的容灾方案的优点和局限性与Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex软件,下面也介绍一下:
其实现原理和Oracle DataGuard类似,针对数据库的日志进行数据的增量复制,通过Queue技术来保证传输的可靠性。其方案优势是:
l 同Oracle DataGuard相同的缺点(见上面部分)
l 更加灵活,此方案不依赖于主机系统平台,在主生产主机和备用节点主机不同的情况更具有优势;
缺点是:
l 同Oracle DataGuard相同的缺点(见上面部分)
l 只能是异步模式(基于日志和Queue技术),不适合于同城容灾和高要求的容灾要求,如的零数据丢失要求;
l Oracle对此技术方案不宣布技术支持和问题处理,因此提高了此容灾方案的风险;
3.6容灾方案涉及内容
根据的现状评估、需求分析和技术选型的结果,容灾技术方案设计将需要包含以下内容:
· 容灾总体架构设计
· 存储级容灾数据复制方案设计
· 应用级别(或其它方式)的数据复制方案设计
· SAN网络规划设计
· IP网络规划设计
· 主机及应用部署方案
· 系统调优(根据需要选择)
· 数据迁移方案
· 存储部署规划
· 备份系统设计(根据需要)
· 机房设计或机房环境要求。
· 等等
基于应用的容灾方案、基于主机的容灾方案和基于存储(包括虚拟存储技术)的容灾方案都有各自的适用范围,适用于不同的灾难保护需要。用户需要根据具体的实际需求来选择合适的容灾保护方案。
不同的用户不同的业务系统、不同应用对容灾的要求不同,要求不同的容灾服务等级。EMC在未来将按照科学流程和方法,并利用EMC公司在信息存储管理领域的专业技能和经验为用户进行IT环境的评估和业务影响分析,发掘客户业务需求对容灾技术的要求,从而建议最合适的容灾方案。
对企业而言,选择容灾方案既要考虑选择合适技术方案,也需要考查实现该方案的产品在技术上是否成熟、可靠,性能和灵活性是否满足要求,同时也需要考查提供该解决方案的供应商是否有丰富的经验和认证的技能来保证方案的确实可行并能够成功实施。
EMC公司在容灾领域有领先的技术并已经得到了广大用户的实际应用检验,方案的可行性、产品的成熟度、稳定性、可靠性、灵活性都的到了大量实际应用的考验。EMC的技术服务队伍已经在众多容灾项目成功实施过程中表现出强大的技术力量,能够确保用户容灾方案的成功实施。