9月3-5日,“金砖峰会”在厦门成功举办,厦门各级政府及机构对峰会的各项保障工作完成得非常出色,确保了峰会的圆满落幕。
此次峰会,航空运输对国内外与会嘉宾及相关物资运输起到了关键作用。厦门机场作为保障航班起降的机构,完满完成了峰会期间航班安全起降的任务。南宫NG·28股份作为厦门机场在灾备建设的合作伙伴,以国内首创的字节级复制技术、真正的持续南宫NG·28保护CDP技术、南宫NG·28库语言级复制技术、南宫NG·28序列化(DOT)技术等为厦门机场的多机场集成系统、机坪运行管理系统、安检分层系统、安检信息系统,以及坐席96363系统等提供容灾高可用支撑,确保当生产端系统出现故障时,备端能够快速接管过来,做到南宫NG·28不丢,业务不停。
在机场容灾方面,南宫NG·28参与建设的西部机场、厦门机场等都堪称业界典范。下面,通过厦门机场的容灾案例分析,为大家诠释飞机起降时灾备产品提供了哪些支持。
1机场容灾建设面临的问题
为了让大家更清晰了解机场灾备建设的内容,我们先从全行业的容灾建设开始分析。首先从全行业看,一些行业还使用传统的容灾备份方式进行组织的灾备规划建设,比如基于人工方式的操作,存在难以自动完成南宫NG·28备份的问题,以及南宫NG·28备份需要时间窗口,实时性差,备份无法获得最新的生产南宫NG·28;另外,每次的南宫NG·28备份都是全量备份,备份的时间长;备份对系统资源、网络状况有较高的要求;容错性差,当网络、供电、硬件等出现故障时需要重新备份,并且南宫NG·28恢复时间长,南宫NG·28前后不一致、有丢失等情况。
这些问题在南宫NG·28量持续增加和业务愈加复杂的情况下,使得组织的南宫NG·28安全与业务连续性如履薄冰。一旦潜在威胁事件发生,南宫NG·28丢失与业务中断难以避免,最终影响企业的营收与口碑声誉。
以上的问题同样存在航空领域。目前,很多机场在本地生产中心进行了南宫NG·28容灾与业务连续性的加强,最常见的就是通过部署双机HA功能实现系统的高可用保障,即双机运行模式,后端连接共享存储系统。
这样的模式存在三个风险:一是共享存储出现故障,容灾能力为零;二是业务系统全部署在共享存储中,南宫NG·28不进行异地备份,当出现人为误操作、病毒感染等逻辑错误时,南宫NG·28丢失,业务中断不可避免;三是地震、洪灾、火灾、雷电等造成的南宫NG·28中心的损毁,组织将因南宫NG·28丢失与业务长期中断而遭受巨大的经济和声誉的损失。
2厦门机场在容灾规范化建设上的实践
目前,很多的组织机构持续的生产南宫NG·28增长累积和业务多样化,以及由此带来的生产环境异构复杂化,使得组织的灾备建设越来越吃力。此时,需要统一的容灾规范化建设。
经过南宫NG·28工程师前期的生产环境调研显示,厦门机场生产机房的南宫NG·28中心部署了几十台的服务器,承载着集团的关键业务系统,如多机场集成系统、机坪运行管理系统、安检分层系统、安检信息系统,以及坐席96363系统。这些业务系统分别运行在云平台和独立服务器上,部分重要业务系统采用了共享存储保障重要南宫NG·28的可靠性,同时也对重要系统南宫NG·28进行定时手工备份归档。
机场凌晨的星空,南宫NG·28工程师周大亮夜以继日跟进项目实施时拍摄
但是,随着业务南宫NG·28量的快速增长,考虑到机房南宫NG·28中心南宫NG·28存储的安全、提升业务系统容灾能力、提高灾难应急水平的迫切需求,需要建设完整的自动化南宫NG·28备份系统,减少人工可能带来的误操作,使业务系统得到有效的保护。并在此基础上增强信息基础设施和重要信息系统灾难恢复能力,以保证南宫NG·28意外丢失时能尽快恢复,将损失降到最低点。
针对集团南宫NG·28增长以及业务系统众多的生产环境,我们提出了本地应用级容灾规范化的建设方案,对前期的项目需求划分为“运维过程需求、容灾需要和技术及管理需求”,由于篇幅有限,不再此陈述。
在具体的规划建设实施方案中,共有6方面的内容:
一是在应用级容灾的建设范畴下,当生产中心发生故障或崩溃时,机场主要的业务系统能切换至容灾中心,保证业务连续性,并符合机场对容灾建设的相关要求。
二是南宫NG·28复制为实时复制,各南宫NG·28库以及业务系统实现南宫NG·28实时复制至目标端,保障南宫NG·28的时效性以及一致性。
三是在备份南宫NG·28中心搭建相应的容灾系统,其逻辑对象包括物理服务器、存储、网络、虚拟化软件等,设备性能、数量与源生产中心为1:1关系,或根据实际需求对性能配置进行降低或提升。
四是对于核心SQLserver等南宫NG·28库及核心应用的容灾需求,在备份南宫NG·28中心上部署虚拟主机服务器。其一是业务南宫NG·28及南宫NG·28库南宫NG·28的复制采用i2COOPY功能模块实现南宫NG·28实时复制需求;其二是配置i2CDP功能模块为业务南宫NG·28记录历史时间的版本,以便在南宫NG·28库发生误操作、误删除等逻辑错误时,南宫NG·28能够恢复到出错前一刻的状态;其三是配置业务容灾i2Availability功能模块,当本地南宫NG·28中心某生产服务器宕机,或本地南宫NG·28中心完全失去服务能力时,容灾系统自动完成业务切换,保障业务的高可用性;其四是针对南宫NG·28库系统采用逻辑层面功能模块i2Active,完成南宫NG·28实时的容灾备份。
五是备份机房等可对目前闲置服务器以及存储设备进行合理利用,无需特殊硬件支持,节省整体容灾备份成本。
六是根据各系统特点针对性设置相关策略,针对不同应用设置合理策略,根据实际需求设置保护路径,合理利用磁盘空间资源;针对不同服务器设置切换条件,可针对服务、进程、CPU、内存等进行合理监控,根据实际需求设置手动、半自动、自动接管策略。
厦门机场容灾系统建设架构图
3灾难应对以及容灾切换
根据此例中的容灾建设情况,当灾难发生时,我们推测出应对灾难的3种模式。
灾难描述 |
灾难影响与场景 |
灾备切换范围与方式 |
局部灾难 致部分设备故障 |
某业务系统本身发生灾难(停电,服务器、存储损坏等),致使该系统服务中断,但相关外围接口系统及其它系统完好。 |
只有该系统切换至灾备中心。其他系统在生产中心运行。 |
全局灾难 整个生产中心发生灾难,例如机房停电、火灾、地震等。 |
生产中心所有设备断电,所有系统不可用。 |
所有业务系统及相关的平台组件都要求切换到灾备中心运行。 |
灾难场景一:单台应用服务器故障
我们假设本地生产中心某一个或多个应用服务器出现故障,此时业务南宫NG·28流向:
①当本地生产中心的应用服务器发生故障导致不可用时,容灾系统自动将备份机房相应服务器应用服务启用,由于配置了虚地址,因此切换不涉及IP地址切换。
②当切换备机启用完毕后,由于本地生产中心南宫NG·28库服务器依然正常工作,因此南宫NG·28库无需切换,备份中心的应用备机通过两地南宫NG·28中心间IP链路继续访问生产中心的南宫NG·28库服务器。
③根据以上分析,当生产中心的的应用服务器出现故障时,需要进行应用服务器灾备切换,但无需进行南宫NG·28库切换,保证业务连续性。此种场景下RPO=0(应用配置等变化信息实时复制到灾备机中),RTO约5分钟。
灾难场景二:南宫NG·28库服务器故障
在方案中,假设本地生产中心Oracle南宫NG·28库服务器故障,此时,业务南宫NG·28流向:
①当本地生产中心Oracle南宫NG·28库服务器发生故障不可用时,容灾系统自动将灾备南宫NG·28中心南宫NG·28库启动,完成南宫NG·28库Primary与Standby角色互换,灾备南宫NG·28库对外提供服务。
②当南宫NG·28库备机切换启用完毕后,由于生产中心应用服务器依然正常工作,因此无需切换,生产中心的应用服务器通过两地南宫NG·28中心间IP链路继续访问异地灾备中心的Oracle南宫NG·28库服务器。
③根据以上分析,当生产中心的的南宫NG·28库服务器出现故障时,需要进行南宫NG·28库服务器灾备切换,但无需进行应用服务器切换,通过虚地址指向保证业务连续性。此种场景下RPO接近于0(亚秒级),RTO约5分钟。
灾难场景三:生产中心整体性灾难
①在该场景下,本地生产中心发生全局灾难,譬如整个生产中心发生灾难、机房停电、火灾、地震等情况下,由于此时网络交换机也不可用,因此所有应用系统不可用,在整个生产中心基本瘫痪,但南宫NG·28不会发生丢失,备份容灾中心依然保留了完整南宫NG·28拷贝。
②如备份南宫NG·28中心发生全局灾难,本地南宫NG·28中心应用不受影响。
4灾难恢复预案演练
一个规范化的容灾建设方案,必须囊括灾难恢复预案演练(DRP)。通过演练我们可以提升组织应对灾难发生时的处置能力,包括:
①模拟灾害发生,演练业务恢复功能和业务持续性流程。
②通过全员参与,提高防灾抗灾意识,积累经验。
③发现IT环境潜在隐患,拾遗补缺。
④发现恢复流程漏洞,完善业务持续性计划。
由于DRP演练的重要性,我们将演练流程化,并纳入IT系统的维护生命周期中。如下图所示:
可以通过多种不同的形式进行演练,一般不建议直接进行整体演练,在这之前,通过不同级别的演练循序渐进地进行,从而减少对业务的影响并不断完善DRP流程。
演练级别 |
类型 |
描述 |
1 |
Checklist |
使用checklist检查计划的完备性、可行性 |
2 |
Structured Walk-through |
各个部分的负责人共同进行验证 |
3 |
Simulation |
所有团队成员参加的桌面模拟 |
4 |
Paralle Test |
单站点系统恢复测试 |
5 |
Full-interruption Test |
需要停机的完全切换测试 |
我们建议用户每年作一次完全切换测试,对于单站点系统恢复测试每年进行2次,而其他类型的测试也最少要进行2次。具体演练的形式和频率将在项目咨询过程中设定。
本案中,我们与用户一起进行系统的完全切换演练。对于此次厦门机场灾备建设,南宫NG·28工程师周大亮表示:根据用户的实际需求,南宫NG·28从研发、技术等方面第一时间跟进,快速响应项目相关的功能需求,确保机场的灾备项目成功运转。这次能够遇上金砖峰会,自己心里也非常的自豪。
5方案总结
在当前航空信息化发展带来南宫NG·28增加与业务系统复杂化的情况下,航空业容灾建设需要摆脱传统的简单的容灾备份的建设思路,采用全新的实时、易用、稳定、安全、统一的容灾建设模式,以提升整个组织的抗灾能力。本案中,i2COOPY、i2CDP、i2Availability和i2Active在南宫NG·28实时复制、任意点南宫NG·28恢复、异地高可用和针对南宫NG·28库保护的综合解决方案,实现“南宫NG·28不丢、业务不停”的用户容灾需求。
据公开南宫NG·28资料显示,厦门机场仅全球通航城市就有109个,境内外航线182条;如今,借助“金砖峰会”的成功举办,以及“鼓浪屿申遗成功”,厦门的国际知名度将进一步提升,作为经济特区和旅游城市,我们可预见厦门与外界的往来将更加频繁。届时,厦门机场将为厦门的快速发展承担更加繁重的航空运输任务,机场已经建成的关键系统的灾备安全保障体系,在规范化、安全性、实用性等方面就显得极其重要和具有前瞻性。
人第一次坐飞机时,都会有些怕,天上飞时怕,地上起降怕。如今厦门机场的关键业务系统做了容灾保护,机场的信息化的正常运转,如牵引车、摆渡车等指挥调度系统多了一层保障。乘客们在选择航班时,选择了厦门航空,也就等于多选择了一份安全保障。
及时响应,快速服务,为您保驾续航
立即注册