日期:2023-01-24 阅读量:0次 所属栏目:计算机应用
摘 要:
关键词:
近年来,随着经济的发展,规模和业务量逐年增加,很多企业中都建设了多套信息系统。随着多年的使用,已成为管控的核心及办公的必要系统。而另一方面,随着时间的推移,多数设备已进入老化期,几年前所设计的业界通用的系统架构也出现了不同程度的问题,对其的改造和更新特别是架构的调整成为当务之急。本文章以某企业使用的ERP和办公自动化系统的核心存储设备故障导致系统长时间无法使用为切入点,分析了重要信息系统的容灾管理对系统的影响,目前系统结构存在的问题。并提出了全方位的调整方案,为信息系统的更高级别的保障提供方案。最终形成更安全的以数据为核心的企业信息系统运作平台,对于提升信息系统运维品质、提高整体运行效率起到了积极作用。
1.面临问题
ERP系统作为某集团型企业最核心的经营管理信息系统,覆盖了所有成员单位,拥有近千名用户,涵盖了财物管理、租赁管理、项目管理、采购及库存管理等多个业务领域,将公司的下属企业全部纳入统一的财务信息平台。而办公自动化系统(OA系统)自投入使用以来,所有公司下属企业均已全面部署,已成为所有员工办公不可或缺重要系统。且其中的公文审批和工作邮件是企业正常运行的必备经营管理方式。因此, OA和ERP系统的稳定运行和数据的可靠非常重要。
2011年4月某日,该公司陆续出现用户无法使用OA邮箱的情况;当日12时起,又陆续出现ERP系统无法使用的现象。故障发生后,经过排查,将故障点定位于核心存储设备。经过分析,启用了OA备份系统,确保邮件和公文业务不受影响。同时做好了ERP系统第三备机的启用准备,一旦存储无法修复,确保ERP业务可以持续运行。次日11时,经过核心存储设备公司位于中国上海、欧洲、美国的三个全球支持中心的联合抢修,最终将故障定位在磁盘柜端接口板,对该部件进行更换后存储设备恢复正常,并修复了存储中的ERP数据。于当日18时最终确认业务全部恢复。本次硬件故障损坏了OA系统的存储文件,15小时邮件及12小时公文处理状态的数据丢失;导致25小时ERP系统停用。
2.问题分析
通过故障处置过程分析,试着从“目的的目的”展开提问,探寻5个“为什么”,从目的到根本的方法,以发现问题的本质,从而进行整改,提高运维水平。
(1)问:为什么不能在出现问题时立刻发现?
答:因为当时没有人使用系统。
问:为什么没有人使用?
答:因为经营管理类系统不是24小时都有人使用。
问:没有人使用就不能发现故障么?
答:需要有人监控才能发现。
问:有没有人能24小时监控?
答:有值班人员。
问:可不可以让他们24小时监控?
答:……
当值班系统具备24小时监控系统的能力时,对于存储设备的监控并没有像运行主机那样严密。随着经营管理类系统在企业中的地位越来越重要,已经不是传统的5*8系统,且越来越从运行核心转向数据核心。因此,要提高运维品质,应该加强对存储系统的监控。
(2)问:为什么厂商工程师不是第一时间到达现场?
答:因为没有第一时间通知厂商到达。
问:为什么?
问:因为故障设备没有在第一时间分析定位。
问:为什么?
答:故障发生第一时间存储管理员没在现场。
问:第一时间现场有无其它相关业务系统工程师。
答:有。
问:他们有没有可能比较快速的定位故障。
答:……
各相关业务部门在相关领域应该互有渗透,这样可以大大加快故障定位的速度和准确率。此外加强备份管理员的培养,提高维护团队的整体实力。可以总体上缩短故障恢复时间,提高运维品质。
(3)问:为什么存储无法使用了?
答:因为发生了硬件故障。
问:为什么发生硬件故障就无法使用,不是有内部冗余保护么?答:冗余保护也没能发挥作用。
问:为什么。
答:关键部件损坏造成多个硬件模块不工作。
问:为什么。
答:设备老化会有不可预知的情况发生。
问:能否防患于未然?
答:……
在信息系统的硬件环境中,主要由运行服务器和存储设备构成。而对于以数据为核心的系统,存储设备的重要性更高。而存储设备是否足够可靠呢?在系统运行前期,存储设备的稳定性通常比较好,冗余机制保障也比较充分。但随着时间的推移,设备老化后会带来意想不到的故障,甚至影响系统运行。
从统计表中可见,前三年存储设备几乎不发生故障,而3至5年中硬件故障明显增加,但还没有影响系统运行。5年以上,随着设备老化,故障发生次数急剧增加,而且影响系统运行的严重故障率也呈上升趋势。
防患于未然:上文中发生故障的存储设备有150多个硬件模块,其中有较易损部件和不易损部件,从生命周期管理角度应区别不同的模块,提前更换易损部件。此外对于这种老化设备,应加强硬件检测,提高运维质量。
(4)问:故障发生时,有没有数据备份。
答:有。
问:为什么不能马上使用。
答:需要恢复且会有数据损失。
问:为什么。
答:核心存储只有一台。
问:为什么
答:当初设计的系统架构决定的。
问:能不能改变。
答:……
系统设计之初对于运行服务器冗余考虑较充分,对于存储设备通常采用内部冗余的单台设备。从系统结构分析,该系统采用的是业界较流行的2+1系统架构。该系统架构的缺陷是,无论运行服务器有多少集群热备冗余,核心存储设备只有一个。结构设计过分依赖存储设备本身的冗余保护机制。一旦设备出现老化等异常情况,极易形成单点失效,系统风险很大。随着系统业务不断发展,数据量越来越大,数据重要性越来越高,系统保障级别逐年提升,因此该问题会越来越凸显。而要彻底解决,需要在结构设计上进行改造,建立双存储备份容灾的机制。
(5)为什么中午12:00设备修复,业务系统要到下午18:00才能完全恢复?
答:因为要进行数据恢复需要时间。
问:为什么需要这么长时间?
答:数据量比较大。
问:为什么大?
答:多年使用自然增长。
问:是不是会越来越大?
答:会。
问:能不能让数据量变小?
答:……
经管类系统的特点就是数据为核心,其历史数据对于系统的意义至关重要。而随着时间的推移和用户量的增多,历史数据越来越大,其中大部分不经常访问,也不能删除。过大的数据量使系统备份恢复增加了负担,大大延长了系统恢复时间。
3.解决之道
能够接近根本,就找到了超越的理由。通过以上的问题分析,已发现5个较明显的运维方面的系统问题。
下面就通过这5个问题进行改进,全方位入手提高运维水平。
3.1完善对核心存储系统的24小时监控(预警机制)
通过增加监控服务器的方式,实时监控核心存储设备的状态,当设备出现故障时,自动向监控服务器发报警信号。监控服务器根据系统故障级别自动在24小时值班监控平台上报警并发送报警短信给系统管理员,从而第一时间发现设备故障。
3.2加强人员培养,完善应急预案。(知识管理)
各相关业务科室互相培训相关领域知识。加快设备维护后备人员培养,提高维护团队的整体实力。可以总体上缩短故障恢复时间,提高运维品质。此外,需要增加管理员的经验总结,并完善应急预案以适用于新发生的状况。
3.3高风险设备高维护级别(生命周期管理)
在生命周期管理中,对于核心存储这种高风险及硬件结构复杂的设备,生命周期管理细化至主要硬件模块,提前更换生命周期过长的易损模块,减少故障隐患。此外,设置专人负责该设备定期巡检,频次至少为每周巡检,力求最快检测系统故障。另外还需要基于双冗余模块的应急演练,消除故障隐患。并提前拟定设备更新改造计划。
3.4系统架构调整(技术方案)
针对目前的环境,最好的方式是在不同存储间实现数据异步镜像。这样可以不影响主要生产系统的性能,并达到容灾的目的。发生故障后,切换仅在存储设备间进行,对运行主机透明,大大减少了容灾的复杂性,并增加了可靠性。其对于故障恢复时间及数据损失时间将有大幅度的降低,可以将运维级别提升至一个新的层次。
3.5历史数据归档(容量管理)
经营管理类系统在长期的使用中,随着时间的推移和用户量的增多,历史数据越来越大,其中大部分不经常访问,也不能删除。针对这部分数据,需要实施历史数据归档的项目,使在线数据量有大幅度的下降。这些措施除了可以节约高性能设备的空间,提升运行效率,还可在灾难恢复时减少数据恢复时间,提高系统运维品质。
4.积极实践,初见成效
在存储设备故障后,该公司抓紧对上述工作进行了强化和完善,并取得了实质性的效果。在随后的7月某日存储设备第二次故障时,该方案的一系列措施发挥了十分显著的效果。故障定位时间从4小时缩短为1小时30分,使厂商到达及故障处置时间大大降低。由于系统已进行数据镜像容灾保护,切换时间从6小时,大大缩短至1小时内。理论丢失数据由原来的24小时缩短至20分钟。且由于当时是深夜没有用户操作,实际有效数据损失为零。由于完善了应急预案的内容,ERP系统也在短时间内进行了第三备机的数据恢复和准备。对用户的影响时间从4小时降至OA无影响、ERP影响1小时。
信息系统的稳定与安全还需做更多的工作,随着信息化建设的不断推进,在企业中的信息化数据也将扮演越来越重要的角色。因此会对其稳定高效运行提出越来越高的要求。因此强调从目标管理转向过程管理,通过运维过程管理、技术方案实现和异地容灾,进行全方位信息系统容灾建设,提高运维容灾级别,建设一个稳定、安全、高效的信息系统数据。
参考文献:
[1]《丰田的思考习惯》国际文化出版公司