期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 机房应急演练总结

机房应急演练总结精品(七篇)

时间:2022-07-29 04:07:26

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇机房应急演练总结范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

机房应急演练总结

篇(1)

中国建筑技术集团有限公司、厦门科华恒盛股份有限公司、北京时代飞扬科技有限公司、北京嘉华时展有限公司,以及北京邮电大学、北京交通大学等技术和高校代表参加了此次沙龙活动。

北京交通大学信息中心主任贾卓生以《机房与数据安全应急演练》为题,展开演讲。据他介绍,北京交通大学信息化办公室于2016年期末组织了校首次信息系统及数据安全应急演练,旨在摸清学校信息系统数据日常备份情况、检验各单位信息系统数据备份的有效性。随着学校网络规模的不断扩大、网络承载信息的不断增多,信息中心组织并开展了信息系统及数据安全应急演练。通过模拟机房突发火灾,确保系统的异地备份数据可用,不断增强信息系统数据的安全意识和应急处理能力。

信息化办公室于2016年上半年向学校部处各级学院了《关于组织北京交通大学信息系统及数据安全应急演练的通知》,安排部署应急演练的相关事宜。演练假想服务器机房发生火灾,导致服务器及其上的数据无法使用。学校通过购买新设备后,需要利用原有异地备份的数据在新设备上进行系统恢复重建。

在参与演练的信息系统中,数据容量为TB数量级的系统有多个,包括信息中心的邮件系统、教务处的课程平台系统、物流VOC数据采集与监控系统、信息中心的日志系统。所有90多个系统总的数据量接近200TB。

在演练过程中,恢复系统所需时长最长的为教务处的教务系统、毕业论文系统、大创项目系统,因为操作系统出现问题,重新安装系统花费了10多个小时,系统总恢复时长约为30小时。其他系统,如计财处的各系统大约需要12小时,招生就业处的招生资讯网需要3个小时,信息中心的OA系统约需9小时,一卡通相关各系统、邮件系统、Mis系统、科研系统等均需2至3个小时。

贾卓生总结,通过此次演练,摸清了各单位的情况,暴露出一些系统的数据备份机制存在比较大的问题:有些系统没有或很少做数据备份;有些系统只有简单的本机备份,没有异地备份;有些系统有异地备份,但从未检验过备份数据的可用性等等。信息化办公室通过此次演练了解各单位的备份需求,对于今后筹建规范化备份机制打下了工作基础。

目前,北京交通大学已扩容了异地容灾备份的存储空间,同时开通NAS存储,使所有系统管理员(包括部处和学院)都能够自己备份数据到异地容灾系统中;部署数据备份软件,自动备份所有数据和系统;各类系统向云平台迁移,利用云平台本身的镜像备份功能,可快速恢复系统。同时两套云平台互为备份,避免鸡蛋放在一个篮子里的问题。

事实上,高校机房建设、规范、维护及数据安全的问题一直存在,各院校因其信息化水平和实际使用情况不同,表现出了不同的需求。

中国建筑技术集团有限公司高级售前经理赵凯介绍,数据中心基础设施的范围包括:门禁安防系统、消防灭火系统、机房环境监控系统、楼宇自控系统、装饰装修系统。而造成数据中心设施维护风险的原因包括:不当运行维护操作、设备产品自身的故障和不科学的维护管理制度。根据专业机构统计,数据中心设施运行风险中,约70%的基础设施故障是人为失误造成的;仅有30%是由于设备自身造成的。对于数据中心用户而言,通过健康评估和项目整体维保的方式,能够提前发现设施存在的风险,及时采取有针对性的措施加以预防和解决。

数据中心整体维保,是站在整体系统而非设备的层面考虑数据中心的安全运行,由优秀第三方提供7×24小时技术支持与维修,对设备和环境进行调整配合,设备定期维护保养,灾变应急处理等。在整体维保服务中通过响应及时、管理规范、运行安全、资源可用的要求,实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。

厦门科华恒盛股份有限公司技术总监杨平以“提升数据机房全生命周期可靠性”为题,分享了国家开放大学、北京回龙观中学、三峡大学智慧校园等案例。其中,科华恒盛微模块数据机房为三峡大学智慧校园机房建设提供了一个集成配电系统、UPS系统、精密空调系统及冷通道系统等系统的整体解决方案,打造高效节能、智能简捷和极具扩展性的绿色数据中心。

篇(2)

【关键词】业务连续性管理体系;业务影响分析和风险评估;矩阵模型分析法

一、引言

2011年银监会向全国商业银行等金融机构下发《商业银行业务连续性监管指引》(银监发〔2011〕104号,以下简称:《指引》),从业务连续性组织架构、业务影响分析、业务连续性计划与资源建设、业务连续性演练与持续改进、运营中断事件应急处置等几个方面指导国内金融机构建设业务连续性管理体系。自发文以来,国内银行一直根据监管的要求建立符合自身发展的业务连续性管理体系,然而,业务连续性管理体系的建设涉及面广、建设周期长,从“软件”方面来看,涉及现状调研、方案及计划制定、业务影响分析和风险评估、重要业务范围界定、制度建设、总体和专项应急预案建设、演练等内容,从“硬件”方面来看,涉及数据中心及灾备中心建设,需要大量的资金及时间等资源的投入,虽然《指引》发文已5年有余,但极少数银行可以完全按照监管的要求建立全面健全的业务连续性管理体系。本文以某银行业务连续性管理体系建设为研究背景,总结业务连续管理体系建设过程中的重点及难点并提出解决思路,为国内银行同业提供参考方法。

二、业务连续性管理体系建设重、难点解决措施

在业务连续性管理体系建设实践中,组织架构、业务连续性计划、业务连续性应急预案等工作实施难度较低,难点在于业务影响分析、总分行资源建设、业务连续性演练等工作,本文着重介绍上述难点的建设过程。

(一)业务影响分析

业务影响分析的主要目标是帮助银行通过识别和评估业务运营中断造成的影响,明确业务连续性管理重点,根据业务重要程度进行差异化管理,制定不同业务的恢复目标、恢复次序、确定支持重要业务对应的信息系统的恢复目标,其主要工作包括2个方面的内容,一方面是现状调研,另一方面是业务影响分析和风险评估。在现状调研阶段,由于该项工作涉及全行所有业务以及大部份部门,可采取培训、访谈、召开研讨会、调查问卷等方式,逐步推进工作开展,初步梳理出重要业务清单。在业务影响分析和风险评估阶段,结合国内外先进实践经验,采取财务影响和非财务影响两个维度对初步梳理出来的各项业务进行风险评估。财务影响和非财务影响均采用评分制,其中,财务影响主要评估该项业务中断一个工作日给银行带来的收入损失,可根据银行自身业务收入水平设置分值,该项指标是较为客观的估值;非财务影响则综合评估该项业务中断可能给银行带来的影响,如:监管负面影响、声誉损失、客户负面情绪、投资者信心/忠诚度降低、法律/诉讼风险、国家金融秩序稳定等,该项指标具有一定的主观因素,为避免主观因素影响程度过大,可采取两种方式降低影响:一是扩大调查问卷的样本量,二是对非财务影响的各个要素设置权重值,对财务影响及非财务影响设置综合评分规则。特别地,对于后台运营类、渠道类业务(比如:自助银行业务),虽然不直接产生业务收入,但它是其他业务产生收入的必要条件之一,对于此类业务计算该渠道所承载的各业务种类收入之和作为该渠道的业务收入。在确定各项业务的财务影响和非财务影响指标基础上,采取矩阵模型分析法进一步确定业务恢复的优先顺序。在确定业务恢复的优先顺序的基础上,进一步确定该业务对应的信息系统恢复目标,以指导关键信息系统的资源建设。《指引》要求,“原则上重要业务的RTO不得大于4小时,重要业务的RPO不得大于半小时”,在信息系统资源建设中,关键信息系统的恢复能力应满足重要业务RTO、RPO的时效要求。

(二)总、分行资源建设

业务连续性资源建设属于“硬件”设施范畴,主要涉及总行同城、异地灾备中心以及分行机房设备的建设。在总行层面,同城、异地灾备中心应建立重要信息系统的备份,在日常工作中应加强对灾备中心机房的巡检,确保系统正常运行。在分行层面,应从供电、网络、系统建设等方面实现全方位的应急措施,比如在供电环节,分行除配置双线路供电外,还要配备不间断电源(UPS)和应急发电机;在网络连接环节,不仅要配置不同运营商的网络线路,还要配置无线设备,确保在极端情况下仍能保障重要业务持续运营。

(三)业务连续性演练

虽然《指引》对国内商业银行开展业务连续性演练的具体方式未作硬性要求,许多银行在演练环节采用较为简单的桌面演练以应付监管的要求,这种方式虽然成本较低,但效果不好,难于检验应急预案的可行性,在实践中,某银行根据业务重要程度有针对性地对重要信息系统开展实战演练,在业务量较小的时间段将生产系统切换至灾备中心系统上运行,平时不断总结经验,实践证明,这种方式能够较好地应对突发状况。另外,许多银行在开展应急演练时,未要求业务关联方参与,《指引》明确规定,“商业银行应当将外部供应商纳入演练范围并定期开展演练;同时,应当积极参加金融同业单位、外部金融市场、金融服务平台和公共事业部门等组织的业务连续性计划演练,确保应急和协调措施的有效性”,因此,在开展应急演练时应将关联第三方纳入演练范围,注重演练的实质而非形式。

三、结束语

本文根据实践经验,对商业银行业务连续性管理体系建设过程中的重点、难点提出建议和方法,在业务影响分析环节提出按照财务影响和非财务影响来区分重要业务的分析方法,为梳理出业务恢复优先顺序提出矩阵模型分析法,实践表明,可顺利、高效地完成业务连续性管理体系的建设,有效降低重要业务中断风险,提高业务风险应对能力,满足《指引》对商业银行建设业务连续性管理体系的要求,对国内银行建设业务连续性管理体系具有参考意义。

参考文献

[1]中国银监会.商业银行业务连续性监管指引[Z].

[2]刘杰.银行业务连续性管理体系建设方法研究[J].时代金融,2014(2).

篇(3)

由于近日大范围持续降雨,梅州也将迎来台风、暴雨、洪水的多发季节,为确保汛期网络通信工作的正常运行,无线优化中心领导对此高度重视,提前安排,多项措施并举,加强防汛值班,明确防汛重点部位,制定防汛措施。

防患於未然,加强通信基站隐患、缺陷巡检。配合各县公司开展通信隐患排查工作,安排维护人员分组对辖区内的机房设备、线路、油机等,尤其是汛区周围重要机房进行重点排查;通过巡查及时发现隐患问题,各县公司把控跟进整改情况,限时对整改情况进行上报。开展油机维护、空调维护、二次下电整改等一系列专项行动,并制定了相应的考核办法,确保基站设备安全稳定运行。

未雨绸缪,做好应急准备。提前储备防汛应急通讯工具,调配应急车辆,对已有物品进行检修、维护、保养。汛期前要求一体化维护对所有油机进行了一次检修保养,确保油机正常启动发电。通过对全市基站进行梳理,重点基站进行重点保护;总结历年经验,完善防汛应急预案,并结合实际组织进行防汛应急预案演练,确实提高班组应急处置能力。遵循先抢通,再抢修的原则,采用备用器件、备用线路、备用配件等恢复通信功能,然后再对原故障点进行抢修。

篇(4)

关键词 信息化;机房管理;维护

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)172-0180-05

现今,伴随着信息技术的高速发展,特别是在“新医改”的背景下,各地医疗机构正加速实施基于信息化平台、HIS系统的整体建设,以提高医院的服务水平与竞争力。通过信息化的建设,医院不仅可以提高医生的工作效率,使医生有更多的时间为患者服务,从而提升患者的满意度,同时树立起医院良好的现代化服务形象。

为了要实现医疗业务应用与基础网络平台的逐步融合,实现医院各部门之间乃至各医院之间信息数据的存储、处理和交换,并满足所有授权用户的功能需求,保证数据传输的高效性、稳定性以及数据的安全性,就必须建设一定规模的科学规范的机房,对数据的处理和存储进行集中管理,安全灾备,降低运维成本。

然而,随着计算机技术的日新月异,网络的蓬勃发展,机房也在不断地迅速地变换着它的样子。但是无管它最终形态如何,对机房的管理与维护是必不可少的。本文分析了机房的现状与发展,阐述了机房管理与维护的重要性,对机房的管理与维护进行探讨,提出一些浅见。

1 机房的发展与现状

1.1 机房的定义

机房,通常是指在一个物理空间内实现信息的集中处理、存储、传输、交换、管理等;它是由硬件、软件以及网络布线组成的一个核心体系。

硬件主要由服务器、磁盘存储阵列、交换机、防火墙、网关、UPS、空调与加湿器、防雷等设备组成;软件则根据各行业的不同而有所差别。现行医疗行业主要包含有HIS、PACS、EMRS、RIS、LIS等。机房通过高速网络与下行或并行的各个节点相连接,是整个网络体系的中枢。

1.2 机房的发展

机房始于20世纪中期,伴随着计算机的产生而应运而生,并与国家计算机和经济的发展息息相关。我国机房的发展大致可分为4个时期。

1.2.1 前期机房(1960―1980)

前期的机房并没有统一的标准,结构单一,完全是在摸索中建设的。由于这时期技术还不成熟,对机房环境要求非常高,入门需要换衣换鞋,风淋除尘,少量灰尘都会导致设备故障。因此,这时期的机房设备故障率很高。当然,早期的计算机性能也是因素之一。

1.2.2 中期机房(1980―1990)

中期机房已在逐步摸索中慢慢地建立起了标准,包括机房选址、面积等。机柜的应用也使得机房设备有了属于自己的一片花园。此外,机房环境也有了大大的改善。不仅采用了防静电地板,恒温恒湿的专用空调机,还引进了UPS,在消防系统、除尘应用方面也引入了新的理念。

1.2.3 近代机房(1990―2000)

这时的计算机技术已经非常成熟,IT设备逐渐小型化,服务器逐步成为主体,多台计算机、服务器互联共享犹如雨后春笋。数据安全也随着存储介质水平的提高而得到进一步的保障。恒温恒湿的专用空调、UPS的广泛使用,防雷标准的完善,综合的监控系统的出现,使得机房设备运行更加稳定、可靠。但与此同时,机房的理念也悄然发生了变化。

1.2.4 现代机房(2000年至今)

跨入了新世纪,IT技术及网络通讯技术持续快速发展,不断创新、革命,计算机在业务中的应用比计算机本身更受关注。机房技术在结构布局、供配电、制冷、监控管理等方面也产生了巨大的变化,特别是NCPI理念的引入,是第一次以系统性的思维方式、系统性的研究方法去看待IT基础设施。受数据中心概念的引入,智能建筑和效能理念的影响,目前机房正向着模块化、智能化、节能化等方向迈进。

2 机房管理与维护的重要性

不管是什么时期的机房,加强对机房的安全管理与维护都是十分重要的。

机房就像人的心脏一样,必须时刻地、有条不紊地跳动着。一旦故障或停止,就会影响到整个网络系统的运行,破坏医院乃至数家医院的数据传输、存储,对数据安全构成威胁,甚至造成医院运营瘫痪等不可估量的严重后果。

其一,机房是网络主要设备和重要数据存储的物理存放处,加强对机房的管理与维护是确保网络功能和安全的基础。如果机房的设备,如核心交换机、服务器等感染病毒或物理损坏,会导致数据丢失、无法存储,甚至导致整个网络的崩溃。因而,实予有效措施,管理好机房的每台设备,确保每一条网络线路畅通,保证良好的机房环境,才能保障机房发挥其主要的功能和作用。

其二,随着远程会诊、移动医疗护理、App服务业务的兴起,医院的应用功能系统越来越多,且复杂,对机房进行管理与维护,可以有效区别网络功能,使网络能更好地发挥其预定的功能和价值。

其三,对机房进行科学、规范的管理与维护可以提高机房的利用率,延长机房设备的使用寿命,降低设备的更换率,进而节约机房的投资成本。

其四,对机房科学、有效的管理与维护还可以提高整个网络的运作效率,从而减轻机房管理员与维护人员的工作负担,降低工作难度,同时让终端用户的医护人员更加得心应手,提升他们对信息工作人员的认可度与满意度。

总之,在信息化程度越来越高的今天,医院对于网络、网络应用以及信息安全具有较以往更高的要求,而机房作为整个信息网络工程的核心,联系着医院生存的命脉。科学、规范、有效地管理、维护好机房就等于把握了医院的未来。

3 机房的管理与维护

机房的管理与维护其实既是一个整体也有一定区分。它们的区别就好比宏观和微观的区别;管理是对大方向的掌控、分类,维护则是精细化、落到细处。

3.1.3 应急预案

无论是多么完善的管理,都难免因人为或不可抗力而发生“特殊情况”。所以,为了避免在出现问题的时候措手不及,在管理机房的同时,也应制定相应的应急预案,以保万全。

目前有很多单位人员,包括院领导,都认为一旦机房出现问题,是信息中心的问题,所以制定与实施应急也是全部属于信息中心。这种观点大错特错。因此,制定与实施应急预案必须注意以下几点:

1)预案制定。由于医院的所有应用都是基于信息化,所以制定预案无疑必须以信息中心为中心,并由包含信息中心管理员在内的核心人员制定。

2)指挥中心。所谓“蛇无头不行”,所以在预案中一定要明确总指挥小组与其责权范围,为之后预案的实施做好有力的领导、协调作用以及权责分配。

3)涉及面。虽然机房确实是属于信息中心,但出现问题后其波及面是非常广的。所以,为了保证应急时各部门运作正常,不影响医院的整体运营,应急预案的制定必须要包含事件所波及的各个科室,对各科室的应急工作做好统筹,制定流程与措施,为实施时能协调并进做好准备。

4)灾后重建。在问题解决后,重建是非常重要的。所以,重建也应包含在预案当中。重建应包含两部分。一是对数据的补全。对应急期间信息系统内缺失的病人信息、各类费用进行补入、补收。一是对应急的反思,总结经验,完善预防措施。

3.2 机房的维护

在高效的管理背后,剩下的就是有效的机房维护了。机房的维护涉及很多细节方面,需要认真对待。

3.2.1 日志

日志是机房管理及维护的“监控者”。它让机房管理员以及医院管理者有迹可寻、有事可查、有据可依,总结工作经验,有利于推进信息化建设深入开展,它是解开一切繁琐的、未解的疑难杂症的重要手段之一。此外,通过日志的分享,还有利于促进技术人员之间的相互学习与交流,推广工作经验。因此,必须养成记录日志、浏览日志、查询日志的良好习惯。

日志一般可分为以下几类:

1)日常巡检日志。日常巡检日志主要是对机房进行日常巡查情况的记录。它包含有:服务器等网络设备的总体运行状态、机房温湿度、仪表盘清晰度、环境清洁度、照明、噪音、消防、供断电情况等等。当然,还有故障排除和处理情况、演练情况也应记录在此日志上。此日志由机房管理员每日进行巡查并手工记录在案。虽然是人工的,但是这样做有利于机房管理员切身感受机房环境,真实了解机房里的总体情况,为管理员积累宝贵经验。

2)机房日常出入日志。门禁系统虽然也有记录机房进出的时间,但是不够完善。于是此日志就填补了该系统的不足。它手工详细记录了进出机房人员的姓名、出入时间、出入事由,并且由机房管理员和出人人员亲笔签名,以保证信息的准确无误。

3)系统运行日志。系统运行日志主要是对各应用系统的日常运行情况的记录。它是由系统自动生成的。浏览和查询这些日志有利于机房管理员及时了解当前系统的运行状态和出错详情,及时解决出现的问题,谨防系统崩溃。

4)软、硬件升级日志。此日志是在机房变迁、硬件变更、软件升级等情况下,由管理员手工备记在案的。这样做,一方面有利于机房管理员或医院各级领导了解机房的信息化建设的进展情况;另一方面,在更新出现问题的时候,能及时找到截点,对症下药,从而有针对性地指导网络运维保障工作。

5)灾备日志。灾备是对“人为”或“不可抗力”的灾难的一种预防措施。日志即记录了这些灾备的情况,包括备份的大小、时间、份数、位置以及所含的程序等。详细记录、整理灾备的日志,有利于在紧急情况下缩短查找备份的时间,有条不紊地恢复预定的文件备份。

3.2.2 防病毒、防攻击

随着网络的飞速发展,以网络为主要载体的计算机病毒的威胁已日趋严重。病毒不仅破坏力强、变异性好、传播性强,而且扩散面广,传播速度快,一旦中招,难以彻底清除。所以,为保障医院内部数据的安全,机房防毒防攻击必不可少。防范措施主要有以下几点:

1)安装软件。机房里服务器等各设备应部署防毒防恶意代码软件,并定期对其进行病毒库或系统模块升级,保证它们处于最新功能状态。同时,由于现行的各类应用软件,有很多都有捆绑其他软件,有的甚至含有恶意代码或病毒,所以尽量安装国家许可、授权的正版软件,并对要安装在服务器上的软件进行甄别、查杀。

2)系统检测。除了保持病毒库的最新日期外,还需要定期对系统进行病毒检测和查杀,及时清理病毒或可疑文件。如果发现有不能彻底清除或仍存在安全的隐患时,应及时进行上报。此外,还应定时升级操作系统的安全补丁,封堵系统漏洞。

3)存储介质。为确保数据的安全,严禁使用来历不明或无法确定其是否含有病毒的存储介质。若确需安装使用,安装前应进行病毒检测;确认无病毒后方可使用。

4)人员意识。机房管理员及相关技术人员应当具备有较强的病毒防范意识,应随时了解和掌握最新的病毒发展趋势以及相应的处理方案,还需根据不同病毒的发作条件及发作时间、周期、特征,建立病毒预警机制,作好提前防范和日常监控工作。

3.3 灾备

灾备,灾难备份的简称,是利用技术、管理手段以及相关资源确保关键数据、系统、业务在灾难发生时、发生后可以恢复的过程。它是为应对机房在人为或不可抗力而造成非计划宕机和灾难损失的一种未雨绸缪的自我保护的重要手段之一。

1)灾难分析。形成灾难的原因可分为人为因素和不可抗力因素。

人为因素常常是由于个人的技术不足或人为疏忽或恶意操作而导致的。此类因素发生几率高,危害的表现形式也比较多。它导致重要数据的丢失、泄露,设备、系统功能的故障或丧失等等。

不可抗力因素则包含两种。一种是设备、线路的老化或者阶段性技术的制约等;一种是自然灾害。前者发生的几率较为普遍,但一般是发生在一定的时期内。后者几率低得多,但是后果比较严重,可能直接导致数据信息中心的崩溃或在短时间甚至较长一段时间内无法恢复或重建。

因此为了最大限度的降低医院重要、敏感数据的丢失、破坏几率,减少医院的经济损失,定时定量进行灾备必不可少。

2)灾备等级及技术。灾备需要考虑的因素很多,包括灾备数据量,数据中心与灾备中心的传输距离、传输方式、传输速度以及资本投入量等等。常见的灾备等级可分为4级:

(1)0级:本地备份、保存的冷备份;(2)1级:本地备份、异地备份的冷备份;(3)2级:热备份站点备份;(4)3级:活动互援备份。

其所涉及的技术也比较多,包含有SAN或NAS技术、基于IP的SAN的互连技术,远程镜像技术、虚拟存储、技术快照等等。因此,做灾备前,一定要先确认自己所要规划的灾备等级,按照对应要求寻求相应的技术支持,进行有效、合理的灾备。

3.4 其他

除了以上的维护外,机房的维护还涉及其他很多方面,如理线。

随着技术水平的提高,各类线材的质量都有飞跃性的进步,线材的质量已不再是人们最关心的问题了,这时,人们的注意力慢慢转向了布线的美观。实际上理线的好坏,不仅关系到机房、机柜的美观,另一方面还可以提高机房管理员的巡线效率,同时也可以防止因线路杂乱而带来的其他失误。

常见的理线方式有瀑布式、正向理线式、逆向理线式等。瀑布式理线优点就是省钱省人工,但缺点也是很明显:杂乱、易被破坏、难分清。逆向理线式优点在于相对清晰,但是这种方式容易产生积线、交叉线。正向理线式是从机房的进线口就开始逐段整理,直到模块处。其优点就是美观且保证线缆在每点都整齐,不会产生交叉,但是缺点就是一旦在线路不通就必须重新整线。

因此,采用什么理线方式,得根据机房的规模大小,根据不同的区域进行选择,并且在理线后打上标签,这样不仅提升了机房的美观,也提高了管理员的管理、维护效率。

4 问题讨论

机房的管理和维护除了上述外,目前还有许多其他问题,在这里也进行探讨下。

4.1 技术力量的重视

在很多家医院,其实都有出现这样一种现象:领导并不重视信息中心,并不诊视信息管理人员,也不重视他们技术力量的提升。虽然他们常常把“信息很重要啊”、“你们很重要啊”之类流的挂在嘴边,但更像是在做演说、走过场。在众多权衡利弊之下,信息中心通常只有垫背的份。

然而,进入了21世纪,那是信息强时代。信息中心的强弱、技术力量的强弱,直接影响着医院运作效率的高低,从而影响着经济效益的厚薄,尽管医院并不以盈利为目的。

因此,改变对信息中心的看法,对信息管理人员的做法至关重要。机房涉及了多门学科、多方面的知识,机房管理和维护人员要做的事情也是方方面面。所以,医院在致力于自身医疗管理、医疗服务的同时,也应注意提高机房管理与维护的人员的素质,要有针对性地对机房管理与维护人员展开培训,使其得到专业能力的发展,使其能获得与时俱进的新观念、新知识、新技术,进而更好地为一线服务,创造新的价值。

4.2 个性化机房

个性化机房也是现今机房所倡导的主题之一。KVM系统则是个性化机房的标志之一。

KVM,即keyboard、video、mouse的简称,是一种集中式的管理设备。我们最常见的就是KVM SWITCH。通过KVM SWITCH的连接,轻松实现访问并集中管理机房里的所有服务器,省去了多余的键盘、显示器与鼠标,为机房营造“清心”的环境。

但是,我们常见得是把KVM SWITCH安装在机房的机架上。虽然这样确实为管理机房提供了便利,但是每次管理和维护的时候都得进出机房。这样频繁进出机房不仅会缩短门禁系统的使用寿命,也使得机房环境难以保障,而且机房管理员如长时间待在低温机房里工作,会危害他们的身体健康。

所以,可以把KVM SWITCH移动到机房外的监控室或管理人员的办公室,这样不仅消除了上述的担忧,又可以让机房管理和维护人员在舒适的环境中进行管理和维护,提高了效率。

4.3 节能环保

目前,有不少医院因为中心机房规模不大,或其他环境因素的制约,并未采用精密空调等高端节能设备。如果对其进行全面改造,无论从安全或是经济角度都不现实。尽管如此,但是如果能对现有机房的小范围改造,因地制宜,也能达到预期的效果,实现低碳、节能、环保,同时不用伤筋动骨,节约成本。

以制冷为例,在没有精密空调的机房里,关键问题是一方面如何让机房空气循环,达到制冷均匀;另一方面是如何降低冷热空气对冲,减少能耗。如果可以把房内热、冷空气分离输出、输入,先冷设备后冷机房,这样不仅可以让设备达到比较好的制冷效果,同时又可以大大降低能耗。当然,方法不止一种。

精密空调确实有其优势,但是不能让“广告”淹没了现实。有条件的医院就上精密空调,没有条件则从现实环境出发,只要设计、配备合理,都可以达到理想的效果。

4.4 应急预案的问题

机房应急预案是针对可能发生的突发事件,为确保迅速、有序、高效地开展应急处置、减少经济损失而预先制订的计划或方案。

在制定预案时,为了避免预案实施中出现不必要的“不适应”,制定预案时需注重完整性、可操作性,应当充分体现应对突发事件各环节的工作,明确各个进程中,谁来做,何时做,调动哪些资源做。

而在实施中,“协调配合”是非常关键的。不少医院在预案的演习或实施中,常常出现滞后现象。科室之间相互配合差,相互推诿、相互指责,不按章办事,造成预案在实施过程中常常由于某些节点做得不到位而滞后,甚至功亏一篑。

因此,平时应多加强全体职工应急预案的宣传、培训工作,提高他们的应急意识和协同工作能力。在实施预案时,各科室必须紧密地、有条不紊地按章合作,领导小组应当充分发挥其强有力的领导、协调作用。只有这样才能遇急不惊,临场不乱,处理稳当。

5 结论

机房的管理和维护工作涉及了多方面的知识和技术,且不断演变、更新。它既杂烩,又专业;既有趣,又辛苦。

因此,在管理和维护工作中,应完善机房管理制度,从实际机房的各个方面着手,制定出一套切实可行的管理和维护方案,并严格按照方案内容来实施、进展各项工作,同时做好相关记录。遇到突发事件,及时上报,冷静分析,采取有效应对措施解决问题;事后归纳问题源头,总结经验,并补入已制定的方案中做日后参考。

此外,机房管理和维护人员并不总能掌握所有的知识与技能,因此要与时俱进,及时了解、分析机房的现时发展和趋势,吸收各相关方面的新知识、新技术,提高管理和维护水平,并融入日常的机房管理与维护当中去,强化机房日常管理与维护工作,保障机房功能和作用,为医院打造一个健康、稳定、现代化的信息化综合平台。

参考文献

[1]孙景枫.谈计算机机房的维护与管理[J].天津职业院校联合学报,2008(4):143-144.

篇(5)

【关键词】银行信息系统 应急演练 综合评价方法

一、概述

随着我国金融市场不断发展,信息系统建设已成为商业银行核心竞争力之一,信息系统安全直接关乎商业银行自身利益,甚至影响国家金融安全和社会稳定。要确保信息系统安全稳定运行、保障业务连续性,就必须不断加强商业银行信息系统应急管理,提高应急能力。作为应急管理的重要环节,应急演练能够全方位检验商业银行应急管理能力,验证应急预案有效性、应急资源完备性及应急人员的适应性。

鉴于此,国家相关部门、各商业银行高度重视信息系统应急演练工作,银监会对银行业信息系统应急演练提出明确要求,涵盖演练范围、组织保障、优化改进等多方面[1];各主要国有行业银行、股份制商业银行及各地方银行,都定期开展分重点、分层次、分系统、分阶段的信息系统应急演练工作,查找问题,提高处置能力;苏忠运对大型国有商业银行一级分行信息系统应急演练工作方法进行探讨,提出应急演练策略、工作要求和工作评价方法[2];王钢对金融信息系统应急演练中的信息管理、资源共享、预案更新等问题进行研究,提出分级响应策略等[3];任长清将银行灾难恢复应急演练分为预警、启动、恢复、解除和回切等五个阶段,提出灾难恢复组织、指挥机构、实施原则、演练案例、演练方案和演练培训等六个重要事项[4];任长清还提出三点估算法,对商业银行灾备组织人员的到位时间进行评估[5]。综上所述,业内专家和学者在商业银行信息系统应急演练方面,已开展大量的工作,但这些研究仍存在进一步改进的地方和问题,如应急演练组织有待进一步细化、应急演练结果评价量化等。

二、组织流程

商业银行信息系统应急演练组织流程如图1所示,主要包括准备、演练、总结等3个阶段。在准备阶段,根据演练总体要求及各商业银行信息系统现状,做好人员构成、演练范围、流程规划、演练环境、故障场景、技术保障等方面的准备工作,做到安全可控前提下,确保尽量逼近真实[2];在演练阶段,首先由应急值班人员向应急人员系统预警,通知人员到处置现场进行集结,人员集结后由技术专家向其宣布故障场景,处置人员根据故障场景,按照日常应急预案进行应急处置,处置过程中,考评小组对处置流程、处置方法、处置结果等进行量化打分,并形成演练评估报告;在总结改进阶段,要对演练过程、演练结果进行深入总结分析,形成总结报告,对参加演练的应急处置人员进行表彰或提出改进意见,根据演练效果对应急预案做进一步优化。

图1 应急演练组织流程

(一)准备阶段

作为应急演练的组织方,在筹备演练过程中,首先要根据相关法律法规、规章制度以及银行内部相关规定、管理办法,综合参考信息系统应急预案,拟定应急演练工作方案初稿,同时召开应急演练讨论会,听取管理、业务、安全及技术等部门的意见,形成应急工作方案,报上级领导审批同意后形成正式的应急演练工作方案,下发相关干系人。应急演练工作方案要明确演练组织机构、时间地点、参与人员、应用系统、演练流程等要素,明确分工,明晰责任。

构建高效的、完备的组织结构(表1)是演练成功的关键因素,通过高层领导推动演练资源准备、实现演练权威性,通过技术专家确保演练演练有效性和可靠性,通过设立工作小组实现演练有序开展,达到演练目标。

表1 应急演练组织结构表

相对机房环境、网络、操作系统等方面而言,由于银行业务种类繁多,各信息系统之间应用逻辑复杂、关联性强,应用级应急演练更具紧迫性。在众多应用系统中,要选择以下三类应用系统作为演练的“故障”系统:(1)关键业务系统(2)近期有重大变更的系统(3)近期出现生产问题的系统。

评估小组根据应用系统历史问题、关键程序、关键路径制定演练场景,演练场景是各应用系统的“故障”描述,详细记录应用系统故障时间、故障部位、故障状态、故障表现等,这些应用场景所描述故障一旦真实发生,将极大影响生产安全,甚至对业务造成重大影响。同时为确保安全可控,演练场景和相应处置方式对生产不能造成实质性影响,可采取的策略包括:系统维护时间窗口、交易量相对较少时间段、利用备份环境。

技术准备方面,在参加演练人员多、涉及环节复杂情况下,可采用应急短信作为应急通讯方式,及时高效发送应急集结、应急处置通知。应急短信可采用企业专有短信号码,通过批量短信发送工具发送,应急人员通过短信进行反馈,由信息系统进行智能统计,形成报表。演练环境方面,设立演练各组织结构场地标示,通过投影等方式及时将处置现场传输到指挥中心。

(二)演练阶段

1.系统预警和人员集结。为全面检验应急资源的就绪状态,尽量做到演练突然性,尽量接近真实状态,应以系统故障来通知各应急人员尽快赶到故障现场进行应急处置。应急通讯畅通、及时响应能力是应急工作的重要组成部分,需作为演练考评指标之一,由评估小组详细记录各应急处置人员的响应时间(表2)。在演练开始后,通过“公告板”等方式实时通报演练进展,营造应急处置的严肃、紧张氛围,逼真模拟故障现场。

2.应急处置。应急人员抵达演练现场后,由技术专家向其说明预设的故障场景,按相关要求进行及时处置。评估小组的技术专家要全程观察应急处置过程,判断应急处置是否符合应急预案要求,是否对生产系统产生影响,并采取及时有效措施避免生产事故。在应急处置后,评估小组按照事先拟定规则,对各应急处置模块进行量化打分。

表2 应急演练各项指标记录表(样例)

3.演练评估。演练结束后,评估小组对演练进行综合评估,应急演练综合评价方法(Emergency Drill Comprehensive Evaluate Method,EDCEM)就是评估小组对应急演练中的各关键项进行综合评价,通过EDCEM可以得到演练评价结果(Emergency Drill Indicator,EDI),其计算方法如式1所示。其中,xi(xi>0)为各指标项的指标值,响应时间、集结时间、处置情况等;ψi(0?燮ψi(xi)?燮1)为指标值量化关系函数,如对响应时间进行量化,1分钟以内为100,超过1分钟为50,超过2分钟为0;(0?燮ω■?燮1,■ω■=1)为各指标项在评价结果中的权重,权重越大,其在评价结果中所起作用越大。

EDI=100×■ω■Ψ■(x■) (式1)

(三)总结阶段

评估小组对应急演练进行综合评估并报应急领导小组同意后,公布考评结果。由应急领导小组将对演练进行全面总结,对演练整体情况进行点评,对在关键方面(如集结时间、处置时间等)表现较好的人员、部门进行表扬,对存在不足之处提出意见。在演练结束后,工作小组要对演练总结形成问题跟踪表,及时跟进各部门改进不足之处,保障生产安全。

三、实践

某商业银行(下称“A行”)为大型国有商业银行,A行软件开发部门(下称“该部门”)现有员工1300余人,每年承担200多个应用项目研发,还承担几百个业务系统的运维保障工作,在信息系统应急方面具有重要作用,由于涉及人员多、系统多、机构多,该部门的应急演练主要验证应急组织协同性和应急流程的有效性,确认应急联络畅通性和应急集结时效性,提升应对突发事件的应急响应与处置能力。

近期,该部门组织开展了重要生产系统应急演练,依据事先制定的《重要生产系统应急支持工作规程》并结合有重要变更、容易出现生产问题来选择参加演练的应用系统,演练由该部门负责人现场全程主持,A行风险管理部门、科技主管部门相关负责人作为观摩小组成员参加演练,相关技术骨干作为应急人员具体实施应急处置工作,技术保障部门相关运维骨干根据应用系统历史问题并综合近期运维重点制定预设应急场景,相关部门一线管理人员、技术骨干组成评估小组和工作小组,承担演练综合评价、组织协调工作,参加演练的领导和技术人员超过50人。演练中,各项应急处置工作均能按照应急方案正确开展,达到相关应急处置规定要求,演练取得圆满成功。

据统计,演练中各系统应急处置人员通讯顺畅,平均集结时间为18分钟,达到应急处置关于时间的规定要求,部分应用系统由于人员配置不合理、距离较远、交通拥堵等客观原因,在接报后超过30分钟抵达处置现场,同时还有个别人员未及时响应应急电话,鉴于此,演练工作小组形成信息通报,督促对相关系统应急处置人员做适当调整,以符合应急处置时间规定,进一步加强应急意识,避免此类事情再次发生。

四、总结

本文对银行信息系统应急演练组织流程进行讨论,提出应急演练综合评价方法,并在大型商业银行应急演练中进行实践,验证应急组织协同性和应急流程的有效性,提升应对突发事件的应急响应与处置能力。本文所提出方法在部门级(一级部)进行实践,应用范围有待进一步扩大,其通用性、规模性还有待加强,同时由于管理、业务和技术等方面的原因,涉及全行的模拟真实故障的应急演练较难开展,应急演练组织方法的进一步研究存在困难。

参考文献

[1]中国银行业监督管理委员会.银行业重要信息系统突发事件 应急管理规范(试行).2008年04月23日.

[2]苏忠运.分行信息系统应急演练工作方法探讨[J]中国金融电脑,2005(05):32-33.

[3]王钢.金融信息系统应急响应及演练[J]计算机安全,2009(08):75-78.

[4]任长清.银行如何开展灾难恢复应急演练[J]中国金融电脑,2007(1):19-21.

篇(6)

在上级主管部门、机场领导小组的监督管理下,消防护卫部坚持“以防为主、防消结合”的方针,坚持做到不断总结经验教训,不断改进和完善工作方法,提高安全防范能力,将事故隐患减少到最低指数,扎扎实实做好消防安全工作,提高全体员工安全防范能力,确保旅客、职工生命的安全。

一、高度重视,积极做好消防安全的宣传工作

只有思想上重视起来,安全行为才有保障。为此,我们十分重视消防安全工作的宣传。我们主要从以下方面落实这项工作。

(一)成立消防安全领导小组,统一领导、协调开展消防安全教育工作。通过各级会议进行消防安全宣传,领导小组坚持召开消防安全工作例会,分析问题,讨论措施布置工作。领导小组在每次工作大会上,对包括消防安全在内的安全问题作了详尽的分析,并提出了许多需要注意的问题,要求各个部门和个人将消防安全牢记在心。

(二)组织形式多样的消防安全知识教育活动,我们针对各级员工接受和理解问题的特点,通过相关活动,使员工掌握了基本的消防安全知识,增强了消防安全意识。消防护卫部还聘请消防专业讲师对全体员工进行消防安全知识讲座,使全体员工掌握消防安全知识。消防护卫部进行消防器材使用方法实际演练,使消防员掌握了消防器材的正确使用方法和灭火技巧,全面提高了员工消防安全意识和防火、灭火实际操作能力从而进一步推动了学校消防教育工作。

(三)进行了一次系统全面的消防安全检查。对哈密机场各个重要部门,譬如候机楼、办公室、机房、车库、宿舍等消防设施进行了全面的检查。

二、推进消防安全责任制,充分落实管理责任与具体措施

只有加强管理,做到责任到人,才能真正做到防微杜渐。这是我们摸索出来的做好消防安全工作的一条重要经验。明岗明责,检查评比,是强化管理力求实效的重要举措。具体说来,我们在以下六个方面加强了规范管理:

1、确定重点防火部位,明确重点防火部位负责人。我们根据办公环境、执勤岗位、机场规划等具体情况及时调整了重点部位防火责任人。

2、经常性地检查疏散通道和应急灯。

3、加强对候机楼、机房和宿舍的管理,不定期检查安全情况。在事故易发地,我们对有关人员加强消防安全教育的同时加大检查力度。

4、加强对消防器具的管理和保养。我们并不因为一些器具平时闲置无用就放弃管理,而是注重保养保证随时可以应急使用,对机场重要部位消防进行了保障。

5、加强对宿宿用电安全的检查。定期检查,教育人员安全用电,防止发生不安全事件。

6、开展消防安全检查,做到三个结合:消防设施检查和重点部位检查相结合,平时小检查和节假日大检查相结合,检查和整改相结合。

三、制定消防安全紧急预案

安全责任重于泰山,消防安全无小事,为了使火险隐患能够在第一时间得到有效控制,制定了切实可行的“哈密机场消防安全紧急预案”、“哈密机场消防演练计划”“哈密机场消防桌面演练方案”并且组织消防员进行学习和演练。全面提高了员工消防安全意识和防火、灭火实际操作能力从而进一步推动了学校消防教育工作。

消防安全高于一切,消防工作任重道远,消防安全工作是一个艰巨的长期的任务,不是一劳永逸的事情。我们在加强日常工作管理和阶段情况总结的同时,要真正树立一种防患于未然的安全意识。只有防治结合,才能保证学校安全。每个人都要关心消防安全,不能以为看不到就没事,事不关己就没事。我们相信,在全机场职员工的共同努力下,我们一定能将消防安全工作做得更好,促进哈密机场又好又快地发展。

总结二:学校消防安全月活动工作总结

为了认真贯彻《消防法》,普及消防安全知识,强化消防安全意识,提高消防安全技能,确保我校消防安全,我校根据上级有关文件精神要求,扎实开展消防安全月系列活动。现对具体工作总结如下:

一、领导高度重视,安全意识增强。

学校成立了以校长为组长,各部门负责人为成员的工作领导小组,并进行了详细分工;体卫艺处详细制定活动实施方案,并及时召开会议,安排部署学校消防安全工作;健全消防组织机构,安排了具体的负责人,落实了责任;完善了各项消防安全制度、实施办法及考核细则,形成了组织健全、制度完善、职责清晰、人人参与,学校、社会共同配合,整体联动的良好格局。

二、精心组织,层层发动。

深入动员以“全员消防、生命至上”为主题,以“珍爱生命”为主线,以“普及消防安全常识、增强法律意识,学会火灾逃生自救技能”为重点,以“杜绝亡人火灾和较大以上火灾事故,减少控制一般火灾事故”为目标,开展了师生全员参与的宣传教育培训活动,取得了较好的效果。学校自检、自查过程中,对照标准认真排查,找死角,查漏洞,对发现的消防安全隐患及时采取措施进行整改上报。

三、活动形式多样,教育效果显着。

1、在学校醒目的位置悬挂上“关注消防、珍爱生命”的消防宣传标语。

2、11月7日升旗仪式上,通过国旗下讲话向全校师生发出倡议。

3、各年级积极开展以消防安全为主题的各类宣传教育活动,学习《中小学生火灾逃生办法》。

4、开展消防专题讲座。体卫艺处邓主任用鲜活的案例,着重就消防安全意识、消防器材的配备和使用、防火灭火常识以及火场逃生等方面进行了生动的讲解。全校师生到场听取了本次讲座。通过开展消防安全知识讲座,进一步提高了全体师生的消防安全意识,普及了消防安全知识。

5、主办消防主题的黑板报。各年级分别围绕“全员消防生命至上”的消防主题,办了一期黑板报。学校领导一一检查并充分肯定各年级的黑板报有特色,尤其是通过宣传教育,全校师生了解了更多消防知识,提高了自救自护的能力。

6、18日下午,学校消防警报骤响,学校领导、全体老师根据《学校消防应急预案》迅速到达指定位置,正在上课的老师也立即结束授课,组织学生撤离。按照楼层从低到高的顺序,各班级分东、西两个楼道依次撤离教学楼。授课老师在班级队伍前领队,班主任在班级队伍后护卫。同学们弯着腰,捂住鼻,紧贴墙壁快速前移,全校撤离队伍井然有序。从警报声响起,到最后一名学生到操场列队,用时不超过50秒。这次演习,提高了师生的消防安全意识,增强了自我保护能力。汪校长在活动总结时指出,“安全要牢记,防火莫儿戏”,安全教育要警钟长鸣,这样的消防疏散演习今后要不定期地多次进行。

7、开展一次消防设施器材、安全出口、疏散指示标志、电气线路方面的检查,并对发现的问题及时进行整改,保证安全通道有效、畅通、安全。

四、突击检查。

篇(7)

提高运维精细化管理水平交通设施管理和故障处理一般都有一定的流程和制度,但没有配套的技术手段的支持,流程和制度往往难以真正地得到高效贯彻执行。系统将规范交通设备的管理,实现交通设施设备从购买、入库、使用、维修、报废的全生命周期管理,降低设施的养护成本;规范交通设备运维工作中故障处理流程,规范交通设施故障发生、故障恢复、故障维修、修复确认、维修完成后故障单信息完善、故障延期修复报备等环节;落实养护相关的制度,并可针对各个环节进行考核,从而提高交通设施的运维管理水平和效率。提高运维效果评价科学性怎样评价运维系统使用后的效益?需要看它给正在运行中的系统和设备带来哪些改变,这些改变是积极的还是糟糕的。系统从不同用户所关注的问题入手,依据需求结合实际数据设计相关的考核指标。考核指标从三个角度来进行评价分析:从系统设备健康水平,从运营方和养护方的管理服务水平,从系统产生的经济效益角度。通过运维管理系统自动记录的过程数据来多角度统计分析,量化表达各种考核指标,能够提高运维效果评价的科学性。智能交通设施管理系统集成了中间件、GIS、FLEX和视频识别等先进技术,实现了三个层次共32项主体功能,下一章节将会对系统设计和实现进行简要阐述说明。

设施运维系统及评价体系的设计和实现

1系统架构设计

智能交通设施综合管理系统分为状态信息采集层、智能分析报警层和人机交互界面三层,对应的系统软件架构分三层设计:信息采集、智能报警分析、平台系统。如图(1)所示。信息采集层负责设施运行信息的自动化采集,向智能报警分析和平台系统提供基础数据。它直接或间接通过设施提供的标准接口或系统接口采集相关状态、性能、配置等运行数据,数据内容包括:服务器告警信息、服务器性能、应用软件状态、网络设备运行信息、网络拓扑信息、机房动力环境监控信息、外场设备状态和采集信息等。信息采集方式可集中和相结合,使采集软件灵活部署。智能报警分析层负责分类汇总信息采集层采集到的数据,通过报警阀值和报警规则预处理后生成基础事件,不同来源的事件经过过滤,同类事件经过压缩,相关联的事件经过根源分析,获得用户所需的根源报警,根据报警事件重要程度进行分级,整个过程实现了向平台系统提供设施的智能报警。平台系统层围绕设施运维应用,实现各种业务功能,具体业务功能包括:资源管理、日常养护、日常监控、应急保障、业务报表、系统评价。系统的用户角色分为养护公司、运维管理人员、运行管理人员和部门领导四类。各角色主要业务职责如下:(1)养护公司:综合报警监控的确认巡检;故障报修登记、设备报修签收、设备维修结果登记等;(2)运维管理人员:设备报修签发、设备维修结果审核、设备报修搁置列表管理、设备停用管理,设备生命周期管理;设备基础信息采集入库及维护、机房设备位置、端口、接线、IP、VLAN等资源信息采集入库及维护;(3)运行管理:内外场设备报警查看处置;(4)部门领导:对各岗位操作情况进行统计考核。

2设施信息采集

状态信息采集层主要实现外场设备状态信息采集、内场设备状态信息采集、机房环境监控信息采集,所有采集的信息会接入消息总线中间件并存入历史数据库,为进一步智能报警分析提供数据支持。(1)外场设备状态信息采集:系统通过接口协议,实现对信号机、电子警察、监控摄像机、卡口、情报板、车检器等外场智能交通设备运行状态信息采集;(2)内场设备状态信息采集:通过IBMTIVOLI智能基础设施管理软件实现对服务器、交换机、数据库、应用软件等内场设备运行状态信息采集;(3)机房环境监控信息采集:通过接口协议采集机房温湿度计、UPS、配电柜、空调、消防、门禁和地漏报警信息。

3智能报警分析

智能报警分析层根据采集的状态信息,经过压缩过滤和算法分析,可以综合判断故障根源,为快速处置和问题诊断提供参考。(1)报警事件压缩过滤:根据采集到的状态数据和维护人员指定的报警规则,生成基础事件。对于同一种设备的同一种事件,由于事件产生的渠道不同,会生成多条重复的报警信息,比如通过交换机主动上传的trap事件,和根据交换机的状态数据生成的事件可能会出现重复报警的情况,对这种事件进行过滤。对于某种瞬间发生或者处在报警边界值的事件,可能会频繁的生成和消失,这样就会产生很多重复无用的事件。为了避免这种情况,通过设置平滑周期,对这种事件的生成进行压缩。(2)事件根源分析:通常情况下,在生成的众多单点事件中,往往是由其中的某几个根源事件导致的,根据单点事件之间的逻辑关系和被管对象之间的物理拓扑关系,依次递归查找,根节点对应的事件,即为根源事件。(3)事件分级:报警事件级别分四级普通事件:需要养护人员关注,事件作用一般为预防提醒非关键设备某些指标工作异常,但设备还能工作,不影响其他设备。警告事件:需要设备管理员和养护人员关注,事件作用一般为提醒非关键设备工作异常或不能工作,但不影响其他设备。严重事件:需要值班员关注,告知设备管理员。事件作用一般为关键设备工作异常或不能工作,影响分系统内局部设备。致命事件:需要值班员关注,及时电话通知设备管理员和养护人员。事件作用一般为关键设备工作异常或不能工作,影响全局设备或全系统正常运行。智能报警分析应用场景示例,如图(4)所示。

4运维管理应用

运维管理应用主要实现日常监控、日常养护、应急保障、资源管理、生命周期管理和业务报表分析统计等功能。(1)日常监控:通过机房模拟图、二维或三维地图监控外场设备,以列表和图表的形式展示设备运行的实时信息,报警事件产生,自动定位故障设备,按照报警级别,启动关联预案,监控人员按照预案处置。如图(5)所示。(2)日常养护:日常养护工作通常有设备定期巡检、临时故障维修、抢修,养护中要遵循养护制度,养护过程需要规范,设计了养护流程管理。它支持多岗位跨网络协同工作流程化管理,包括故障报修登记、故障签发管理、任务签收管理、维修结果登记、维修结果审核、搁置列表管理和归档列表管理等。如图(6)所示。为养护更加便捷和使用系统更方便,引入了手持终端。如图(7)所示。图(7)(3)应急保障:在突发重大事故或灾害的情况下,保障各系统正常运行,需要应急保障手段,系统提供一些辅助,主要有各类灾害事故预案模型演练、培训,应急设施资源的查询,预案相关人员组织。如图(8)所示。(4)资源管理:基于自主开发的GIS支撑管理平台和Flex机房管理功能对内外场设备位置、端口、接线等空间和属性信息进行协同维护管理。(5)生命周期管理:对设备安装、建设交付使用、每次维护、到最终报废进行全生命周期过程记录和管理。(6)业务报表:对系统资源情况、设备资产保值、监控设备性能、设备故障、养护记录数据、各职责岗位绩效考核、等多方面进行综合统计分析。

5系统评价分析

系统相关的用户大致分为三类:投资方、运营管理方、养护公司。三者都有对使用该系统期望和诉求。投资方的诉求:建设这套系统后,今后的运维养护能否更省钱,能否为运维养护提供长久支持;运营管理方的诉求:养护效率、质量、养护水平得到提高,人均台班费用得到控制,自身的管理改进和提高,运营管理取得的成绩可以量化,能更好的为业务部门提供系统保障;养护公司的诉求:能更省时省力的完成工作,能更好的响应运营方的要求。针对这些诉求,结合运维的信息,制定了对应的评价指标,指标从三个方面回答用户的诉求:资金成本、运维服务水平、系统健康水平。(1)资金成本=节省的养护人工成本+节省的设备成本,节省的养护人工成本核心指标是人均的费效比和设备养护率。设备养护率随着养护的年限逐年增长,可以根据实际设备使用环境,同行业水平,结合系统记录的养护记录制定,一般第一年0.4,保修期内,每年增长0.1,过保修期每年增长0.2,以3年保修期计算,到第5年设备养护率达到1,这意味着过保的设备5年后的养护频率要大于1。人均的费效比=人工总花费/(人均出工时间×养护团队人数)。节省的养护人工成本=(今年的人均费效比-上年人均费效比)×(今年设备养护率/上年设备养护率)×上年人工总花费。节省的设备成本的核心指标是过保设备每年的折旧价值和当年设备过保的备件花费。过保设备每年的折旧价值根据设备的使用环境和it设备折旧值制定,it设备一年质保,5年报废,一般过保设备每年的折旧价值为:设备采购价格×0.2。设备过保的备件花费是指设备过保后,维修的备件花费。节省的设备成本的公式:Σ(单个过保设备每年的折旧价值-当年单个设备过保的备件花费)。(2)运维服务水平=运维管理绩效×50%+养护服务水平×50%,运维管理绩效的核心指标是养护任务的完成率;养护服务水平的核心指标是养护任务质量平均得分、养护任务规定时间完成率和养护培训成绩。养护任务质量得分最高不超过100分,每次养护任务由审核人员根据养护制度要求和养护结果综合评分。养护培训成绩由运营公司组织养护人员学习和考试评分。运维管理绩效=养护任务的完成率×100。养护服务水平=养护任务质量平均得分×40%+养护任务规定时间完成率×100×40%+养护培训成绩×20%。(3)系统健康水平=设备总完好率×100,设备总完好率是指所有设备完好工作时间的比率。设备总完好率=Σ(单个设备实际完好工作时间/单个设备理论要求完好工作时间)。评价的指标结果通过图表的方式直观表现,如图(9)所示。

系统项目实施效果

(1)使用这套系统后,可量化从养护资金使用效率、养护成本、养护运营绩效、系统运行稳定等多方面带来的改变。(2)通过设定指标,从管理绩效、成本核算等方面量化考核运营公司。(3)设施全生命周期的管理,对设施质量评估提供了数据支持,对设施资产进行了优化配置。(4)以规范的方式管理养护数据,在管理过程中能方便的统计分析系统的不稳定点,排查系统隐患,保障系统运行稳定。(5)综合的智能报警,提高了故障排查效率;报警预案、报警联动,加快了故障的响应速度。(6)强化了养护制度的管理,对养护安全、养护纪律起到规范、督导作用。(7)应急抢修的管理、手持设备应用、各种应急养护预案的培训和演练,为应急保障提供了技术支持。(8)手持终端设备的应用,使得养护全过程信息直达、高效、迅速,系统提供更有力信息支持。(9)规范的管理养护数据、落实养护制度、养护应急预案的培训等,使得养护知识、养护经验共享,提高养护服务水平。