时间:2023-10-08 15:32:43
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇网络故障等级范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
关键词:局域网;网络故障;性能优化
中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2010) 01-0000-01
局域网是指在某一区域内由多台计算机互联成的计算机组,可以实现文件管理、应用软件共享、打印机共享、工作组内的日程安排、电子邮件和传真通信服务等功能。局域网是封闭型的,可以由办公室内的两台计算机组成,也可以由一个公司内的上千台计算机组成。局域网在构建和使用时,难免出现这样那样的故障。排除故障、优化系统,是管理局域网最基本的工作之一。本文从排除故障、优化性能的角度出发,简单归纳了一些局域网维护及优化的经验和技巧,有助于我们更好的去维护电脑、管理网络,从而更好的利用网络去开展的工作。
一、局域网故障分析
(一)确保计算机的硬件设备和网络配置正确
在局域网中,网络不通的现象是常有发生,一旦遇到类似这样的问题时,我们首先应该认真检查各连入网络的机器中,网卡设置是否正常。检查时,我们可以用鼠标依次打开“控制面板/系统/设备管理/网络适配器”设置窗口,在该窗口中检查一下有无中断号及I/O地址冲突,直到网络适配器的属性中出现“该设备运转正常”,并且在“网上邻居”中至少能找到自己,说明网卡的配置没有问题。
(二)确认网线和网络设备工作正常
当我们检查网卡没有问题时,此时我们可以通过网上邻居来看看网络中的其他计算机,如果还不能看到网络中的其他机器,这种情况说明可能是由于网络连线中断的问题。网络连线故障通常包括网络线内部断裂,双绞线、RJ-45水晶头接触不良,或者是网络连接设备本身质量有问题,或是连接有问题。这时,我们可以使用测线仪来检测一下线路是否断裂,然后用替代的方法来测试一下网络设备的质量是否有问题。在网线和网卡本身都没有问题的情况下,我们再看一看是不是软件设置方面的原因,例如如果中断号不正确也有可能导致故障出现。
(三)检查驱动程序是否完好
对硬件进行了检查和确认后,再检查驱动程序本身是否损坏,如果没有损坏,看看安装是否正确。如果这些可以判断正常,设备也没有冲突,就是不能连入网络,这时候可以将网络适配器在系统配置中删除,然后重新启动计算机,系统就会检测到新硬件的存在,然后自动寻找驱动程序再进行安装。
(四)正确对网卡进行设置
在确定网络介质没有问题,但还是不能接通的情况下,再返回网卡设置中。看看是否有设备资源冲突,有许多时候冲突也不是都有提示的。
(五)合理设置服务器的硬盘
使用局域网办公的用户,经常会使用网络来打印材料和访问文件。由于某种原因,网络访问的速度可能会不正常,这时我们往往会错误地认为导致网速降低的原因可能是网络中的某些设备发生了瓶颈。因此正确地配置好局域网中服务器的硬盘,将对整个局域网中的网络性能有很大的改善。
二、局域网性能优化
网络管理员只有深入地了解网络的使用情况和性能瓶颈、可能存在的网络安全问题以及各种网络性能和安全措施,才能使网络以最佳状态运行。网络性能优化的目的是减少网络系统的瓶颈,设法提高网络系统的运行效率。对于不同的网络硬件和软件环境,可以存在不同的优化方法和内容。
(一)优化内存
内存是一个操作系统的重要资源,不仅是为了运行操作系统需要它,以及应用程序和服务的各种需要它来运行。从应用的角度来看,系统内存,是一个由重要原因引起的系统问题的各种不合理使用是审议关于优化目标管理员的焦点。
在某些情况下的内存,内存的合理使用可以提高网络性能。这需要系统管理员必须清楚认识到内存使用情况,对那些不再需要的功能,应用程序或服务,应及时关闭,以释放内存的其他应用和服务。
(二)优化CPU
从整个网络考虑,对于CPU的优化除了速度问题,还需要考虑缓存和多处理器支持技术,特别是服务器多处理器支持对于网络的整体性能的提高非常重要。
1.缓存技术
目前使用的CPU都具有一个所谓的二级缓冲存储器,主要用来保存CPU最近使用过的数据,为一级缓存传送数据提供方便。CPU的缓存越大,CPU处理数据的速度就越快。因此,在选购CPU时,特别是为服务器选购CPU时,一定要选择具有大容量缓存的CPU。
2.多CPU技术
多CPU技术是在一台计算机系统中安装多个CPU,使他们协同处理数据的方法。
3.优化磁盘系统
在一个需要频繁交换数据的网络中,硬盘的性能是非常重要的。对硬盘进行优化主要应考虑硬盘的技术、硬盘的速度。
(三)优化网络接口
网络接口的调整和优化网络的性能也非常重要,不仅发出访问网络数据,而且在服务,设备和整个网络布线等网络的构成问题。选择高性能的网络卡和驱动程序,并配置网络服务和协议,我们可以大大提高网络传输速率和稳定性。
(四)优化服务器进程
进程是包含地址空间和程序运行资源的程序请求。当某个应用程序启动时,系统就创建一个进程。每个进程启动时都有一个基本的优先级,最多可增加或降低2级。基本优先权等级在进程启动时建立,但当一个进程运行时,可以通过使用任务管理器来改变基本优先权等级。
三、结束语
分析和排除一个复杂的网络故障,往往需要广泛的网络知识与丰富的工作经验。在工作中,不断积累经验并及时总结,会提高故障诊断与排除的效率,最大限度地保证系统的稳定运行。只有对局域网的性能进行优化,才能使局域网的性能发挥到最大程度,使网络以最佳状态运行。
参考文献:
[1]申媚先,王文祥,梁青建,赵润萍,樊改娥,边子建.网络故障诊断浅析[J].安徽农业科学,2007,19
[2]冯.网络故障诊断和排除技术研究[J].电脑与电信,2007,10
关键词:数据中心;InfiniBand;故障诊断;贝叶斯分类;增量学习
中图分类号: TP393.07
0引言
数据中心是Internet的重要基础设施,是为用户提供数据存储、计算和传输的核心。随着互联网的飞速发展,特别是大数据时代的到来,数据中心在Web服务、搜索引擎、电子商务、社交网络、网络游戏及大规模集群计算等领域中的关键作用日益显现[1]。目前数据中心的网络规模日益庞大,互联的计算节点数量能达到100000以上的量级,而交换节点的数量也接近10000量级。数据中心性能需求表现为高带宽、低延迟、低主机开销和低存储开销等特点[2]。InfiniBand(以下简称IB)是目前数据中心互联的主流网络。2013 年 11 月公布的TOP500高性能计算机排名中,InfiniBand 是最常用的互连技术,在 TOP100 名单中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系统中则占 42.5%。2010年,Oracle通过在其数据仓库和数据处理平台Exadata中使用IB交换,处理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形网络拓扑构建数据中心,网络功耗节约85%[4]。2011年,Microsoft基于IB组建高性能数据中心支持其Bing Maps应用,与传统基于以太网的架构相比节约80%的功耗和50%的成本[5]。Stanford课题组通过IB互联分布式DRAM实现了高性能数据中心存储系统[6]。
在大规模数据中心网络中,网络的故障率呈指数增加,长期的实践[7]表明,故障率随着网络中节点数快速增加,例如,从服务节点故障的角度看,服务单点可靠性为99.99%,按照10000级的规模计算则网络故障率为63%,若单点可靠性为99.9%,则网络故障率几乎达到100%。大规模数据中心网络运行的应用通常对网络性能要求严格,需要管理者能更加实时、精确地掌握全网态势和端到端的通信性能,在网络性能下降之后及时发现和定位故障和网络拥塞, IB网络在大规模数据中心网络中的应用越来越广泛,研究面向大规模IB网络的故障诊断方法,保持和提高IB网络运行的健壮性,提高网络的修复能力,保障网络上关键任务的成功完成非常重要。
1相关研究
近年来针对网络故障的诊断方法已经进行了大量的研究。出现了以贝叶斯网络方法、数据挖掘方法等为主的故障诊断方法。文献[8]提出了一种基于拉格朗日和次梯度法的网络故障诊断方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),该方法对现在的二分图故障传播模型进行改进,加入虚假故障因素,在改进二分图模型的基础上提出了故障定位问题的01最优化描述,并利用拉格朗日松弛法和次梯度法对问题进行求解,有效提高了分类检测精度和减少了诊断时间。文献[9]提出了一种基于谱图理论的故障诊断算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了时序告警关联数据模型,将告警数据看作一个高维空间,具有相关特性的告警是隐含在该空间中的局部结构,通过谱图理论发现高维数据空间中潜在的低维映射结构,通过分析低维空间中点结构之间的相似性,实现告警数据的可视化显示,该方法不仅可以发现告警的相关性,而且还可以通过分析谱图的变化预测定位网络中发生的故障。文献[10]针对网络层和数据链路层,为简化故障决策算法、降低误报率,提出了一种基于粗糙神经网络的故障诊断算法 (Rough Artificial Neural Network,RANN)和分层故障诊断思想,通过神经网络来逼近故障诊断这种映射关系,实现对故障的分类,利用正域的概念,去除冗余属性,求取条件属性集对于决策故障属性集的简化,同时结合分层分布优化的思想,将网络故障分类,每一类故障诊断系统含有多个反向传播(Back Propagation, BP)子网络,通过粗糙集理论逐层分类,构成一个多级复合神经网络系统,实现故障分类。文献[11]基于PMC(PreparataMetzeChien)模型,提出了一种适用于当代数据中心网络的分层式诊断(Hierarchical Fault Diagnosis, HFD)算法,由网络拓扑结构生成涵盖所有单元的最小生成树Xtree,按其路径组织多次测试。根据测试结果,求出各基本单元组的故障概率,依此将系统中所有单元组划分为存在故障概率较大的“相对故障单元组”和存在故障概率非常小的“相对正常单元组”两类。文献[12]提出了基于贝叶斯征兆解释度的链路故障诊断方法进行网络的故障诊断。
由于大规模数据中心网络本身的复杂性、不规律性的特征,网络故障分类处理过程涉及到多方面的综合知识,想获得良好的分类效果,不仅仅是单纯的分类算法问题,必须运用多种策略加以解决。目前网络故障分类方法的研究存在以下几点不足:
1) 训练样本参差不齐,分类方法首先要进行训练学习,其训练过程需要一定数量的训练样本。而在网络系统中包含着大量的不确定因素,故障症状与故障源之间可能存在非线性映射关系,同一种故障往往有不同的表现,同一症状又往往是几种故障共同作用的结果,多个相关故障可能同时发生。因此,选择越多的训练样本,样本的代表性越强,训练效果才会越好,分类性能才能越高。一般情况下,人们比较容易得到一些大致的样本类别,比如用户数据报协议(User Datagram Protocol, UDP)报文、传输控制协议(Transmission Control Protocol, TCP)报文和Internet控制报文协议(Internet Control Message Protocol, ICMP)报文等等,然而这些训练样本集中样本的质量往往是参差不齐的,有些样本的表现模棱两可,有些甚至是错误的,若直接在这些样本上进行学习,将使分类的效果大大降低。可以想象对存在大量不准确的分类样本地学习是很难获得良好的分类效果。而且在实际使用过程中,大量高质量的训练样本集合的获得是非常困难的,通过人工的方法对训练样本进行筛选也是不现实的。
2) 没有统一的特征选取标准,构造分类器的关键是选择合适的特征构成特征向量。网络系统中故障发生时的网络表现有着很大的差异,代表不同故障的特征也不尽相同,选择什么样的特征来构成特征向量,特征向量的长度取多大,都一定程度上影响着网络管理平台下故障分类的精度。以简单贝叶斯分类方法为例,我们知道简单贝叶斯方法具有简单和分类精度高的特点,但是如果随意使用训练样本中任意单位作为特征向量的一维,不仅满足不了简单贝叶斯方法对特征独立性的要求,而且会极大地影响分类精度。
3) 学习能力弱,对待分类数据进行分类的阶段是一个开环处理过程,分类系统在经过一次训练之后,将再也无法从实际的分类处理过程中获得更新信息,这样缺乏学习能力的分类系统在实际使用过程中不能根据实际情况进行分类模型的调整,从而导致了分类系统随着运行时间的延长和范围的扩大,性能逐渐降低,这也是制约分类系统实用化的重要因素。本文提出的大规模IB网络自学习的故障诊断方法IL_Bayes有以下创新:
1)对现有的训练样本进行必要的预处理,从初始的训练样本集中去除噪声样本,选取高质量的样本构造分类器,实现良好的分类效果。
2)我们对不同的故障类型选取不同的特征向量,构成特征向量的特征分量要尽可能地反映故障的特征,获得较高的故障分类精度。
3)通过增加对分类结果的学习能力,使分类系统不断自我完善和更新,可以应对实际大规模网络的复杂情况。
2大规模IB网络自学习的故障诊断方法
2.1相关描述
首先给出本文所提故障诊断方法的相关定义。
定义1C={C1,C2,…,Cm}是一个故障类集合,其中C1,C2,…,Cm分别是该故障类集合的故障类。
定义2d=(x1,x2,…,xn)为新故障样本,即待分类故障,其中x1,x2,…,xn是新样本d的n个属性。
定义3f(xj)为故障d中属性的评估函数,在P(xj|Ci)f(xj)中, f(xj)越小,属性xj在分类器中的作用越小。
贝叶斯分类方法起源于贝叶斯统计学,是以概率论为基础的分类模型,它为不确定知识的表达提供了自然、直观的方法,是目前非精确知识表达与推理领域最有效的理论模型。贝叶斯分类方法主要有以下3个规则[12]:
1)贝叶斯规则。
P(B|A)=P(A|B)P(B)P(A)(1)
式中:P(B)被称为先验概率,即在A状态未知时B发生的概率; P(B|A)为后验概率,表示A状态已知时B发生的概率。贝叶斯规则允许在两个方向上进行概率推理。
2)独立性规则。
如果P(A|B)=P(A|B,C),则给定变量B,变量A和变量C是独立的。即在B已知的情况下,变量C不能改变变量A的概率。
3)链式规则。
在P(A|B)中,A具有n个属性,即A={x1,x2,…,xn},则:
P(A|B)=P((x1,x2,…,xn)|B)=∏ni=1P(xi|B)(2
2.2大规模IB网络自学习的故障诊断方法IL_Bayes
设故障训练集样本有m类,记为C={C1,C2,…,Cm}, 对于给定的新样本d,其属于Ci类的条件概率是P(d|Ci)。根据贝叶斯定理,Ci类的后验概率为P(Ci|d),即:
P(Ci|d)=P(d|Ci)P(Ci)P(d)(3)
其中:P(Ci)、P(d)对于所有的类均为常数,可以忽略,则式(3)可以简化为:
P(Ci|d)∝P(d|Ci)(4
贝叶斯分类器将新的故障样本d归于类Ci的依据就是要求出极大后验假设,即:
P(Ci|d)=argmax{P(Cj|d)P(Cj)}; j=1,2,…,m(5
新故障d由故障的不同属性所组成,即d=(x1,x2,…,xn),n是d中的属性个数,根据朴素贝叶斯分类器的独立性假设,有:
P(d|Ci)=P((x1,x2,…,xn)|Ci)=∏nj=1P(xj|Ci) (6)
式中P(xj|Ci)表示分配器预测属性xj在类Ci中发生的概率。
P(xj|Ci)=(1+T1(xj,Ci))/|q|+∑mw=1T1(xj,Cw)
其中:|q|表示属性总数,T1(xj,Ci)表示属性xj在Ci类的所有类中出现的频数之和。
构造每个故障的向量,用n维属性向量表示A={x1: f(x1),…,xn: f(xn)},xi(i=1,2,…,n)为故障属性,f(xj)为属性的评估函数,则式(4)可以改进为:
P(Ci|d)∝∏nj=1P(xj|Ci)f(xj)(7
为未分类故障d分类就是计算P(Ci|d),未分类故障d属于类别Ci P(Ci|d)>P(Cj|d),i≠j,由式(7)可知,计算P(Ci|d)只需要计算未分类故障d的n个属性xj在类Ci中的概率即可。
基于上述分析,本文提出面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在利用贝叶斯分类器处理数据的过程中,难免会遇到训练集类别里面不存在的其他类,对于这种情况处理过程就会发生错误,如果在贝叶斯分类器上建立自学习机制,对于处理过程中产生错误的数据,根据数据特征建立新的类别,就可以有效解决这个问题。本方法分为3个阶段,即构造和训练分类器阶段、故障分类处理阶段和再学习阶段。
1)构造和训练分类器阶段。
依次读取训练样本集中的每个故障告警信息,提取故障属性xj。根据专家知识和经验,人为地对这训练集样本进行故障分类,记为C={C1,C2,…,Cm};
①对样本集的每个故障和该故障的属性,分别计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个故障类,即Ci P(Ci|d)>P(Cj|d), i≠j;
②对于没有匹配上的故障告警信息,则重复步骤①,建立新的故障类,并加到故障类集合C中,重复步骤②;
③训练结束,将所分的故障类C添加到分类器中以便处理故障数据。
2)故障告警数据分类处理阶段。
①当网络发生异常时,读取待处理故障告警信息d的属性xi,计算∏nj=1P(xj|Ci)f(xj),根据计算结果判断未分配故障d属于哪个分类,即Ci P(Ci|d)>P(Cj|d), i≠j;
②对于处理错误的告警信息,即故障类集合C中不存在此类故障的分类,则转入再学习阶段。
3)再学习阶段。
①读取故障处理过程中出现错误的告警信息,提取故障属性xj。
②根据故障告警信息的属性值,建立新的故障类,并加到故障集C中,重复故障告警数据处理阶段步骤①;
3实验分析
为了验证本文方法,构建了一个基于InfiniBand的高性能计算机互联结构,其网络拓扑为胖树结构,如图1所示。
其中存在12个边缘接入的汇聚交换节点(Aggregate Switch),每个接入交换节点支持18台服务器接入。二级交换采用全相连结构,每个汇聚交换节点通过3个连接和每个核心交换节(Core Switch)互联,从而构成了非阻塞的网络结构。链路均采用QDR(40Gb/s)传输速率。
所有服务器均运行Red Hat Linux 6.1 x86 64位操作系统,采用开源OFED(Open Fabrics Enterprise Distribution)1.5.4驱动和管理HCA设备,通过其中的OpenSM模块提供了对网络的管理。
OpenSM是InfiniBand的子网管理软件,用来管理集群系统中的成百上千个节点,默认的工作模式是发现IB的子网拓扑,初始化子网,然后定期扫描子网的变化。OpenSM运行的日志文件存放在/var/log/message和/var/log/opensm.log中,第1个文件一般存放的是主要的事件日志,第2个文件存放的是系统运行错误的详细情况。
具体内容包括:告警时间、线程id、日志等级和日志具体内容。下面对日志等级进行详细说明:OpenSM的日志共分为8个等级,具体如下:
0x01 CERROR(error message
0x02 CINFO (basic message, low volume
0x04 CVERBOSE(interesting stuff, mosderate volume
0x08 CDEBUG(diagnostic, high volume
0x10 CFUNCS(function entry/exit, very high volume
0x20 CFRAMES(dumps all SMP and GMP frames
0x40 CROUTING(dump FDB routing information
0x80 Ccurrently unused
在网络运行过程中日志记录的比较常见故障类型如表1所示。
故障类型描述
osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID
pi_rcv_check_and_fix_lid
1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据
2.SM还未配置的端口,IBA 规则不能识别其LID
3.日志消息属于某些调试信息
osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口
2.由于SM没有作出反应导致结束端口堆栈查询超时
3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询
log_trap_info1.流量控制监视程序计数器在监视时超时,SMA交换机发出紧急trap
2.流量控制更新错误
3.可能是由于在OperationalVLs上的对等端口不匹配
log_rcv_cb_error1.可能是新的MulticastFDBTop字段选项出问题
2.从SM流入交换机的初始路径出问题
3.交换机的固件版本不相符
4.在SM中禁止了这些流
sm_mad_ctrl_send_err_cb1.SM没有收到从SMA的NodeInfo查询响应
2.检查VL15的下行计数器
sm_mad_ctrl_send_err_cb1.Mellanox需要FDR10的专有SM MAD支持
2.可能是使用了旧版本的Mellanox固件,如果可能,需要检查版本和更新
3.替代方法是关闭opensm配置文件中的SM经由FDR10的FDR10支持
perfmgr_mad_send_err_callbackPMA没有回应PerfMgr的请求(获取或设置)
Perfmgr_send_mad当发送PerfMgtMAD到PMA时,PerfMgt没有在“suspended”状态
osm_get_port_by_mad_addr当前SM不能识别一些查找请求的LID
pi_rcv_check_and_fix_lid1.SM质疑一些结束端口的PortInfo和基于LID 0xffff的接收数据
2.SM还未配置的端口,IBA 规则不能识别其LID
3.日志消息属于某些调试信息
osm_pr_rcv_process1.当前SM不能识别被SA PathRecord请求的端口
2.由于SM没有作出反应导致结束端口堆栈查询超时
3.上述两个错误显示在子网改变期间查询,结束端口堆栈应该重试查询
在一个故障发生的时候,诊断算法应该能够尽可能准确地定位故障,按照某种故障是否发生以及是否正确诊断出故障,故障诊断算法的精确性表现为4个方面,如表2所示。
故障诊断的精度由公式(A+D)/(A+B+C+D)计算,其中A+B=100%,C+D=100%。在实际的诊断中,人们常常更加关心A类和C类的精度,A类精度代表了一个诊断方法的实际能力,一个故障发生后是否能够被诊断方法识别和定位,C类精度标志着一个诊断系统的可靠性。
本文选取1500个网络事件信息作为待分类故障样本集,根据上述分析,故障样本集大致可以分为15个故障类,将其中的x个事件作为训练集,1500-x个事件作为验证集,将IL_Bayes算法与文献[12]中提出的基于模糊概率神经网络的故障分类算法(Fuzzy Probabilistic Neural Network Classifier, FPNNC)在故障A类精度(即诊断精度)和C类精度(即误诊率)两方面进行了比较,结果如图2和图3所示。
由图2可以看出,两个分类算法的分类精度随着训练集的增大而增加,由于对故障进行了增量学习,IL_Bayes算法比FPNNC算法的分类精度高。
图3可以看出两个算法的故障误诊率随着训练集的增大而降低,增量再学习机制使得IL_Bayes方法比FPNNC方法的故障误诊率更低。
通过上述实验证明,IL_Bayes方法具有较高的分类精度和较低的故障误诊率,在一定程度上有效地解决了IB网络的故障分类问题,为IB网络故障的诊断提供了一个较为有效的方法,同时在IL_Bayes方法中引入了再学习机制,能对分类器进行修正,不断完善故障类集合,达到了故障分类性能优化的目的。
4结语
本文针对大规模数据中心网络中如何有效监控网络异常事件、发现网络性能瓶颈和潜在故障点,为网络性能优化提供支持,深入分析IB网络的特性,引入了特征选取策略和增量学习策略,提出了一种面向大规模IB网络增量学习的故障诊断方法IL_Bayes,在天河2真实的网络环境,并对算法的诊断精度和误诊率进行了验证。
本文研究了贝叶斯理论在故障诊断中的应用,进一步研究高效率的贝叶斯推理算法和学习算法将是提高故障诊断决策方法效率的关键因素和重要研究内容。
参考文献:
[1]DENG G, GONG Z, WANG H. Characteristics research on modern data center network[J]. Journal of Computer Research and Development, 2014, 51(2):395-407.(邓罡,龚正虎,王宏. 现代数据中心网络特征研究[J]. 计算机研究与发展,2014,51(2): 395-407.)
[2]SHEN L. Research and implementation of InfiniBand network interface [D]. Changsha: National University of Defense Technology, 2010: 1-3.(沈力. InfiniBand网络接口的研究与实现[D]. 长沙:国防科学技术大学,2010: 1-3.)
[3]Oracle Corporation. An oracle white paper: consolidating Oracle applications on exalogic[EB/OL].[20150322].http:/// us/products/middleware/appconsolidationexalogic395610.pdf.
[4]ABTS D, MARTY M R, WELLS P M, et al. Energy proportional datacenter networks[C]// Proceedings of the 37th Annual International Symposium on Computer Architecture. New York: ACM, 2010:338-347.
[5]Mellanox Corporation. Mellanox solution brief: Mellanox low latency, high bandwidth InfiniBand for Web 2.0 and cloud deployments[EB/OL].[20150322].http:///relateddocs/company/MLNX_Corp_Inv_deck.pdf.
[6]OUSTERHOUT J, AGRAWAL P, ERICKSON D, et al. The case for RAM clouds: Scalable high performance storage entirely in DRAM[J]. ACM SIGOPS Operating Systems Review, 2009,243(4): 92-105.
[7]SONG H, QIU L, ZHANG Y. A flexible framework for largescale network measurement[J]. IEEE/ACM Transactions on Networking, 2009, 17(1):106-119.
[8]ZHENG Q, YAO M, QIAN Y. Novel fault location approach based on Lagrangian relaxation and subgradient method[J]. Systems Engineering Theory and Practice, 2008,28(11):155-164.(郑秋华,姚敏,钱云涛. 基于拉格朗日松弛和次梯度法的网络故障定位新方法[J]. 系统工程理论与实践,2008,28(11):155-164.)
[9]XU Q. Study of network fault alarm correlation based on data mining[D]. Beijing: Beijing University of Posts and Telecommunications, 2007: 88-102.(徐前方.基于数据挖掘的网络故障告警相关性研究[D].北京:北京邮电大学,2007: 88-102.)
[10]QI Y. Computer network intelligent diagnosis technology[D]. Nanjing: Nanjing University of Science and Technology, 2004.(戚涌.计算机网络智能诊断技术研究[D].南京:南京理工大学,2004.)
[11]XUAN H, ZHANG R, ZUO M, et al. A hierarchical fault diagnosis algorithm for data center network[J]. Acta Electronica Sinica, 2014,42(12): 2536-2542.(宣恒龙,张润驰,左苗,等.面向数据中心网络的分层式故障诊断算法[J].电子学报,2014,42(12):2536-2542.)
虽然IP技术占据了电信业务的主要业务领域,但是,IP技术也是一把双刃剑,在为电信业务带来便利的同时,该技术也极具复杂性。目前,在基于该技术体系的新运营模 式下的运维管理领域,普遍存在以下三个缺陷:
第一,发生网络故障后很难被快速定位,降低了解决故障的速率,使得在用户反映的满意程度上有很大的难度去突破常规的满意度降低局面,导致这一现象发生的主要原因是网络极具灵活性,网络环节多而且路由的自动计算;
第二,无法掌握网络性能KPI指标与业务的性能瓶颈,只有一条渠道,即是回访客户使用的感受,以至于用户黏度持续降低,导致这一现象发生的原因是由于网络模式为共享,导致得到及时精准的网络与性能数据变得十分困难;
第三,网络规划的方法和工具还不够科学,导致还没有能力构建更加科学实际的网络系统,难以保证网络与业务的健壮性。
综合以上三个方面,更加凸显了“医护专家”运维系统必要性。这样才能快速的定位故障发生在哪个环节并采取相应的措施来解决,并构建科学的网络规划,预见可能发生的故障并准备好应对措施。而华为则从下面几个方面提供了更好的运营方案促进了运营商的转型成功。
1 迅速定位网络故障并进行解决从而提高用户的满意程度
华为医护专家可以迅速定位故障地点的要点是将业务层与网络层相互联动,这种联动使得系统更加智能、科学。逐跳式端到端故障定位、逐层式联动故障定位形成了华为独有的矩阵化的故障定位模型,这种模式使得业务与网络之间可以相互精准的联动,可以更加精准快速的找到网络故障环节并进行排除,提高了运维效率。
这里讲的逐跳式端到端故障定位是指通过从网络的接入到汇聚再到核心的端到端逐点跟踪定位技术实现故障位置的精确定位,可定位到具体设备或路径。逐层式联动故障定位是通过丰富的OAM工具实现从接口、路径、管道、业务到应用的逐层联动诊断,精确判定IP语音、视频、数据等业务故障点,定位故障位置;再结合丰富的专家经验库,实现精准自动化的故障诊断,给出故障原因、危害等级与恢复措施。
部署方面,提供内置软件探针和附加硬件探针两种更加灵活的部署形式。华为不仅利用了内置软件针的成本廉价的优势,还突破常规,第一个提出在多厂商设备复杂组织网内加入附加硬件探针,使得华为在各种运营商的竞争中更具技术优势。
以上种种构建了 “矩阵式、灵活、全方位”故障诊断解决方案,该方案一方面使得运营商的故障诊断工作不再繁冗复杂而变得简易;另一方面大大提高了故障定位的速率和运营商保证业务质量,提升了用户满意度。
2 全方位实时监控预防网路隐患
众所周知,性能数据的统计与分析直接关系到对当前业务和网络的评估结果,更为层次化的数据可以为未来的业务和网络规划提供决策支持。而华为医护专家解决方案提供网络、业务与用户的全方位实时监控,可以预知网络运行中的安全隐患,防患于未然:
首先,华为医护专家通过对网络与业务的实时性能KPI指标数据的分析,适时修改参数,改善其KPI指标,从而更加便捷的满足客户需求;
其次,华为医护专家提供了完善的SLA管理,可以使运营商的服务更加多元化,实时监控网络与业务KPI指标同设定指标的对比差异,第一时间发现用户应用体验质量的下降,发出SLA质量劣化预警,及时采取质量恢复措施并安抚客户,从而帮助运营商维护与客户之间的关系;
再次,提前感知网络与业务性能瓶颈,精确定位导致瓶颈的相关因素,及时制定预防措施,防患于未然。
3 构建更为科学实际的网络规划
举个例子,通常人们生病后,医生在开具可以抵抗病人体内病毒的药剂的同时还会给予一个相应的医护建议。在这里,一套更加科学实际的网络规划便是那个“相应的医护建议”,它满足了运营商在需求软件之后的更深一步的要求,这个网络规划要涵盖仿真、实施、维护的全生命周期;要将侧重点放在面向生命周期和业务应用场景的管理模式上。
华为医护专家提供全面整合、面向全生命周期的网络规划解决方案,从网络前期的规划到后面的部署,帮助运营商构建科学的网络,增强网络健壮性,使得网络的效率和效益达到最高。
考虑到多场景的业务开发和运营支撑的网络规划才可以称其规划具有科学性。华为医护专家解决方案针对多场景的业务管理,在建设的前期进行科学的规划,可以预见并避免事故的发生,从而提高运维管理效率和运营商的核心竞争力;在网络建成后,网络优化成为首要任务,华为医护专家解决方案提供了灵活易用的网络优化工具,能够科学的分析网络业务的运行情况,利用该工具可以采集真实运营数据进行精确建模,支撑对系统参数和网络设备做出合情合理的调整,从而帮助网络运行达到最佳状态。
在各种力量的推动下,运维管理行业的前景更加趋向于层次多并且面向全生命周期的综合解决方案。华为IP网络运维医护专家可以迅速进行网络故障的定位与排除,全方位实时监控,更加科学实际的网络规划方面为运营商提供高效、整合的解决方案与服务,并已经成功协助CMCC、BT、Telefonica、SingTel、Vodafone等业界领先的运营商建立了独特的竞争优势,并将持续协助运营商在ALLIP的战略转型中取得新的商业成功。
参考文献
[1] 万彭.找准3G业务网络规划与营销的平衡点[N]. 人民邮电. 2009.
总之,网络急需管理功能。而参与自动化网络管理的主角,就是网管软件。
网管软件的主要任务是针对网络设备进行监测、配置和故障诊断,它有自动拓扑发现、远程配置、性能参数监测、故障诊断等功能。网管软件目前已被企业普遍接受,很多的企业都已经配备或者正准备配备网管软件。
对大型企业来说,网络规模较大,网络结构复杂,一旦网络出现故障,查找和维护起来都很困难。
对小型企业和SOHO用户来说,他们技术水平不高,聘请专业网络管理员费用太高。
因此,网络管理软件已成为网络必不可少的一部分。目前网管软件的种类很多,不同厂家都纷纷推出自己的网管软件产品,如何衡量是否是一个好的网管软件,已成为越来越多的用户关心的话题。
要素一:支持的网管协议是否完备
目前网管软件解决的问题各不相同,一个企业很可能会购买多种网管软件,这样会导致一个企业内部网中也会有多套网管软件共存,如果没有统一的标准,管理人员就不得不通过不同的操作来管理不同系统。未来的趋势是逐步走向统一,在一个开放的标准下实现各种设备的统一管理。SNMP和RMON就是两个标准的网管协议。
SNMP(简单网络管理协议)是一种网管的标准协议,SNMP使用嵌入到网络设施中的软件来收集网络的通信信息和有关网络设备的统计数据。SNMP得到了几乎所有网络设备供应商的支持,成为使用最广泛的网络管理工具。SNMP的成功主要是因为它十分便于安装和使用,同时在正确使用的情况下,它所增加的网络负荷是较小的。
为了解决SNMPv1/v2在安全性方面的问题。在1998年出台了SNMP v3。目前一个明显的趋势是,网管软件对SNMP v3的支持会越来越多,虽然目前有不少网络设备已经支持SNMP v3,但SNMP v3的应用程度以及网管软件对该标准的支持还非常有限。
RMON是IETF公布的用来解决SNMP协议在日益扩大的分布式网络中所面临的局限性。RMON的目的在于使SNMP更为有效、更为积极主动地监控远程设备。RMON MIB由一组统计数据、分析数据和诊断数据构成,网管软件利用RMON可以显示出这些数据。
要素二:面向业务而非设备
新型网管软件不再单纯地面向设备管理,而是面向业务来为企业网络管理服务的,在此基础上,建立起统一的、整合的管理平台,全面的对业务进行服务。
新一代的网管软件要具有能够与IT系统同步持续发展的能力,对于在目前的基础上扩大规模和容量,网管软件要能够继续满足新的要求。随着行业的不断增长,新一代的网管软件产品要能够满足市场的不断需要。
要素三:集中远程管理
集中式远程管理是以简化网络管理为出发点,企业可以通过一个统一平台掌控远隔千里的网络设备、服务器甚至PC,达到简化网络管理的目的。
在大型网络应用环境下,所有机房服务器和网络设备都可通过带外管理方式达到网络运行中心,将设备维护及故障排除集中于网络操作中心平台上,简化运维、提高效率。
在跨地区多中心的网络应用环境下,通过相对集中的控制、处理系统可实现关键设备的异地远程管理。
要素四:使用和管理简单
网络管理不应是在故障或事故发生后才去寻找解决办法。综合的网络管理平台应该能够向网络内各种设备获取技术参数,进而分析、诊断,以至预警。“傻瓜式”网络管理系统表现在易用性、主动性、预警管理三方面。
“傻瓜式”的网络管理系统降低网管的门槛,网络内各种不同的设备都统归到一个系统平台上体现监控,并以直观简单的方式呈现给用户,使操作性快捷明了;使更多的网管人员在节约人力及各项资源成本的前提下,保证网络的通畅使用。
关键词 SDH;维护;故障;定位
中图分类号TP393 文献标识码A 文章编号 1674-6708(2011)37-0233-02
SDH(Synchronous Digital Hierarchy),即同步数字体系,是目前在电力通信行业得到了广泛运用的技术之一。SDH是一个技术体制,主要涉及为不同速度的数位信号传输提供相应等级的信息结构,包括复用方法和映射方法,以及相关的同步方法。
目前在区域电力通信网络中,SDH网络基本已经可以覆盖到整个网络。为了能够保证SDH网络设备能够更好地服务,确保光纤传输网络的正常运作,需要根据SDH的自身特点,对其进行必要的维护以及检修和故障排除工作,通常而言,可以将工作内容进行归纳为以下部分:
1)SDH网络的日常维护工作
对于任何工作设备而言,维护工作都是保证其正常工作的必要环节。对于SDH网络系统,应当根据整个网络中不同设备的具体状况而实施有针对性的维护检查。
对于SDH网络的维护工作,可以从两个方面着手,即相关设备的检查和相关网管的检查。其中,相关设备的检查方面,以SDH网络涉及的主要设备为主要检查对象,并根据其自身状况进行维护。主要包括设备告警以及机柜指示灯检查,设备告警主要对告警设备以及其发声状况进行检查,由于设备告警关系着对于网络故障的及时发现,而机柜指示灯则能够明确标识出机柜的运作状况,因此每天都应当对其进行检查。此外,单板指示灯也是一个极为重要的检查维护环节,应当依据设备状况及时进行检查维护,通常采取一天两次检查为宜。设备检查中还应当 包括风扇检查和防尘网的定期清理,主要依据实际情况,保持设备通风和微环境的散热通风,通常可以以半个月为一个周期,视尘土的堆积情况进行清理。
网管检查中应当从SDH网络的软环境进行着手,首先是对软环境的安全管理,应当对登录口令定期进行更改和备忘登记,通常一个月更换1次~2次,以能够确保安全为主,同时应当加强对于SDH网络系统的人员安全管理,防止口令流失。其次,应当从SDH软环境开始对其内部状态以及安全运行进行检测维护,主要包括对于导航树以及拓扑图的监视,确保其软环境的正确识别;以及告警和性能的监视,确保系统内部正常运行。这些都是需要每天对其进行监视维护的,也可以针对系统设计一些简单的代码软件,对整个系统进行实时监控。此外,还需要不定期地针对系统配置以及操作日志进行检查,同时根据系统的运行状况进行数据备份,防止意外发生的时候难以快速回复系统运行。
2)SDH网络的故障维护工作
通常而言,SDH的故障维护并不十分困难,但是在这个过程中,故障的定位是一个十分重要的环节。在实际工作中,需要快速准确地将系统的故障定位到网元。在SDH系统中,由于网元之间的距离巨大,因此有效定位故障,对于提高维护效率有着重大意义。如果反复奔走于不同的网元之间对故障进行测度,将会在人力物力等多方面造成不可低估的浪费。
在对SDH网络故障进行定位的时候,有如下几个方面需要优先考虑:首先是SDH设备外部因素,因为相对而言,SDH网络中更容易发生线路故障或者接头、电源以及其他接入设备或接口故障。其次,在故障定位的过程中,需要先将故障定位在单站中,然后再逐步具体到单板和网元。此外,对于报警的级别必须予以深入分析,抓网络中的主要问题,对于较高级的报警应当给予更多的重视,而对于低级别告警,则应当为高级别告警让路。
常见的故障定位的方法包括:
(1)报警线索分析
对于系统内部的报警信号,相关的网管职能通常都会对报警事件进行记录,其中包括对于事件发生时间、事件发生前后系统工作状况数据等。根据这些信息,结合SDH系统帧结构中的相关字节和报警机制,通常就可以对系统中的故障进行初步定位。
需要注意的是,这种方法可能存在一定的误判,由于报警机制本身的不完善或者是报警设备的局限性,很可能导致对故障定位方向的错误,对于这一问题,应当在故障定位的时候多进行主管思考,并且结合以往故障实例进行综合判断。因此,对于故障资料进行记录和整理也是SDH系统维护中的重要工作。此外,能够参考的数据还包括事件发生前后的系统运作日志数据,这些数据从一定程度上反应着系统的运行状况,甚至包含有故障的触发原因,必须予以重视,应当对其整理,记录并长期观察。
(2)环回法对于SDH系统故障的定位
环回法是SDH系统中用于定位故障最常用的方法之一,对于分析报警原因失败的故障常常采用这一方法进行深入定位。
环回法是针对不同故障通路进行检测的一种故障定位方法,它能够在报警分析失败的情况下进行定位,但是对于SDH的运行会有一定的影响。需要注意的是,环回法需要首先对不同的通路进行测试,而不是同时对产生故障的大范围系统进行测试。对此,需要工作人员首先从产生故障的局部系统中选取一个网元,并且在这个网元中选取不同通路逐一进行测试,这样才能得到真正有效地测试结果。
应当注意,环回法虽然能够对SDH故障进行定位而无需报警信号和相关数据的帮助,但是它的精确度却存在一定不足,并且对于环回法的使用,也存在褒贬不一的论调,主要原因是它的使用会影响SDH系统的正常工作,因此除非大范围发生故障,通常对这种定位故障的方法不予采用,这也是从一定层面上基于故障排除效率的考虑。
(3)替换法对于SDH系统故障的定位
替换法是在SDH系统发生故障的时候,对于怀疑故障的设备或原件,甚至是目前工作的配置加以更换的测试方法。这种测试方法更多地应用于对于外部小范围内故障的定位和测试,例如光纤、中继电缆、交换机以及接口等设备。
1.1网络安全的需求
对于使用网络的业务人员来说,良好的网络应该包括这样几个方面:①通过简单配置甚至无配置即可使用;②通过网络可以获取更多的信息,使用更多的应用;③不用担心病毒、木马、数据泄露、数据丢失、断网等故障。而对于网络的管理维护人员来说,他们更加关注:①易于操作、维护,能够实现集中操作、自动操作;②系统结构具有足够的弹性,方便进行扩容或者升级;③可以快速地分析解决故障,并对原因进行分析、追溯;④对病毒、木马、各种网络攻击行为具有良好的抵抗力。
1.2网络安全策略
基于以上的分析,一套完整可行的网络安全策略应该包括这样几个方面:①利用软硬件应对病毒、木马、网络攻击、断网、断电、火灾等设备故障和环境故障;②建立统一的管理平台,对各种网络设备进行集中管理、自动扫描,实现可视化操作、提供各种故障警报、攻击警报,提高故障响应速度;③在不同功能的网络设备间建立有效隔离,避免彼此之间直接进行数据交换。各种服务的前后台建立隔离措施,控制非法访问;④加强合法用户的权限认证、口令认证,对网上服务请求内容进行控制;⑤加强对各种访问的审计工作,详细记录对网络、服务器的访问行为,形成完整的系统日志;⑥强化系统备份,实现系统快速恢复。
2网络系统安全风险分析及应对
网络安全通常包括以下五个方面:①物理硬件安全;②结构安全;③系统平台安全;④应用安全;⑤管理安全。
2.1物理硬件安全风险分析及应对
保证设备的物理安全是系统安全的前提,即保护设备免遭地震、水灾、火灾等环境事故、突发状况导致设备破坏等问题。它主要包括三个方面:①环境安全:对系统所在环境的安全保护(参见GB50173-93《电子计算机机房设计规范》、GB9361-88《计算站场地安全要求》);②设备安全:主要包括设备的防盗、防毁、防电磁信息辐射、防线路截获、抗电磁干扰及电源保护等;③数据安全:包括数据的安全及数据存储设备本身的安全。应对物理安全风险的基本思路就是“冗余”。随着网络机房等级的提升,对设备部件、设备乃至设备机房进行冗余设计,并通过技术手段实现数据同步、自动倒换,以规避物理安全风险。
2.2网络结构的安全风险分析及应对
网络结构的安全涉及到拓扑结构、路由状况。随着网络设备的增多,网络的复杂度是呈几何级数增长的。良好的网络拓扑结构、路由设计可以保证维护人员快速、准确的对各种故障进行定位、响应、处理,缩小网络故障对公司业务的影响,同时提供足够的弹性以容纳新设备的使用。从某种意义上来说,网络结构的安全风险是不可逆的。必须在网络设计阶段就进行考虑以规避风险。具体来说,包括这样几个方面:①专用网和通用网分开,例如监控网络和办公网络的分离;②将网络设备分为“内网接入”“核心交换”“数据交换”“外网接入”等不同的类别,彼此间均通过核心交换进行互联,禁止直接数据交换;③对服务器的使用尽量实现前台访问响应和后台数据库服务、内网应用和外网应用的分离;④在网络中使用防火墙进行安全控制,使用上网行为管理设备对网络使用人、业务、时间等进行控制。
2.3系统平台的安全风险分析及应对
这里所说的系统并不仅仅指通常意义上的用于服务器、计算机等终端的Linux、Windows等操作系统,还包括各种交换机和移动端设备内的操作系统(Android、IOS等)。其中的风险主要在于这类大型软件普遍存在的系统漏洞、系统后门。虽然这类风险也无法避免,但是我们可以通过建立统一网络管理软件平台,利用网络安全评估风险软件对网络安全进行定期自动扫描,确认网络状况,通过权限认证、访问日志审计、定期备份等管理手段来应对各种网络故障,提高系统的安全性。网络安全性评估分析软件,其功能是用实践性的方法扫描分析网络系统,检查报告系统存在的弱点和漏洞。这类软件至少应具备以下功能:①网络监控、分析和自动响应;②漏洞分析和响应;③配置分析和响应;④远程连接设备。
2.4应用的安全风险分析及应对
应用系统的安全跟具体的应用有关。这导致应用的安全风险是动态的、不断变化的,通常涉及机密信息泄露、未经授权的访问、破坏信息完整性和可用性等安全问题。虽然面对多种的应用进行单独的安全控制是不可能的,不过通过对系统平台的安全设置,可以对应用的安全风险进行控制,降低其破坏性。这从另一个方面说明了网络系统安全风险控制的必要性。
2.5管理的安全风险分析及应对
任何软硬件都是需要人使用及管理,由此推知“管理是网络安全中最重要的部分”。必须建立各种管理制度来规范对网络的使用、管理。需要建立诸如《机房出入管理制度》《系统维护制度》《设备操作规程》《故障应急处理预案》《用户授权实施细则》《口令字及账号管理规范》《权限管理制度》等管理制度。在制度建立时,需要注意遵循“多人负责原则”“任期有限原则”“职责分离原则”。
3结语
[关键词] 医院网络平台;网络规划;网络管理;安全应急
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 083
[中图分类号] TP393.0 [文献标识码] A [文章编号] 1673 - 0194(2016)21- 0159- 03
1 网络管理概述
随着医院HIS、电子病历、LIS、PACS等业务系统不断发展,医院日常工作已经完全离不开信息化的支持,作为信息化奠基石的医院网络管理及网络安全也越显重要。从概念上讲网络管理的目标就是通过管理优化,实现网络的可用时间的最大化, 并提高网络设备的利用率、网络性能、服务质量和安全性,降低网络运行成本, 形成网络的长期规划。
2 目前医院网络管理的需求突出点
近年来,三甲综合医院信息化规模已经完全步入大数据时代,小型局域网扩张成大型园区网络,网络终端成倍增长,数量基本已达到2 000以上。伴随而来的网络压力也彰显,更能考验医院网络管理水平。网络管理上突显的主要需求点主要体现如下几方面:
(1)工作站数量激增,直接增加了网管员的工作量。经统计,造成终端以及网络出现问题的主要为人为因素,如,误操作导致网络配置错误、移动介质使用和随意共享传播文件导致病毒感染、恶意扫描以及大量网络传输导致网络带宽被占用等;
(2)多厂家网络设备、多网络互连,增加网络架构的复杂性和故障风险。网络建设是需要经过长时间升级完善,网络设备的多样化、多品牌化问题突出;业务的多元化给网络也带来跨网段、跨区域的特色。
(3)医院信息系统平台的大数据应用以及数据备份带来带宽不足的凸显。
(4)网络规模增长,直接带来故障率的增高以及排查难度的提高。
3 医院网络管理的实用经验及方法
3.1 故障的快速定位
故障快速定位是快速解决网络故障的前提,而故障前后的数据对比是故障快速定位的关键。因此我们需要熟悉自己的网络运行状况,每天做好网络运行状况登记,其中应包括:核心网络设备的性能使用率、运行日志、生成树状况、备份状况、运行配置、主干流量登记、重要端口流量、电源状况、环境温湿度等等。尤其是重要端口流量监控,需特别区分常态网络流量以及突发业务计划引起的大数据网络流量。常态做好全网流量监控(无专用设备可安装抓包软件进行分析)。医院网络故障一般分为三类:①设备硬件故障,特点为定位容易,故障修复时间比较明确;②配置导致的故障,特点较为少见,容易排查;③网络攻击或者广播风暴类故障,特点为隐蔽性,往往容易导致交换机无法远程管理,且业务影响范围较广。根据不同的故障种类,我们应事先制定对应的处理预案。认真做好网络运行状况登记,可助我们快速识别当前网络故障的种类,以便采用相应的处理预案。
3.2 优化网络主干
提升主干带宽,一般有三个方法:①升级硬件:如百兆升级到千兆,千兆升级到万兆,或者做链路捆绑,该方法直接涉及网络成本;②采用虚拟局域网VLAN技术抑制广播风暴,提高带宽效率;③针对大数据流量的主干优化。
(1)目前主流局域网技术均采用以太网技术,随着主机数量的增多、网络设备增加,原有单一共享网络的规模不断扩大,ARP、DHCP、生成树等等基于广播或者组播方式的网络协议带来大量的广播流量,直接消耗主干的带宽以及核心交换机的处理资源,甚至降低该共享网络中所有终端主机的处理速度。因此,如何抑制广播风暴以及其他不明流量风暴是提升现有主干传输能力的首要方式。
VLAN技术是专门为了解决以太网广播以及安全性而提出的,是一种将局域网从逻辑上划分(注意,不是从物理上划分)成一个个不同的逻辑子网VLAN的实现技术。每个VLAN具有独立的广播域,可覆盖局域网内多个网络设备,允许不同地理位置的终端用户加入同一个逻辑子网。VLAN技术实现是在以太网帧的基础上添加VLAN头,在二层转发的过程中根据VLAN ID决定该帧能达到的逻辑子网,而不会转发到其它VLAN中,实现每个VLAN的广播和单播流量得到严格隔离,从而实现有助于控制流量、简化网络管理和提高网络安全性。当然,不同VLAN彼此之间无法直接访问,则需支持路由或者三层转发功能(路由器、三层交换机)设备来完成。目前主流的核心交换机均带有三层交换引擎。
常用的VLAN划分手段主要有根据物理端口划分、根据MAC地址划分和根据网络层协议划分。根据网络端口划分,简单稳定,只需在端口配置上指定该端口的VLAN所属就可以。根据MAC地址划分,则相对灵活,端口会根据MAC地址自动划分到该MAC地址所对应的VLAN中,当然前提是前期需对所有网络用户的MAC地址登记和对所有网络设备配置。根据网络层协议划分,相对复杂和耗费交换机性能,效率不高,较为少见。
根据医院网络实际应用,应用终端的位置以及业务类型均相对固定,网络流量主要是来自应用终端与服务器之间互访流量,即垂直流量占多,而平行流量仅大量存在于服务器与网络存储之间。因此,我们选择了根据网络端口划分VLAN。根据网络端口划分VLAN一般有两种划分手段,一是根据该端口的业务应用类型,如PAC应用、LIS应用、HIS应用等等;二是根据该端口的地理位置,即按楼层划分。两种划分手段各有优势,前者在同一VLAN内的互访流量数据传输可不必经过三层转发,效率较高,并可方便使用到一些基于广播、组播实现的网络功能,如网络查找或网络共享等,因此适合如视频转播系统应用、门禁系统、监控系统以及服务器群等。后者则可以严格控制该VLAN的广播、组播流量通过网络核心设备和主干链路,大大降低网络转发压力,从而达到优化网络主干转发能力,因此适合普通楼层接入。
(2)针对大数据流量,比如PAC服务器数据之间传输、服务器群与NAS等网络存储之间尽量采用专用光纤链路,尽量避免流经核心网络设备以及楼层主干。
3.3 终端控制管理
终端管理主要手段有接入控制、应用访问管理以及病毒防杀等。当然,目前许多终端安全管理软件已经实现以上三个功能,以下将讨论在现在网络设备上不增加成本实现终端控制管理。
(1)网络接入控制。常用方式有端口MAC地址绑定、端口MAC地址+IP地址绑定,还有基于802.1x协议的访问控制。
a.端口MAC地址绑定。根据交换机性能,可以采取静态绑定MAC地址,动态绑定MAC地址。采用静态绑定MAC地址,网络管理员需要事先收集终端的MAC地址,并在交换机上找到对应的端口手动敲入命令,对交换机性能要求不高,但是会给网络管理员带来很大的工作量。动态绑定MAC地址,只需要在交换机端口上开启动态绑定MAC地址的功能,交换机就会自动学习并绑定端口所连接的MAC地址,不过要先确保接入交换机的终端都是合法的。
b.端口MAC地址+IP地址绑定。同样可以采取静态绑定与动态绑定两种方式。采用静态端口MAC地址+IP地址绑定,网络管理员需要事先收集终端的MAC地址与IP地址,并在交换机上找到对应的端口手动敲入命令。此方法比只是绑定MAC地址安全性更高,但是会给网络管理员带来很大的工作量。采用动态端口MAC地址+IP地址绑定,需要结合DHCP SNOOPING或者DHCP Relay表项进行自动绑定,可以防止用户篡改IP地址,再配合动态绑定MAC地址,让交换机学习并绑定MAC地址,实现MAC地址与IP地址的双重绑定。
c.基于802.1x协议的访问控制。指定每个合法用户一个用户名和密码,用户需要接入网络前,使用用户名和密码进行认证,认证通过以后才能访问网络,可以防止非法用户访问内部网络。接入交换机需要支持802.1x协议,还要部署RADIUS服务器进行认证。采用此方法,可以避免非法用户通过修改MAC地址与IP地址来进入网络,安全性更高。
(2)应用访问管理。鉴于医院网络业务大多数为垂直型分布,即终端直接访问服务器群。因此可在三层网络设备上做三层网络转发识别和过滤,减轻主干转发压力以及服务器网络压力。比如一般对内存储设备的保护、只开放数据库端口、开发应用服务器端口以及远程管理端口等。
(3)病毒防杀。医院内部的终端无法连接互联网,无法及时获取杀毒软件病毒库和系统补丁的更新,容易感染计算机病毒,造成安全隐患。可以通过组建杀毒软件与系统补丁升级系统对终端进行病毒库与系统补丁的更新。这个病毒防杀系统采用C/S架构,包括服务器和终端两部分。服务器与终端都在医院内部网络。如果服务器可以直接连接互联网,服务器可以采用方式,下载终端需要升级的文件数据,为终端提供及时的升级。如果服务器无法接入互联网,可以在一台能上网的机器上下载好升级的文件数据,再放在服务器上,用方式让终端升级。
3.4 网络隔离
上下级单位之间、医院园区之间、特殊业务等等业务交互导致医院网络不再是以往单一的、物理独立的局域网,而是一张多出口、多业务甚至多协议的复杂网络。如何较好地划分、控制每个逻辑子网也成了当前医院网络安全工作的重中之中,也是安全等级保护自查的一个重要项目。
对外来接入网络,应定位为不安全网络,应采取逻辑隔离、严格控制接入权限以及做访问审计等手段。
(1)逻辑隔离:禁止二层直接接入,采用三层互联技术,控制广播域,并做好防毒防攻击。
(2)严格控制接入权:使用网络安全设备对前置机或者专线严格控制准入权,只允许访问指定服务器或者网段。
(3)做安全审计:增加安全审计设备对入口流量进行访问审计记录,做到每个应用访问可查可追踪。