期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 网络流量监测

网络流量监测精品(七篇)

时间:2023-01-11 20:16:22

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇网络流量监测范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

网络流量监测

篇(1)

关键词:网络流量监测;网络管理

1、网络流量的特性

通过对互联网通信量的测量,人们发现互联网通信量的主要特性有:

1、数据流是双向的,但通常是非对称的

互联网上大部分的应用都是双向交换数据的,因此网络的流是双向的。但是两个方向上的数据率有很大的差异,这是因为从网站下载时会导致从网站到客户端方向的数据量比另外一个方向多。

2、大部分TCP会话是短期的

超过90%的TCP会话交换的数据量小于10K字节,会话持续时间不超过几秒。虽然文件传输和远程登陆这些TCP对话都不是短期的,但是由于80%的WWW文档传输都小于10K字节,WWW的巨大增长使其在这方面产生了决定性的影响。

3、包的到达过程不是泊松过程

大部分传统的排队理论和通信网络设计都假设包的到达过程是泊松过程,即包到达的间断时间的分布是独立的指数分布。简单的说,泊松到达过程就是事件(例如地震,交通事故,电话等)按照一定的概率独立的发生。泊松模型因为指数分布的无记忆性也就是事件之间的非相关性而使其在应用上要比其他模型更加简单。然而近年来对互联网络通信量的测量显示包到达的过程不是泊松过程。包到达的间断时间不仅不服从指数分布,而且不是独立分布的。大部分时候是多个包连续到达,即包的到达是有突发性的。很明显,泊松过程不足以精确地描述包的到达过程。造成这种非泊松结构的部分原因是数据传输所使用的协议。非泊松过程的现象迫使人们怀疑使用简单的泊松模型研究网络的可靠性,从而促进了网络通信量模型的研究。

4、网络通信量具有局域性

互联网流量的局域性包括时间局域性和空间局域性。用户在应用层对互联网的访问反映在包的时间和源及目的地址上,从而显示出基于时间的相关(时间局域性)和基于空间的相关(空间局域性)。

2、 网络流量的测量

网络流量的测量是人们研究互联网络的一个工具,通过采集和分析互联网的数据流,我们可以设计出更加符合实际的网络设备和更加合理的网络协议。计算机网络不是永远不会出错的,设备的一小点故障都有可能使整个网络瘫痪,或者使网络性能明显下降。例如广播风暴、非法包长、错误地址、安全攻击等。对互联网流量的测量可以为网络管理者提供详细的信息以帮助发现和解决问题。互联网流量的测量从不同的方面可以分为:

1、基于硬件的测量和基于软件的测量

基于硬件的测量通常指使用为采集和分析网络数据而特别设计的专用硬件设备进行网络流的测量,这些设备一般都比较昂贵,而且受网络接口数量,网络插件的类型,存储能力和协议分析能力等诸多因素的限制。基于软件的测量通常依靠修改工作站的内核中的网络接口部分,使其具备捕获网络数据包的功能。与基于硬件的方法比较,其费用比较低廉,但是性能比不上专用的网络流量分析器。

2、主动测量和被动测量

被动测量只是记录网络的数据流,不向网络流中注入任何数据。大部分网络流量测量都是被动的测量。主动测量使用由测量设备产生的数据流来探测网络而获知网络的信息。例如使用ping来估计到某个目的地址的网络延时。

3、在线分析和离线分析

有的网络流量分析器支持实时地收集和分析网络数据,使用可视化手段在线地显示流量数据和分析结果,大部分基于硬件的网络分析器都具有这个能力。离线分析只是在线地收集网络数据,把数据存储下来,并不对数据进行实时的分析。

4、协议级分类

对于不同的协议,例如以太网(Ethernet ),帧中继(Frame Relay ),异步传输模式( Asynchronous Transfer Mode ),需要使用不同的网络插件来收集网络数据,因此也就有了不同的通信量测试方法。

3、 网络流量的监测技术

    根据对网络流量的采集方式可将网络流量监测技术分为:基于网络流量全镜像的监测技术、基于SNMP的监测技术和基于Netflow的监测技术三种常用技术。

1、基于网络流量全镜像的监测技术:网络流量全镜像采集是目前IDS主要采用的网络流量采集模式。其原理是通过交换机等网络设备的端口镜像或者通过分光器、网络探针等附加设备,实现网络流量的无损复制和镜像采集。和其它两种流量采集方式相比,流量镜像采集的最大特点是能够提供丰富的应用层信息。

    2、基于Netflow的流量监测技术:Netflow流量信息采集是基于网络设备提供的Netflow机制实现的网络流量信息采集。

篇(2)

1网络流量监测的必要性及意义

网络管理中非常重要且非常基础的一个环节就是网络流量监测,网络流量监测即是通过对网络数据的连续采集,以此来监测网络的流量。网络及其重要成分的性能指标也是对网络流量数据的统计和计算得到的。网络管理员根据当前的和历史的存储网络及其重要成分的性能的数据数据,就可对网络及其主要成分的性能进行性能管理,通过数据分析获得性能的变化趋势。分析制约网络性能的瓶颈问题。在网络流量监测的基础上,管理员可对感兴趣的网络管理对象设置阈值范围以配置网络阈值对象,阈值对象监控实时轮询网络获取定义对象的当前值。若超出阀值的上限和下限则报警,帮助管理员发现网络瓶颈,这样即可实现一定程度上的故障管理,而网络流量监测本身也涉及到安全管理方面的内容。所以,研究网络流量监测是非常有意义的。

2网络流量的特性

2.1数据流是双向的,但通常是非对称的。互联网上大部分的应用都是双向交换数据的,因此网络的流是双向的。但是两个方向上的数据率有很大的差异,这是因为从网站下载时会导致从网站到客户端方向的数据量比另外一个方向多。

2.2大部分TCP会话是短期的。超过90%的TCP会话交换的数据量小于10K字节,会话持续时间不超过几秒。虽然文件传输和远程登陆这些TCP对话都不是短期的,但是由于80%的WWW文档传输都小于10K字节,WWW的巨大增长使其在这方面产生了决定性的影响。1.3包的到达过程不是泊松过程大部分传统的排队理论和通信网络设计都假设包的到达过程是泊松过程,即包到达的间断时间的分布是独立的指数分布。然而近年来对互联网络通信量的测量显示包到达的过程不是泊松过程。包到达的间断时间不仅不服从指数分布,而且不是独立分布的。大部分时候是多个包连续到达,即包的到达是有突发性的。很明显,泊松过程不足以精确地描述包的到达过程。造成这种非泊松结构的部分原因是数据传输所使用的协议。非泊松过程的现象迫使人们怀疑使用简单的泊松模型研究网络的可靠性,从而促进了网络通信量模型的研究。

2.3网络通信量具有局域性。互联网流量的局域性包括时间局域性和空间局域性。用户在应用层对互联网的访问反映在包的时间和源及目的地址上,从而显示出基于时间的相关(时间局域性)和基于空间的相关(空间局域性)。

3网络流量的监测技术与方法

3.1网络流量的监测技术种类

(1)基于流量镜像协议分析。流量镜像(在线TAP)协议分析方式是把网络设备的某个端口(链路)流量镜像给协议分析仪,通过7层协议解码对网络流量进行监测。与其他3种方式相比,协议分析是网络测试的最基本手段,特别适合网络故障分析。缺点是流量镜像(在线TAP)协议分析方式只针对单条链路,不适合全网监测。

(2)基于硬件探针的监测技术。硬件探针是一种用来获取网络流量的硬件设备,使用时将它串接在需要捕捉流量的链路中,通过分流链路上的数字信号而获取流量信息。一个硬件探针监视一个子网(通常是一条链路)的流量信息。对于全网流量的监测需要采用分布式方案,在每条链路部署一个探针,再通过后台服务器和数据库,收集所有探针的数据,做全网的流量分析和长期报告。与其他的3种方式相比,基于硬件探针的最大特点是能够提供丰富的从物理层到应用层的详细信息。但是硬件探针的监测方式受限于探针的接口速率,一般只针对1000M以下的速率。而且探针方式重点是单条链路的流量分析,Netflow更偏重全网流量的分析。

(3)基于SNMP的流量监测技术。基于SNMP的流量信息采集,实质上是测试仪表通过提取网络设备Agent提供的MIB(管理对象信息库)中收集一些具体设备及流量信息有关的变量。相似的方式还包括RMON。与其他的方式相比,基于SNMP的流量监测技术受到设备厂家的广泛支持,使用方便,缺点是信息不够丰富和准确,分析集中在网络的2、3层的信息和设备的消息。SNMP方式经常集成在其他的3种方案中,如果单纯采用SNMP做长期的、大型的网络流量监控,在测试仪表的基础上,需要使用后台数据库。

(4)基于Netflow的流量监测技术。Netflow流量信息采集是基于网络设备(Cisco)提供的Netflow机制实现的网络流量信息采集。Netflow为Cisco之专属协议,已经标准化,并且Juniper、extreme、华为等厂家也逐渐支持,Netflow由路由器、交换机自身对网络流量进行统计,并且把结果发送到第3方流量报告生成器和长期数据库。一旦收集到路由器、交换机上的详细流量数据后,便可为网络流量统计、网络使用量计价、网络规划、病毒流量分析,网络监测等应用提供计数根据。Netflow方式是网络流量统计方式的发展趋势。在综合比较四种技术之后,不难得出以下结论:基于SNMP的流量监测技术能够满足网络流量分析的需要,且信息采集效率高,适合在各类网络中应用。

3.2网络流量的监测方法

流量监测包括测量工具/系统的部署、流量数据的采集(包括数据包捕获、归并和采样处理等)、数据包的解析和处理、测量实体量化数值的获得与统计分析、流量特征化描述、流量存储和查询表示、流量建模等多个环节,具有相对复杂的处理和分析过程。目前存在有众多种流量测量的实现方法,他们可适用不同的测量环境、满足不同的测量要求,并且有着不同的实现方式。基于硬件的测量通常需要设计和应用特定的硬件设备来对流量数据进行采集和分析。被测量的流量并非由普通的商用计算机直接获得,而是需要从服务器、交换机、路由器等特定的网络设备上经过一定处理后导出,然后再由普通的商用计算机完成后续的流量处理和统计分析等工作。不同形式的数据,对应要求在普通的商用计算机上通过不同的程序或软件实现相应的流量处理和统计分析功能。

篇(3)

关键词:网络流量;监控;意义

中图分类号:TP393.06 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-01

一、网络流量监视与控制策略

(一)对网络流量的捕捉与分类。对网络流量的捕捉与分类是实现网络流量管理的第一步。要事先设置好捕捉点,对网络流量加以捕捉与分类,只有这样才可以做后续的分析及控制工作。更需要进行说明的是,网络流量分类要实现宏观化,还可以做到细化。例如TCP、UDP、ICMP的分类方法具有宏观特点,而其中的HTTP、FTP包括Kazza、Skype之类的P2P流量在分类及识别方面还要进一步对其细化。比如我们的日常工作,网管人员可以借助于Wireshark、TCPDump等进行报文捕捉与分析软件对流量做捕捉与分类工作。(二)对网络流量的监视。监视网络流量的大小,可以找到问题的原因与状况,然后按照相应的管理策略执行有关的操作。应用程序与网络管理对各类信息进行收集与分类,并对收集的信息进行展示,所展示的内容主要有对带宽的利用率、活跃的主机与网络效率及相关的应用程序。这一目标主要是利用了市面上的可视化分析管理工具NTOP来实现这一管理的,对网络管理员进行协助。(三)对网络流量的控制策略。对网络流量的分析主要是因优先级别不同而分配一定的带宽资源。这些分配主要是对主机及应用进行的等等,我们要对所消耗资源的P2P程序及音频视频下载等程序做进一步的分析。它的具体操作时间主要以常用的流量控制工具对其实现,比如采取的分类监视与网络流量的控制,这样,我们可以对网络流量做有效的管理,将无序的网络流量变成有序的网络流量。

二、网络流量测量方法与选择

当前,我们通常使用的网络流量的测量方式包括以下两种。

(一)利用计算机对网络进行侦听,比如利用“嗅控器”进行侦听的Sniffer工具,这种方式不能使所有对象的流量都被监听到,比如对路由器的要求主要是达到路由器与侦听计算机同属于一个物理网段。(二)在网络对象中直接获取流量,在使用SNMP协议时,对它所提供的基本功能中的Get2Re2quest与Get2NextReq都属于一个M IB数据库表,并从中可以获取所需相关信息。比如利用免费工具软件METG对其进行分析,它得到的监控结果主要是一个GIF或者PNG格式的图形文件,再把这些图形文件植入到标准的HTML页面之中。

三、网络流量测量的实现

(一)对数据采集与存储主要是通过流量监控管理系统来实现的,利用Linux AS4. 0这一操作系统,通过C语言编程完成这一功能,借助ucd-snmp软件包完成对网络设备MIB信息的获取。比如UCD-SNMP软件具有多个SNMP工具,它具有可扩展、SNMP库、对SNMP消息的查询及设置、对SNMP陷阱工具的产生与处理、利用SNMP的netstat命令、实现管理系统库浏览器Tk/Perl的作用。对ucd-snmp软件包的安装调试以后,可以在shell下面使用/usr/local/snmp/sbin/snmpd,也可以加在/etc/rc. d/rc. Local之中,实现开机后的自动启动功能。(二)Web服务器具有用户查询及交互模传统方式,它主要是一种基于C/S架构的管理模式,在Web技术不断走向成熟以及被大面积应用的基础上,一种基于Web的全新的网络管理WBM(Web-BasedManagement),具有灵活性、易操作性的服务产生。我们利用本系统的设计,对网络管理信息的数据经SNMP在MIB库中进行收集,在网络管理系统所做的过滤、分析、加工处理以后,在Web服务器做好数据的存储。管理员利用Web技术借助于浏览器本地或者远程访问流量监控系统,对WBM技术与传统的网络及设备管理系统进行对比,利用分布性、用户界面各种不同的操作优势,在动态网页PHP的函数集中对台戏SNMP协议应用于网管函数的接口中。在使用PHP时,不断完成轮询操作。而PHP所提供的网管函数库与数据采集模块的Agent通过交互对流量进行监控。它还利用PHP语言与Ajax技术对Web管理页面进行了创建,利用标准的接口,将用户的HTTP格式的请求再做进一步的转换工作,使其成为了一种SNMP协议的格式,再将SNMP协议数据单元进行转换,使其成为HTTP格式,对用户的浏览器界面进行显示。还要对Ajax(“Asynchronous JavaScriXML”,即异步JavaScript和XML)窗体技术加以利用。主要是将XMLHttpRequ应用于JavaScript脚本所提供的页面之内,再通过服务器通信的手段,使JavaScript不用刷新页面就可以实现对数据的获取,而不用对整个页面进行刷新。

四、网络流量监控的意义

P2P技术用以通讯,仅一到两台电脑的P2P软件就可以对整个局域网的所有带宽资源加以抢占。因此,要保证企业网络的能够稳定运行,还要对流量进行监控与限制。对局域网流量的监控限制主要有以下解决方案:

(一)对每台机器进行流量的分配。在Linux操作系统中有流量控制的作用,它主要是利用输出端口的一个队列完成流量的控制。借助于linux的网关,就可以对每台机器的流量进行设置。我们还可以利用局域网的流量监控软件对流量进行监控。这一方案主要是对网关或者网桥的连接方式加以设置,所以在提高网速方面有一定的影响。(二)到网络流量管理中使用流量控制,主要是使网络管理者实现对网络资源与业务资源的带宽加以控制,并对其资源加以调度,可以通过HTTP、FTP、SMTP以及P2P的应用加以管理,特别是对通过对P2P流量进行抑制以提升传统数据业务的用户体验度。另一方面,流量控制对网络流量管理具有一定的作用,可以对业务资源进行调度,并对业务资源进行使用,对业务状态进行实时监控。(三)对流量进行控制主要是在输出端口对一个队列进行流量的控制,控制的方式可以通过路由,也就是通过IP地址或者目的子网的网络号进行设计。对流量进行控制主要是对功能模块以队列、分类及过滤的方式实现。因为网络流量的种类较多,网络管理员的管理要以分类的方式完成。在城域网网络规划和扩容可以参考网络流量模型来实现,xFlow与探针能获得流量模型的控制,困为探针具有应用协议的分析能力,可以深入分析流量。然后在城域网接入层、汇聚层以及在城域网出口的每个层面安装探针,对流量进行监测与分析,从而得到相对完整的流量模型。我们所提出的P2P应用是网络带宽的一种主要的消耗者,对P2P流量进行疏导,可以实现它的本地化,可以对承载网络流量流向进行优化,另外还可以对用户感知进行提升,它也城域网的未来发展方向之一。

参考文献:

篇(4)

关键词: 网络测量;网络性能指标;网络流量测量仪

0 引言

随着现代科学技术的发展,人们的生活越来越依赖于计算机网络,借助于网络人们可进行工作、娱乐、购物等等,渗入到生活的各个方面。同时,计算机网络的发展也是日新月异,网络的复杂度也越来越高,所以网络性能的测量,有助于对网络性能有效的预报和控制,及时发现网络出现的问题并找到解决方法。网络测量可以这样理解,使用的软、硬件测量工具或者软硬件结合的工具,对网络性能的的各项指标进行测量,并对网络性能的状况作出客观的分析。

1 网络测量分类和主要研究领域

目前,对网络测量的分类有很多。根据测量的内容可以分为拓扑测量与性能测量;根据测量方式可以分为主动测量和被动测量;根据测量点的多少可分为单点测量与多点测量;根据测量采用的协议可分为基于BGP(Border Gateway Protocol,边界网关协议)协议的测量、基于TCP/IP协议的测量以及基于SNMP协议的测量。在主动测量方式中,需要短暂断网,向网络中发送数据,通过观察收到的数据,对网络性能进行分析。被动测量不需要断网,通过镜像或者串接的模式连接到网络中,记录网络中产生的数据,并进行分析。

一般的网络测量的主要参数包括RTT(往返时延)、路径数据、带宽、延迟、拥塞程度、吞吐量、带宽利用率、丢包率、服务器和网络设备的响应时间、最大的网络流量、网络服务质量QoS等。

2 网络流量测量

目前,上网用户日益增多,随之而来的是用户对自己上网产生的流量并不透明,上网产生的流量精度与否,用户也是不甚明了,由此而产生的争议不断上演。通过对网络流量的测量,不仅可以对计算机网络的动态使用情况进行掌握,而且对流量的准确监测,对用户的合法权益维护也具有重要的意义。对网络流量性能可以通过网络流量模型进行预测,流量测量不仅仅是用在流量的测量上,还能够应用在安全管理、性能管理、计费管理等方面。

3 网络流量测量仪的设计

3.1 网络流量测试仪的设计思路

针对目前没有一款网络流量测量仪是从计量方面来进行网络流量监控,此款网络流量测量仪主要是从用户端进行流量计量,能够在一定时间内对用户产生的流量进行精确统计,精度是现行电信运营商的精度的0.3倍。

网络流量测试仪采用串联的方式连接在线路中,仪器的一个端口连接电信运营商的网络,另一个端口连接用户电脑,连接方式。

3.2 网络流量测量仪的硬软件结构

网络流量测量仪是由一块FPGA,在物理层有两个RJ45网卡接口、存储器、LCD和控制面板等组成,其硬件结构。

网络流量测量仪依据的标准是IEEE802.3以太网络通讯协议,通过计算MAC层的数据来统计流量大小。网络流量测量仪的软件结构三个模块组成:实时数据处理和分析模块、流量统计和计量模块和LCD显示模块。

3.3 网络流量测量仪的工作流程

网络流量测量仪的主要功能就是对上网流量进行计量,这也是设计此仪器的核心所在,所以仪器的首要功能是精确可靠的统计上网产生的数据,通过帧的接收、验证、计算,数据包括上下行流量,然后通过查询功能对得到的数据在LCD上显示出来。

4 结论

网络流量测量仪采用软硬件结合的方法,在用户端进行网络流量统计,从模拟验证来看,可以精确对用户的上网流量进行测量,填补了我国在网络流量计量方面的空白,维护了消费者的合法权益,具有一定的社会和经济效益。

参考文献:

[1]王宁、罗军勇,一种关于重叠服务网络的可用带宽测量技术[J].微计算机信息,2005(23).

[2]王存立、吴捷,服务质量测量技术及其应用[J].中兴通讯技术,2003(04).

篇(5)

【 关键词 】 模糊相对熵;网络异常行为;网络异常流量检测

【 中图分类号 】 TP309.05 【 文献标识码 】 A

1 引言

IP网络具有体系架构开放、信息共享灵活等优点,但是因其系统开放也极易遭受各种网络攻击的入侵。网络异常流量检测属于入侵检测方法的一种,它通过统计发现网络流量偏离正常行为的情形,及时检测发现网络中出现的攻击行为,为网络安全防护提供保障。在网络异常流量检测方法中,基于统计分析的检测方法通过分析网络参数生成网络正常行为轮廓,然后度量比较网络当前主体行为与正常行为轮廓的偏离程度,根据决策规则判定网络中是否存在异常流量,具有统计合理全面、检测准确率高等优点。基于相对熵的异常检测方法属于非参数统计分析方法,在检测过程中无须数据源的先验知识,可对样本分布特征进行假设检验,可在缺乏历史流量数据的情况下实现对网络异常行为的检测与发现。本文系统研究了模糊相对熵理论在网络异常流量检测中的应用,并搭建模拟实验环境对基于模糊相对熵的网络异常流量检测方法进行了测试验证。

2 基于模糊相对熵的多测度网络异常流量检测方法

2.1 模糊相对熵的概念

相对熵(Relative Entropy)又称为K-L距离(Kullback-Leibler divergence),常被用作网络异常流量的检测方法。本文引入模糊相对熵的概念,假定可用来度量两个概率分布P={p1,p2,...,...,pn}和Q={q1,q2,...,...,qn}的差别,其中,P、Q是描述同一随机过程的两个过程分布,P、Q的模糊相对熵定义为:

S(P,Q)=[Pi ln+(1-pi)ln] (1)

上式中qi可以接近0或1,这会造成部分分式分母为零,因此对(1)式重新定义:

S'(P,Q)=[Pi ln+(1-pi)ln](2)

模糊相对熵为两种模糊概率分布的偏差提供判断依据,值越小说明越一致,反之亦然。

2.2 多测度网络异常流量检测方法流程

基于模糊相对熵理论的多测度网络异常检测具体实施分为系统训练和实际检测两个阶段。系统训练阶段通过样本数据或监测网络正常状态流量获取测度的经验分布,实际检测阶段将实测数据获取的测度分布与正常测度分布计算模糊相对熵,并计算多个测度的加权模糊相对熵,根据阈值判定网络异常情况,方法流程如下:

Step1:获取网络特征正常流量的参数分布。通过样本数据或监测网络正常状态流量获取各测度的经验分布。

Step2:获取网络特征异常常流量的参数分布。对选取网络特征参数异常流量进行检测获取各种测度的概率分布。

Step3:依据公式(2)计算单测度正常流量和异常流量间模糊相对熵Si。

Step4:计算多测度加权模糊相对熵S。

S=α1S1+α2S2+…+αkSk (3)

式中αk表示第k个测度的权重系数,由测评数据集统计分析获得。

最终,根据S建立不同的等级阈值来表征网络异常情况。S越大,表示网络流量特征参数分布偏离正常状态越多,网络中出现异常流量的概率越大;S越小,表示网络流量特征参数分布与正常状态吻合度越好,网络中出现异常流量的概率越小。

3 测试验证

为测试方法的有效性,搭建如图1所示的实验环境,模拟接入层网络拓扑结构、流量类型和流量负载情况。测试环境流量按业务域类型分类,主要分为视频、语音、数据三种业务域,按每个业务单路带宽需求计算,总带宽需求约为2368kbps~3200kbps。

(1)检测系统接入交换机镜像端口,系统部署环境。

①硬件环境:Intel(R) Core(TM) 2 Duo CPU 2.00GHz,2.0G内存;②操作系统环境:Windows XP,.NET Framework 3.5;③数据库系统:Microsoft SQL Server 2005 9.00.1399.06 (Build 2600: Service Pack 3)。

测试环境交换机采用华为S3050C,用户主机接入点配置如表1所示。

测试网络正常流量状态方案配置。

①1号主机架设视频服务器模拟视频业务域,单路平均带宽需求2.59Mbps;②2、3号主机架设音频服务器模拟语音业务域,单路平均带宽需求128kbps;③4、5、6号主机采用应用层专用协议和传输UDP协议模拟发包程序模拟数据业务域,单路平均带宽需求64kbps。

按上述方案配置网络环境,交换机网络流量负载约为2.996Mbps。

3.1 测试用例设计

网络中的异常行为主要包括非法网络接入、合法用户的违规通信行为、网络攻击及未知的异常流量类型等,系统将其定义为四类:带宽占用、非法IP地址、非法IP会话、模糊相对熵异常四类异常事件,其中模糊相对熵异常可根据经验数据设定多个阈值等级。测试用例以网络正常流量为背景流量,根据测试目的添加异常流量事件。测试用例设计及实验测试过程如表2所示。

3.2 结果分析

测试用例持续监测网络两小时。根据模糊相对熵数据输出,绘制ROC曲线,检测率与误警率的关系如图2所示。通过ROC曲线,能够准确反映模糊相对熵异常流量检测方法检测率与误警率的关系。权衡检测率与误警率,选择合适的阈值。当模糊相对熵阈值设定为39.6时,系统检测率为84.36%,误警率为3.86%,表明检测系统对未知异常流量具有较好的检测效果。

4 结束语

基于模糊相对熵的网络异常流量检测方法可以在不具备网络历史流量信息的情况下,通过对网络流量特征进行假设检验,实现对网络异常行为的检测发现。实验测试结果表明,设定合理的模糊相对熵阈值,该方法的检测率可达84.36%。在下一步的工作中,将研究自学习式阈值设定方法,以及对模糊相对熵方法进一步优化,提升方法的准确性和效率。

参考文献

[1] 蒋建春,冯登国等.网络入侵检测原理与技术[M].北京: 国防工业出版社,2001.

[2] 蔡明,嵇海进.基于ISP网络的DDoS攻击防御方法研究[J].计算机工程与设计,2008, 29(7):1644-1646.

[3] Francois Bavaud. Relative Entropy and Statistics[EB/OL].http://unil.ch/webdav/site/imm/users/ fbavaud/private/IT_statistics_bavaud.pdf.,2011-05-16.

[4] 张亚玲,韩照国,任姣霞.基于相对熵理论的多测度网络异常检测方法[J].计算机应用,2010, 30(7):1771-1774.

[5] 李涵秋,马艳,雷磊.基于相对熵理论的网络Dos攻击检测方法[J].电讯技术, 2011, 51(3):89-92.

[6] 张登银,廖建飞.基于相对熵理论网络流量异常检测方法[J].南京邮电大学学报(自然科学版),2012, 32(5):26-31.

[7] 胡为,胡静涛.加权模糊相对熵在电机转子故障模糊识别中的应用[J].信息与控制,2009, 38(3):326-331.

作者简介:

姚宏林(1974-),男,硕士,副教授,从事信息安全教学与研究。

篇(6)

关键词:网络流量;监控设计;实现;策略

中图分类号:TP393.06

在我国网络迅速发展的前提下,网络各个领域当中网络流量监控的设计和实现变得异常重要,它的存在对于各种软件的运行是否出现堵塞的现象显得异常重要。就此,本论文着重针对网络流量监控设计进行了分析,提出了相关的建议。

1 网络流量监控的重要性

网络是一个错综复杂的体系并且在管理的过程中会出现很大的难度和弊端,因此在进行网络监控和管理的过程中一定要重视网络流量监控问题。从目前我国网络监控的发展来看,伴随着各种软件的迅速发展以及多媒体规模的普及和多形式化的网络软件的出现,不同领域的各项业务在网络中逐渐趋于完善,网络传输工作从以往的数据中迅速增长,给我国网络造成了很大的负担。因此,强化网络流量监控工作显得异常重要。就此,笔者认为在构建网络监控体系的过程中要不断的优化其内部软件以及外部硬件,从根本上提高网络监控在网络中的重要位置发挥出其作用,这必然对网络监控具有很大的意义。网网络的流畅性、病毒的发现和制约起到了积极影响。与此同时,相关设计单位应该将网络监控管理提高到面上,从思想上重视网络流量监控工作,通过定期的完善和升级,一直网络出现攻击和病毒侵蚀的情况。

2 分析网络流量特征

为了进一步的完善网络局域网网络流量管理的要求,应该构建局域网的流量监控软件,通过网络流量的分类、规划、管理,针对网络流量的整体特征进行总结,从根本上设计出符合于实际性、更好地、管理有效的流量监控体系。从根本上有效的管理网络流量,达到避免局域网网络堵塞的现象。就此,针对不同单位局域网的特征从以下几个方面进行论述。

2.1 TCP/IP

在90年代初期开始,网络中的主要协议主要是TCP/IP,虽然说视频流、TP电话、相关的视频软件等发展的非常迅速,带动了UDP协议在网络中快速的发展,但是TCP/IP以及呈现出一个持续性发展的状态。并且,因为用户在浏览视频或者是观看电影的过程中会通过网页进行,这就导致了WWW浏览器的迅速升级以及快速发展,从根本上提高其内容的丰富性。并且,网页游戏以及商城对于TCP/IP的促进和发展也是非常有利的呈现出可持续发展的趋势。因此,从以上内容的描述来看,TCP/IP在网络中呈现出一个快速发展的趋势,并且占据着主导位置。

2.2 双向数据流

从网络自身的角度进行分析,网络的总体流向应该是呈现出一个双方面浮动的情况,出了在网络中应有的数据流通、数据改变、网页访问、下载相关的服务器、多媒体等会经常性的出现访问外部网站的现象。

2.3 网络数据流呈现出非对称性

简单来说,就是网络数据在运作的过程中,两者呈现出不统一的现象。或者其中的一个呈现高的现象,或者是其中一个呈现出低增长的状态。比如说,某些单位在进行下载资料的过程中,数据流量非常缓慢甚至一个短短的视频就需要下载一两个小时左右。但是,在另外一个单位在进行下载资料的过程中速度非常快并且呈现出持续增长的趋势,这个时候就呈现出了网络数据流不对称的现象。

2.4 短期性的TCP会话

从测试的内容来看,一般单位内部的区域网TCP会话中超过80%的交换数据量大体上是

2.5 规律

每天上午、下午以及晚上6~11时是数据流量的高峰阶段,这主要是因为在上午以及下午阶段隶属于办公期间对于数据流量的需求较大,然而从晚上6~11时来说是下班阶段对于娱乐、游戏、交通等流量需求较高,是流量的高峰时间。除此之外,其他的时间隶属于低估流量时期。

2.6 P2P通信

在网络高速发展的前提下,互联网的P2P技术伴随着快速发展在网络内的波及范围变得越来越广泛,并应用在各个场景当中。从我国国内的角度进行分析,P2P软件应用最广泛的是Workslink,还有完全以音乐共享为主要设计而进行开发的KuroKuro,是全中文操作的PP点点通,搜索音乐快捷方便的P2P软件ezPeer,MP3搜索下载的全中文软件的Jelawat,并且是何目前最容易分享的其他电脑网络共享文件iMESH。不过从受众最广泛的角度进行分析,在线视频点直播的PPS、pptv,完全性的体现出了视频的优越性,从根本上体现出了P2P通信的优势。并且这两款视频点播曾经创下了在线点播在线人数超千万的记录,完全性的体现出了收看人越多,视频观看流畅的P2P技术的优势。但是,从下载歌曲、电影、软件、在线视频点播等进行分析,直播的P2P软件只有拥有足够的种子以及足够的金额护短就能够占据全部宽带,从整体上使其他网络用户没有办法正常性的使用网络,从根本上造成了严重性的网络拥塞。

3 系统设计

在进行系统的过程中,首先要注意的是保障单位局域网的网络流通现象,针对局域网的流量实施监控措施,完善监控系统针对监控系统所会出现的一系列问题和弊端进行适当性的修改和整体。从根本上保障局域网的监控系统能通过系统管理模块以及站点流量管理体系,从根本上针对网络流量进行实施监控,并且保障流量能够畅通,对于出现数据制约网路的现象,应立即采取拦截的策略。与此同时,设计网络流量监控系统中,一定要保障其监控系统中涵盖流量监控、流量实时监控、流量定时监控、忙时监控、P2P监控等,从总体上保障流量监控体系能够完善并且处于一个稳步运转的状态中。就此,从以下几个方面针对其内容进行论述。

3.1 系统管理模块

系统管理模块是系统的基础性模块,其模块涵盖了用户管理功能、系统的配置功能。所谓的用户管理功能是通过密码管理和用户限制非系统性人员或者是失误操作流量的监控体系。这里面所说的用户包含了超级管理人员以及系统两级用户。超级管理人员可以通过增加管理员用户、删除管理员用户、修改管理人员能修改自身的密码和对其履行超级管理权限并且针对系统进行细致性的管理。从根本上完善对系统的总体配置和使用,更好的监控网关地址等配置。从另外一个角度进行分析,系统管理模块是通过固定的体系进行维修和管理,从根本上提升维修和管理的策略。

3.2 流量采集模块

如果说将整个系统比喻成大脑,那么流量采集模块就是整个大脑中最核心的部分,占据着一定的位置。于此铜丝,流量采集模块是基于窗口流量监控范围内,并且针对流量进行监控和管理。通过流量采集模块为基础,针对其进行实时监控和管理,通过图表的总体模式直接性的针对端口流量的情况,实时监控处理。监控主要涵盖了针对指定的IP地址以及制定的IP区段内的流量实时监控,其次是针对指定协议端口流量监控,最后是针对指定的AS或者是制定AS间的流量监控。与此同时,这项模块还可以还能针对网络性能进行监控报警。其报警主要可以分成流量拥塞报警,当流量增加的时候,就会达成设定的域值。另外一种可以分成网络拥塞报警,当流量陡增发生丢包或设备路由器转换成交换机的CUP以及内存处理能力出现严重性的问题。报警可以针对整个性能管理、故障管理以及安全管理都起到非常重要的作用。

3.3 站点流量管理模块

站点流量管理模块式以站点管理为基本单位,并且将访问的站点按照不同类别进行分类,并且针对其分段时间按照流量监测的实际情况采取限制性访问的策略,将这些站点设置信息保存至相关到数据库当中达到实现分类监控管理的目的。

3.4 P2P流量监控模块

主要针对下载和P2P监控,针对P2P软件例如BT等严重性的占用到了网络宽带,因此需要针对P2P流量实施监控政策。网络监测管理人员希望能够封锁一切的BT软件,控制这一系列软件的占用网络宽带率,从根本上提升BT软件的占用率,改变流量监控的现状,提高网络流量的使用率,减少降低的范围。从BT服务来说,一般使用TCP/IP协议的16881一直到16889端口。从最近几年来说,为了跨越封锁,很多BT工具开始修改链接的端口,直接性的使封锁BT软件变得特别困难。从目前来看,通过的方式是通过监视每台局域网中计算机的下载速率,如果某台计算机严重性的占用宽带,网络管理人员将封锁到达该台计算机的IP报文,使该台电脑不能够进行下载。与此同时,还应该保障P2P软件的使用,从根本上使P2P软甲家算计需要在使用之前向项目管理人员进行申请。与此同时,还应该保障其不影响其他同事工作的时候实施下载策略。

3.5 流量分析统计模块

其主要是通过对数据库进行检测工作,从总体上针对数据进行反反复复的分析工作,并且针对数据表格拼凑以及数据状态进行实质性的改变和分析,从总体上提高统计图的类型和形式达到有效分析流量的目的。

3.6 计算机网络流量监控系统

其关键点在于通过实时采集技术针对网络所产生的数据进行分析和整理,在一定程度上针对其设备进行统计和测量工作。在一定程度上成为了目前我国所出现的主要的IP流量分析、统计分析以及相关费用的标准。针对其流量数据进行手机和整理,能够在一定程度上将其更好的变成流量的问题,通过IP数据包的整体检测和分析,从而找到IP地址的源头以及IP地址的端口,从总体上提高了IP地址的断口。达到了区分网络类型和传输方向、传输类型和信息的目的。从另外一点进行分析,针对P2P流量实施监控的时候,其主要应该从局域网采取下载公式的测量,当察觉到计算机严重性的占用宽带情况的过程中,应立即采取封锁IP数据流通的情况,终止该电脑下载的情况。并且,在使用P2P软件的计算机必须在使用之前向上级网络提交使用报告和申请,将其报告或者是申请放置到数据库当中,达到在不断时间段不影响单位网络正常运行的目的。

4 结束语

总而言之,针对计算机网络流量监控的设计和实现来说,一定要完善其系统保障流量监控体系实施的恰当,保障各个软件在流量监督体系中能够更加完善。从总体上推动网络软件的大力发展以及保障网络运行的畅通。

参考文献:

[1]程光,龚俭,丁伟.网络流量宏观行为分析的一种时序分解模型[J].电子学报,2012(11).

[2]蔡康,汤艾军.IP网络流量与分析[J].广东通信技术,2012(01).

[3]邹柏贤.网络流量正常行为模型的建立[J].计算机应用,2012(07).

[4]安常青,李学农,李小乔,岑贤道.基于SNMP的网络流量管理系统[J].计算机工程与应用,2012(05).

[5]赵佳宁,李忠诚.基于模拟的网络流量自相似现象分析[J].计算机科学,2012(11).

[6]刘特,徐迎晓,吴建军,黄令恭.基于Java Servlet的网络流量采集与监控技术[J].计算机工程,2012(19).

[7]邬源杨,董玮文,杨宇航.自相似网络流量的长相关分析方法[J].计算机工程,2012(05).

[8]邹柏贤.网络流量正常行为模型的建立[J].计算机应用,2012(07).

篇(7)

摘要:基于机器学习的网络流量识别技术作为一种典型的数据流分类的应用,对概念漂移检测方法的要求越来越高。针就这个问题,首先分析了概念漂移检测的两种典型方法,然后结合实际的网络环境中经常存在类别不平衡的特性提出了一种检测概念漂移的算法CF_CDD,并对该算法的原理和统计学理论基础进行了详细的论述。再根据提出的概念漂移检测算法构建基于权重的集成分类器算法TCEL_CF_CDD,以达到自适应流量识别的目的。最后进行实验,验证了文中提出的概念漂移检测算法的可行性。

关键词:流量识别; 概念漂移; 统计学检验; 集成学习

中图分类号:TP393 文献标识码:A文章编号:2095-2163(2013)06-0050-05

0引言

随着网络日新月异地迅猛发展,网络上的各种协议也相继出现,与此相对应,流量识别技术则日趋显示了其重要的作用和价值。传统的基于端口的流量识别方法和深层数据包检测(DPI)技术已经不能很好地完成识别的任务,当前基于机器学习的流量识别技术已经成为引领该领域研究的主流和方向[1]。网络流量识别本质上是根据网络数据包的特征将网络数据流分成已知的协议类别,而这正是一种典型的数据流分类的应用,那么必然地数据流分类面临的概念漂移检测问题在进行流量识别技术研究时也就需要慎重对待、深入考虑。近年来,关于数据流分类中概念漂移检测的研究已取得了不少的成果,但是各类方法在应对某种具体的数据流时却都具有一定的局限性[2]。本文结合实际网络环境中存在类别不平衡的情况,提出了更适用于网络流量识别的概念漂移检测方法。

1流量识别与概念漂移

概念漂移是数据流分类中的问题。作为一种具体的数据流,网络数据流当然也存在概念漂移的相关问题。

1.1流量识别中的概念漂移

以机器学习的角度来看,基于机器学习的网络流量识别技术实际上就是学习概念的过程[3]。识别的实现是通过在训练网络数据集内寻找其蕴含的协议分类规则(概念),由此得到网络流量识别器,进而识别测试网络数据包或者实际工作中到来的网络数据包的类别。

假定网络数据流D={…,di-1,di,di+1,…},其网络数据流中的协议类别C={C1,C2,…,Cn},t时刻,在训练网络数据集Dt上训练得到识别规则f:DtC,那么在t+1时刻就可以对dt+1网络数据包的协议类别预测为f(dt+1)。但是,如果网络数据流的隐藏背景在t时刻和t+1时刻发生了改变,引发了概念漂移,t+1时刻的实际识别规则已经是g:Dt+1C,且g≠f。也就是说,dt+1的真实协议类别是g(dt+1),因而利用原来的识别规则f预测的dt+1的协议类别即是不尽合理的。通过上面的论述可以看到,概念漂移对网络流量识别的影响,而正确的做法也就相应可得了。假定在t+t时刻发生了概念漂移,应该迅速检测出漂移的发生,然后重新训练识别器,得到正确的识别规则g,然后利用g来进行以后的网络数据包协议类别预测。

自适应的流量识别就是能够自主地检测到概念漂移的发生,而后再对分类器进行重新构建,以保证其对动态网络数据流的正确识别。

1.2检测方法分类

由于概念漂移的生成原因极其复杂,目前的检测方法都不是直接的,而只是间接的[4]。最为基础的有两个:

(1)可能导致概念漂移发生的原因;

(2)概念漂移发生后可能产生的结果。

前者称之为性质法,后者为性能法[5]。

性质法是指监测最新的网络数据集合的相关统计性质,如协议种类的分布、各数据包的特征分布等等。Alippi设计了不依赖先验信息而只需要数据分布模型的中心极限定理的概念漂移检测算法[6];Peter等提出了基于熵的概念漂移检测方法[7]。

性能法是指检测识别器最新的性能指标,如分类精度、召回率等等,如果分类器的性能指标出现较大波动,即说明发生了概念漂移。Widmer的FLORA算法依赖分类器的样本覆盖量和准确率决定窗口大小[8];Last等提出的OLIN算法[9]即根据误差率来判断概念漂移产生与否。

2概念漂移检测

上节阐述的两种概念漂移检测方法中,最经常使用的是基于性能监测的方法,但是却不适合类别不平衡的数据流环境。本节将会看到,网络流量环境中经常出现的类别不平衡现象对概念漂移检测的影响,同时结合这点,本文也提出了改进算法,以适应实际网络环境下的动态流量变化。

2.1检测算法原理

对于稳定的网络流量,其各个协议类别是大致服从同一概率函数分布的,但是,如果一个存在概念漂移的网络流量中,网络数据包协议类别的分布概率却会随着概念漂移的发生而相应改变。因此以观察协议类别的概率分布变化来检测网络流量是否发生概念漂移则不失为一个恰当稳妥的办法。根据贝叶斯理论知道,概率分布P(w/x) = P(x/w)P(w)/P(x)。当P(x)改变而P(x/w)不变时,也就是说之前不常出现的协议数据包开始大量出现了或者相反,此时发生的概念漂移就是渐变;当P(x)不变而P(x/w)发生改变时,这种概念漂移就是突变。通常,在一个网络数据流中多会同时存在这两种类型的概念漂移,且也很难进行有效区分,但是从检测概念漂移的目的来说,检测到概念漂移后即可对分类器进行重新构建,因此也就没有必要区分概念漂移的具体类型了。

网络数据流量是按照时间相依有序的离散的数据集合,流量识别实质上就是进行时间序列分析。粗略来看,如果只是简单的对网络流量进行时序分析,似乎忽略了数据流变量之间内存因果关系和结构关系的影响。但是实际上时序分析是从总体方面对网络流量进行考察,综合说明各种作用力的共同影响。当无法轻易获得所关心的各种纷繁因素时,就可以直接将时间t用作变量来代替各种因素。因此,概念漂移检测就可以将时间t引入到文中的检测模型内,从而完成整个算法。

综上,当将时间t作为变量引入检测模型后,再加上一定的协议类别变量,此时如果能够找到两个变量之间的关系问题,就能够得到概念漂移检测的解决方法。而统计学理论已有很多研究成果就是致力于探讨变量之间的关系,本文就从统计学理论中寻求概念漂移检测的方法。

2.1.1统计学理论——卡方检验

卡方检验是一种应用相当广泛的非参数统计理论,利用该理论,可以判定实际观察的概率分布是否发生了改变还是仅来自于理论误差。

网络数据包集合,函数ψ是数据包的某项特征变量Z的概率分布,而且满足条件(1):

P(Z=ci)=pi,s.t. Pi>0, ∑ni=1 pi=1(1)

变量ni代表监测到的网络流量数据集合中数据包协议类别为ci的数量,所有ni的和满足条件(2):

∑mi=1 ni=n(2)

已经知道,ni是监测值,再假定mi是理论值,则根据以上定义可得卡方值,如式(3):

χ2=∑ni=1(ni-mi)2mi(3)

综上可得,如果卡方值小于其临界值,函数ψ就是变量Z的最优拟合函数;相反,如果卡方值大于临界值,函数ψ就不再是变量Z的最优拟合函数。卡方的临界值取决于已验证得到的χ2统计理论表。

本文中,利用卡方值来检验连续两个网络流量的数据集合Di和Di+1是否发生了概念漂移。为了进一步阐述检测方法,先做如下两个假设。

(1)假定函数ψ已经满足于一个数据包集合的分布,然后验证其连续的下一个集合是否满足该条件;

(2)假定这个网络流量中只存在两种协议的数据包,即Http和Non-http。

根据上述假设,探讨分析可得如表1所示的连续两个网络流量的数据包集合Di和Di+1的类别分布,表1中变量c1, c2, c3, c4分别代表Http和Non-http在不同数据集合中的观察个数。根据这四个变量,就可以得到期望的两个数据包集合中的协议类别数c1,c2 ,c3 ,c4 ,具体如公式(4)、(5)、(6)、(7)所示。

计算得到卡方值后,再和临界值比较就能够判定函数ψ是否满足于Di+1,以此就可以判定概念漂移是否发生。

2.1.2类别不平衡与Fisher检验

χ2检验对2维表的各个协议类别的数量是有一定要求的,要求20%的协议类别数量不小于某个特定值。但是在真实的网络环境下,经常存在类别不平衡的流量,因此就无法满足χ2检验的要求,此时就只能应用Fisher精确检验。

同样,使用上小节的2*2表进行说明,先设几个变量:C1= c1 + c2,C2= c3 +c4,C3= c1 + c3,C4= c2 + c4,C = C1 + C2或C3 + C4 ,就可以得到p值,如式(9)所示,根据P{cij}来确定是否发生了概念漂移。

2.1.3检验步骤

根据概念漂移的检测原理和统计学理论,就可以利用χ2检验和Fisher检验来共同确定连续的两个数据包集合是否发生了概念漂移。具体步骤如下:

(1)建立零假说,即认为没有发生概念漂移;

(2)确定数据包集合之间的实际差异,即根据类别是否平衡,进行χ2检验或者Fisher检验;

(3)根据χ2检验或者Fisher检验的结果,和理论值进行比较。如果大于理论值,则拒绝零假说,即认为发生了概念漂移。

2.2概念漂移检测算法

通过上述的分析,本文接下来将给出一个利用统计学理论来检测概念漂移发生的方法。和已经存在的大部分概念漂移算法相比,该方法有两个显著的特征:第一,该方法属于显示探测概念漂移,因此其中含有单独的检测概念漂移发生的模块;第二,该方法结合网络流量识别的实际环境——经常存在类别不平衡的特性,利用集成学习的方法来适应动态的网络数据变化。当一个网络数据包集合到达以后,概念漂移检测模块就对其进行检测,检测是否有概念漂移发生,如果概念漂移发生了,检测模块就会告知流量识别器更新或者重构识别器,以保证流量识别器能够继续对其后的网络数据流进行准确识别。

算法CF_CDD旨在检测出动态变化的网络数据流中发生的概念漂移,一旦网络数据包数量达到合适的窗口大小,概念漂移模块就检测连续的两个网络数据包集合之间是否有概念漂移发生。CF_CDD (Di,Di-1)算法如下。

在如上算法中,第1步、第2步是分类器对数据包Di,Di-1进行分类,并统计了相应的样本数量,第3步判断协议类别是否出现了不平衡。若平衡,就进行χ2检验;不平衡,就是Fisher检验。最后,根据检验结果P和CONST的比较,判定是否发生了概念漂移。其中,CONST是根据自由度和置信度查表得来的界限。

2.3自适应流量识别

若要完成自适应的网络流量识别,就要有效地检测出概念漂移,再对分类器进行调整。本文采用集成学习来构建分类器,因而构建集成分类器的子分类器的机器学习算法就需要进行重点研究和专门讨论了。

2.3.1类别不平衡下的机器学习算法

网络数据流量中经常存在协议类别不平衡的情况,协议类别的分布对基于机器学习的流量识别技术有着不小的影响。因此,选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,即显得尤为重要[10]。

本文在实验与分析中,将几种典型的机器学习算法——决策树C4.5、NBK、SVM与提出的概念漂移检测算法结合后进行了对比,选取得到最能适应含有类别不平衡协议流的真实环境的算法,且算法性能良好。

2.3.2集成学习

算法TCEL_CF_CDD,利用权重集成分类器对到达的网络数据包进行分类,集成分类器的子分类器要根据概念漂移检测模块的结果进行调整、更新。

在上述算法的第4步中,基分类器的构建过程中采用的是一种常用的机器学习算法,本文将通过实验来选择出实验真实环境的算法;第4-6步是集成分类器的构建过程,当变量Num等于Max时,标志着集成分类器构造完成;而后在第8-11步中定义基分类器在相应的数据集上的准确性;第12步是对各子分类器权重进行规格化;第13步表明了在本课题中为了充分利用样本信息,对每组样本均采用了先测试、后训练的策略;第14步是调用CF_CDD算法来检测连续的两个样本网络数据包集合之间是否发生了概念漂移,如果发生了概念漂移就要在最新的样本数据集中构建最新的基分类器,并用构建出来的新分类器替换已经存在的基分类器中表现最差的那个;第19步是在调整子分类器后,对各分类器的权重进行调整。

3实验与分析

本文利用已经捕获的几个网络数据包集合来模拟网络流量,将数据包按捕获的时间进行顺序排列,并用实现的算法对其进行分类识别。本文的算法是在MOA平台上实现的,MOA是一个典型的利用WEKA实现的数据流分析软件。

3.1机器学习算法的比较

将三种典型的机器学习算法——决策树C4.5、NBK、SVM与本文提出的概念漂移检测算法CF_CDD结合,分别构造识别器,利用模拟的网络流量的第一个数据包集合作为训练集,并且对后续的五个数据包集合进行分类,以测试不同的机器学习算法对识别精确性的影响,其结果如表2所示。从表2中可以看到:NBK的精确度明显不高,而且也有随时间下降的趋势;决策树C4.5和SVM相比NBK则有不错且相对稳定的精确度,适合提出的概念漂移检测算法。

C4.5和SVM虽然都有不错的精确度,但是因为知道SVM的建模时间相对C4.5来说耗时更长,再结合处理概念漂移检测的实际特点——需要经常调整分类器,因而此处不难得出结论:决策树C4.5与本文提出的对概念漂移检测算法CF_CDD结合进行网络流量识别更能够自适应地处理实际网络环境中的概念漂移问题。

3.2漂移检测算法的比较

一般的数据流中,检测概念漂移的算法是基于误差率的,利用对分类器误差率的监测来判定是否发生了概念漂移。本实验就对基于误差率(Error_CDD)和本文提出的基于统计学检验(CF_CDD)的两种概念漂移的算法在模拟的网络流量识别的精度进行了对比,对比结果如图1所示。

从图1中可以看到,当有类别不平衡的协议类别时,Error_CDD的识别精度大幅度下降,验证了之前提到的性能法不适合于类别不平衡的网络数据流量识别,而本文提出的CF_CDD算法却有良好的稳定性,也说明本文提出的算法能够很好地适应类别不平衡现象。

4结束语

本文对流量识别中的概念漂移进行了深入研究,主要分析了漂移检测原理,并结合真实网络环境中存在的类别不平衡的特点,提出了基于统计学理论的概念漂移检测算法,在检测算法的基础上提出了利用集成学习来完成自适应的流量识别,最后的实验证明了本文提出的算法的可行性和可靠性。当然,数据流概念漂移的问题还有很多,建议其后的主要研究方向就是类似本文这样针对某种具体数据流的特点进行详细的分析。

参考文献:

[1]王耀南,张莹.基于可信多数投票的快速概念漂移检测[J].湖南大学学报(自然科学版), 2010, 37(6): 36-40.

[2]GUAN Jinghua, LIU Dayou. Selected ensemble of classifiers for handling concept-drifting data streams[J]. Computer Science, 2010,37(1):204-207.

[3]王涛,李舟军,颜跃进,等.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11): 1809-1815.

[4]SUN Yue, MAO Guojun, LIU Xu. Mining concept drifts from data streams based on multi-classifiers[J]. Acta Automatica Sinica, 2008, 34(1): 93-97.

[5]文益民.概念漂移数据流分类研究综述[J].智能系统学报, 2012,7(6):1-10.

[6]ALIPPI C, BORACCHI G, ROVERI M. An effective just-in-time adaptive classifier for gradual concept drifts[C]//Proceedings of the 2011 International Joint Conference on Neural Networks. San Jose, USA, 2011: 1675-1681.

[7]PETER V, ABRANHAM B. Entropy-based concept drift detection[C]//Proceedings of the 6th International Conference on Data Mining. Hong Kong, China, 2006: 1113-1118.

[8]WIDMER G, KUBAT M. Effective learning in dynamic environments by explicit context tracking[C]//Proceedings of the Sixth European Conference on Machine Learning. Vienna, Austria, 2003: 69-101.