文/林波
随着宽带网络规模迅速扩大,网络应用不断丰富,网管对提高网络管理能力及网络安全水平的要求也不断提高,因此网络流量分析技术日益重要,本文从数据抽样、流量分类和基于统计学习的流量分析这三个方面进行阐述。
【关键词】流量 分析 抽样 分类 统计
路由器、交换机、宽带接入服务器是构成宽带网络的主要网络设备,一般数据网管系统可以看到每一台设备的CPU、内存、端口流量、路由数据库等网络信息,但这些流量是怎样构成的,会对网络产生怎样的影响,我们无从知晓。对宽带网络流量的深入分析,使网络设备流量监控系统可以监测的数据包括:网络流量构成分析、使用的协议、系统负载、端口分布情况、数据应用统计、数据安全性、发送时间等。网络流量分析应用可以接收来自网络的各种信息,通过对这些数据的分析,网络管理员可以深入了解网络当前的运行状况。下面从几个方面对宽带网络流量分析方法进行探讨:
1 数据抽样
抽样是指从原始数据集中按一定原则抽取部分实例,构成数据子集作为观察对象。抽样的目的是为了代表原始数据集特性的较小的数据集上获得对原始数据集特性的推断。数据抽样的方法包括简单随机抽样,即按照1/k 的频率,随机进行抽样;系统抽样按数据包生成的时间顺序,在抽取第一个数据包后,每隔k个包抽取一个包;分层抽样可对标注过的每类应用采用简单随机抽样或系统抽样方式抽取数据包;集群抽样可从多个子数据集中再随机抽取若干个子数据集。为对数据分布进行准确的分析,要用到几个简单的度量指标,包括算数平均值Mean、算数和S、计数C、最小值Min、最大值Max、极差Ed、中列数Mr、第一个四分位数Q1、第三个四分位数Q3、中位数Median、众数Mode、离群点Outlier 等。设n 个排序后的观察:
另外,众数是指数据集中出现频率最高的数;离群点有时又称为歧异值,通常是指数据集中与数据一般行为不一样的样本。
2 流量分类
网络流量分类是依据网络应用协议对应的某些参数或特征,自动将网络流量分成不同流量种类的过程。流量分类一般指将网络流量分为多类,如果是二类分类,则可以使用流量检测、流量识别、流量鉴别等方法。从网络流量分类针对的目标粒度,由细到粗又可以进一步分为包级(packer-level) 、流级(flow-level) 和会话级(session-level)。包级分类基于网络数据包所具有的特征,如包长、包到达间隔时间等,对每个数据包进行分类;流级分类基于五元组( 源IP 地址、源端口号、目的IP 地址、目的端口号和协议) 进行分类,除关注包级特征外,通常会进一步考虑流级得指纹特征,统计特征或行为特征;会话级分类基于三元组( 源IP 地址、目的IP 地址和协议)进行分类,适用于简单网络服务环境的流量粗分类。
基于DPI( 深度包检测) 的流量分类方法通过分析特定应用在通信过程中的传输协议特征串实现流量分类,DPI 一般是在应用层内容搜索特征串,如BitTorrent 的某个TCP 数据包中包含特征串”0x13BitTorrent”。在基于载荷进行DPI 的流量分类中,DPI 流量分类需要解决如下几个问题:非标应用和私有协议越来越多,它们多缺乏公开可用的协议规范,导致特征串难找易变;某些特征模式的代表性较差,仅能匹配到部分流量,导致检全率较低;随机加密流可能匹配若干模式,导致误检率较高;基于协议语法或数据语义分析需要进行大量计算,导致系统时间和空间开销较大。
3 基于统计学习的流量分析
基于统计学习的流量分析方法通过计算特定应用流量的统计信息,利用各种机器学习算法,包括有监督学习算法和无监督学习算法,对捕获的网络数据包进行鉴别。基于机器学习的网络流量分类通常包含三个步骤:统计特性抽取,单包特征如包长,复合流统计如均值或标准偏差;分类器构造及训练;新流量分类。基于机器学习的流量分类方法面临以下几个方面的问题:难以确定最有效的特征集,既要选择最佳的n 个特征,使分类算法得到最大的分类准确率,同时要求n 的值最小;高维特征导致某些算法收敛时间长,计算复杂性较高,若仅参考从数据包头导出的分类特征,如果每个流用于抽取特征的包数为n,则收集每个特征的计算成本将接近n.log2n;某些算法模型可能陷入局部最优;分类准确率高度依赖于样本的先验概率,而训练和测试样本对某类流量可能是有偏样本。
4 总结
宽带网络流量分析是网络运营管理,网络发展规划,网络流量调度和高效能业务前瞻的依据。网络流量分析也是网络攻击和恶意代码检测以及流量清洗的重要手段。随着宽带网络流量的快速增长,骨干网体系架构不断演进、扁平化、网状化、动态自适应成为网络发展的趋势,宽带网络流量分析再次面临巨大挑战,包括:高速网络数据实时无损采集、单向流、协议私有化、加密、P2P、隧道传输、缺乏可信数据集和评估标准,网络流量分析研究工作仍然需要不断深入与创新。
参考文献
[1] ( 美) Nader F.Mir, 潘淑文 等译,计算机与通信网络,中国电力出版社,2010.01.
[2] 余浩,徐明伟,P2P 流检测技术研究综述,清华大学学报,2009Vol 49.
[3] 彭芸,刘琼,Internet 流分类方法的比较研究,计算机科学,2007Vol134.
[4] 汪立东,钱丽萍,网络流量分类方法与实践,人民邮电出版社,2013.
作者单位
济南市联通公司 山东省济南市 250002__