设为首页 加入收藏
   
     
   
科技•信息
 
探索基于时间序列的网络流量分析与预测
双击自动滚屏 发布者:admin 时间:2011-2-25 17:26:39 阅读:324次 【字体:

探索基于时间序列的网络流量分析与预测

 

  摘 要
  随着计算机网络的迅速发展,目前的网络规模越来越庞大和复杂,相应面临对网络有效管理的要求就越来越高。本文通过对CERNET(China Education and Research Network)上某个端口的网络流量数据的统计分析,给出了一种用时间序列的方法对流量数据进行模拟仿真,从而达到对网络流量的控制和预测以便提高对网络服务的质量。
  
  关键词:网络流量,ARIMA模型,平稳,差分,预测
  
  1. 引言
  
  随着计算机网络的迅速发展,目前的网络规模越来越庞大和复杂,这也就意味网络服务越容易出现问题,网络的性能就越容易受到影响。由此,为了给用户提供优质的服务,对网络的维护和管理显得尤为重要,于是设计和建立一个合理的网络流量模型来对网络设计和性能评估都起着十分重要的作用。
  
  由于Internet的多构性、异构性及网络行为的高突发连续性使传统的马尔可夫模型、普阿松模型已不适用于Internet的流量描述与预测[1]。由于网络流量数据是随时间变化的数据,因此我们可以把网络流量数据看成一个时间序列,用时间序列的方法对流量数据进行建模。时间序列有平稳时间序列和非平稳时间序列。其中平稳时间序列有三种重要的形式,即AR序列、MA序列、ARMA序列。非平稳序列方面,可以用ARIMA序列来刻画。实际计算表明,许多常见的时间序列皆可用ARIMA序列表示,从数学模型的角度,它们都可近似地归到ARIMA序列中去。
  
  ARIMA模型是建立在马尔可夫随机过程上的基础上,它反映了动态的特点,即吸取了回归分析的优点又发扬了移动平均的长处。它根据数据序列的自相关函数和偏相关函数建立起线性数据间的定量模型,因而它反映了现在活动和过去活动的本质联系;另外ARIMA模型在预测精度方面,对噪声进行了分析处理,只剩下当时和与历史无关的白噪声,使其生成线性模型的最优预测。该模型对噪声的详细分析和处理不仅让我们得到线性的最优预测,而且可以得到在不同概率情况下的准确边界。同时该模型对噪声概率分布的研究,使我们知道在各种概率情况下出现偏差的大小,这也很好的处理了随机的干扰问题。所以时间序列模型被广泛的运用在经济、通信、气象、运输等各种工程领域里面。
  
  2. 关于ARIMA序列的介绍
  
  2.1 模型的描述
  
  在许多实际问题中,所观测到的样本数据序列{Xt,t=0,1,2,…}常不是平稳序列,但如果将其做d次有限次差分处理,则差分序列是平稳序列,那么可用平稳序列模型来做研究[2]。
  
  定义:设d是非负整数,称{Xt}是ARIMA(p,d,q)序列,如其中和是两个分别次数为p和q的特征多项式,p和q都是正整数,表达式分别为)(BΦ)(BΘB是延迟算子,有为d阶差分算子,有tε为高斯白噪声序列,服从WN(0,σ2)分布。
  
  2.2 模型的参数估计
  
  对某一满足ARIMA(p,d,q)模型的样本数据序列{Xt,t=0,1,2,…}进行d次差分后,差分算子阶数d通常取0或1,一般不超过2可得到平稳ARMA(p,q)序列[2],数据平稳化过后,可以用ARMA模型的参数估计方法对处理后的数据进行建模。
  
  在建立ARMA模型时,首先要进行模型初识别,可以根据平稳化后数据的自相关函数和偏相关函数的拖尾性或截尾性来判断模型类别;然后定阶可以采用AIC信息准则;最后对采取模型中的参数进行估计,可以采用常用的最小二乘估计和极大似然估计等估计方法。
  
  模型建立后就是对模型进行检验,可以采用统计检验法来检验拟合模型的残差是否为白噪声,如果是,模型通过考核,否则从新对模型进行识别估计[3]。
  
  3. 模型建立与预测
  
  3.1 数据的预处理
  
  对CERNET的某个端口的流量数据进行采样,收集了3周的数据,数据时间间隔为2个小时,则观察数据为{Xt,t=0,1,2,…252}。在排队论系统中,由于测量的方差会随均值的增大而增大,这样的测量值不能模型化为一种标准正态随机变量,而取对数是减少标准差的一种有效技术,因此对观测值先取对数,变换后的序列为Vt=lnXt变化率随Xt的增加而增加[4]。
  
  画出Vt的序列观察图(如图1),它直观反映了Xt的变化情况,并明显发现这个序列具有周期性,周期为12个单位,按每个单位是2个小时,正好周期为一天。根据观测数据的工程背景,也很容易得出这个结论,网络流量是按天为单位成周期的变化,如果考虑复杂一点,还有以周、季度甚至有可能以年为周期变化的规律,由于这里观测数据只有3周,所以只能考虑以天为周期的情况。图2是Vt序列的自相关函数图,它更进一步描述了网络流量的特征。从该图可以看到自相关函数也有明显得周期性,其周期正好是观察数据的周期,并且随时滞增加,自相关函数下降趋势缓慢,说明观测数据是非平稳数据,需要对数据进行平稳化处理。由于观测数据的周期为12,则先用步长为12的差分算子对Vt序列进行差分来消除周期项,然后再对处理后的数据进行一阶差分使数据接或达到平稳。令预处理后的数据序列为Yt(如右图3),则表达式为
  
  3.2 建立ARMA模型
  
  从图3可以看出观察数据经过预处理后,残余序列Yt即没有明显的周期性,也没有线性趋势,下面分析该序列的自相关函数和偏相关函数图,如下:
  
  从图4和图5也可以看出Yt的自相关函数和偏相关函数都有明显的下降趋势,可以认为序列平稳。因此对预处理后的数据可以建立ARMA(p,q)模型。
  
  对模型阶p和q的估计,采用AIC信息准则,用SAS数据处理软件对如下所选模型表达式进行计算:模型1:
  
  模型1-3的AIC信息分别是:-162.979、-162.41和-162.769。由此根据AIC信息准则,选取模型1进行建模。用最小二乘估计法计算出模型1的估计参数,得到模型如下:
  
  其中模型残差序列tε的服从正态分布:WN(0.028966,0.1701942)
  
  3.3 模型的预测
  
  对所建立的模型进行检验,用SAS软件对模型参数进行估计后,其模型的残余量用统计检验,可以认为该模型的残余量是白噪声,所以该模型通过考核。由于篇幅的原因,这里不进行详细叙述。2χ下面用所建立的模型来进行预测。根据所建立的模型对未来一天的网络流量进行预测,预测效果图如图6,实线是实际观测值,虚线是模型预测值,从图中可以直观的看到模型能很好对真是网络流量进行模拟仿真,并对未来的预测也可以达到比较精确的预测效果。
  
  4. 结束语
  
  近些年来,关于网络流量的建模研究日益引起人们的极大关注。目前,国内外在这方面的研究主要集中在小波领域,用小波分析网络流量的自相似特征,在微观上研究网络流量的特征。通过分析,可以看出一个具有成长性、非平稳性的大尺度网络综合业务量数据序列,经过取自然对数,剔除趋势项后得到一个短时相关的随机信号序列,而人们对于短时相关序列的研究是非常成熟和完善的,因此通过该方法可以得到较为精确的宏观网络综合业务量的预测模型。用ARIMA模型分析网络流量可以从宏观上把握Internet的发展轨迹、成长趋势以及在一定尺度下的流量特征。本文就是基于这种模型对网络流量进行模拟仿真,并且该模型可以实时的对未来流量进行预报,提高网络管理员对网络监控管理的效率,从而达到提高了网络服务质量的最终目的。

上一篇|下一篇

 相关评论

暂无评论

 发表评论
 昵称:
 评论内容:
 验证码:
  
打印本页 || 关闭窗口
 
 

咨询电话: 13891856539  欢迎投稿:gmlwfbzx@163.com  gmlwfb@163.com
617765117  243223901(发表)  741156950(论文写作指导)63777606     13891856539   (同微信)

All rights reserved 版权所有 光明论文发表中心 公司地址:西安市碑林区南大街169号-6
CopyRight ©  2006-2009  All Rights Reserved.


  制作维护:中联世纪  网站管理
访问 人次
国家信息产业部ICP备案:陕ICP备17019044号-1 网监备案号:XA12993