您好,欢迎来到画鸵萌宠网。
搜索
您的当前位置:首页基于聚类与分类混合算法的应用研究

基于聚类与分类混合算法的应用研究

来源:画鸵萌宠网
2011年9月 广西师范学院学报:自然科学版 Journal of Guangxi Teachers Education University:Natural Science Edition Sep.2011 VOI.28 NO.3 第28卷第3期 文章编号:1002—8743(2011)03—0082—06 基于聚类与分类混合算法的应用研究 谢雄程,刘之家 (广西师范学院计算机与信息工程学院,广西南宁530001) 摘 要:虽然聚类与分类算法的研究应用已很普遍,但在入侵检测领域把二者结合起来进行研究分析的情况 并不普遍,因此,提出了一个分层的聚类与分类算法混合模型,并通过K—Means聚类算法、改进的差分进化算法与 最近相邻分类算法为例对入侵数据集样本进行聚类与分类,最后得出有效的实验结果。 关键词:聚类;Kmeans算法;差分进化;人侵检测 中图分类号:TP393 文献标识码:A World Wide web(www)经过多年的发展,许多与之相关的研究领域也随之产生,但伴随而来的则 是无数的安全威胁问题。对Website的入侵是许多网络入侵威胁中的一种,入侵行为的特点表现为在 网络中异常、不正确、不恰当的事件发生。这里的异常指的是对网络主机非法访问,即违反主机访问策 略的事件行为。因此,网络安全受到越来越大的关注。为了防止这种网络的非法访问的行为,用于检测 各种入侵行为的入侵检测系统就应运而生了。 本文的研究目的是在基于入侵数据的基础上找到一种能自动建立分类并用于分析入侵行为的方 法。具体解决的问题是如何构造K—means算法、改进的差分进化算法与最近相邻算法(KNN)相结合 的实验模型。 1 基本理论 1.1 入侵检测系统(IDS) 入侵检测就是对入侵行为的发觉。它通过对计算机网络或计算机系统中得若干关键点进行信息收 集并对其分析,从中发现是否有违反安全策略的行为和被攻击的迹象。进行人侵检测的软件与硬件的 组合便是入侵检测系统(Intrusion Detection System,简称IDS)n],它的功能就是察觉那些尝试访问网络 的非法行为。目前常用的入侵检测系统有Snort与Sourcefire。 对于网络中存在的大量的入侵行为,入侵检测系统应能记住那些新的攻击行为特征,而对入侵数据 进行分析则能帮助IDS找到这些最新攻击行为的特征,常用的分析技术有数据挖掘技术中的聚类算法 与分类算法。 1.2聚类算法 聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似 度,不同类之间的对象差别较大,它是模式识别中一种常用的方法。聚类算法应用于网络入侵检测系统 中,可以将网络流量样本集中的正常流量和异常流量区分开来。 聚类的基本要素包括: (1)定义数据之间的相似度; 收稿日期:201l一07—20 作者简介:谢雄程(1972一 ),男,讲师,主要研究:网络安全技术(xxcheng@163.corn) 第3期 谢雄程,等:基于聚类与分类混合算法的应用研究 ・83・ (2)聚类有效性函数(停止判别条件):在聚类算法的不同阶段会得到不同的类别划分,可以通过聚 类有效性函数来判断多个划分结果中哪个是有效的;使用有效性函数作为算法停止的判断条件,当类别 划分结果达到聚类有效性函数时即可停止算法的运行; (3)类别划分策略:通过何种类别划分方式使类别划分结果达到有效性函数。 聚类有效性函数包括的要素: (1)最小误差(J C个类别,待聚类数据z, ,为类别C,的中心 =z∈C ∑x/C , =∑ z∈W(k) 一 『 f式中J 越小聚类结果越好,J 衡量属于不同类别的数据与类别中心的误差和。 (2)最小方差丽, 是衡量同一类别内数据的平均误差和。 = ‘ ∑∑ ∈【I∈U一 } f2] l £ 1.2.1 K—means聚类算法 K—means_2 算法的基本思想是,以k为参数,把 个对象划分成C个簇。以使簇内具有较高的相 似度,而簇间的相似度较低。相似度的计算根据簇的重心,其值用簇中各对象的平均值来计算。首先从 数据集中随机选取C个点作为初始聚类中心,然后对剩余的每个对象,根据其与各个簇中心的距离, 将它赋予最近的簇。重新计算每个簇的平均值来找簇的重心,如此反复,直到准则函数收敛为止。通 常采用平方误差准则,其定义为式3]。 c J=∑∑ 一 f『 3] 其中,J:1,2,…,c;优,是c个聚类的中心,它的值为簇c 的均值,即: 1 优,= ,4] K—means算法的处理过程: (1)从 个数据对象集{ , ,…,-z }中随机选取k个对象{Y ,Y ,…, }为初始聚类中心; (2)计算各对象到中心对象的距离,并根据最小距离重新划分,距离可按5]计算: 厂 ———————一 d“=√∑( 一 ) 5] 其中d 为欧氏距离,表示对象i与对象J之间的跑离。 (3)更新簇的平均值,即计算每个簇中对象的平均值; (4)循环(2)到(3),直到每个聚类不再发生变化时算法结束。 从算法流程不难看出,该算法得到的聚类结果受初始时聚类中心对象的选取的影响很大,随机选 取的不同的初始值可能导致不同的聚类结果,甚至可能出现得不到有意义的聚类结果的情况。另外, 由于该算法是采取梯度法求解极值,而梯度法的搜索方向是沿能量减小的方向进行的,所以得到的结 果往往是局部最优而非全局最优。 1.2.2差分进化算法 差分进化算法 。 的基本思想是:首先在问题的可行解空间随机初始化种群,使当前种群父代个体 间的差分矢量构成变异算子,接着按照一定的概率,父代个体与变异个体进行交叉,生成试验个体,然后 在父代个体与试验个体之间根据适应度的大小进行选择,选择适应度更优的个体作为子代。具体的数 学定义式如下所述: 设参数界限z ≤ ≤-z ,J=1,2,…,D,其D是解空间的维数,.z 、z U分别表示第J个分量 取 值范围的上界和下界。算法流程如下: (1)初始化种群。初始种群{ (0)I x ≤z (0)≤z ,J=1,2,…,NP; =1,2,…,D}}随机产 ・84・ 广西师范学院学报:自然科学版 第28卷 生: z (0)=_z L 十rand(0,1)(z 一z ) 6] 其中z (0)表示种群中第0代的第i条“染色体”(或个体),aT. (0)表示第0代的第i条“染色体”的第J 个“基因”。NP表示种群大小,rand(0,1)表示在区间均匀分布的随机数。 (2)变异操作.DE通过差分策略实现个体变异,常见的差分策略是随机选取种群中两个不同的个 体,将其向量差缩放后与待变异个体进行向量合成,即: (g+1)=z I(g)+F(z,2(g)一z 3(g)), ≠r1≠r2≠r3 式中F为缩放因子,z (g)表示第g代种群中第i个个体。 在进化过程中,为了保证解的有效性,必须判断“染色体”中各“基因”是否满足边界条件,如果不满 足边界条件,则“基因”用与初始种群相同的产生方法重新生成。 7] 第g代种群{50 (g)l zL ≤z (g)≤z U,i=1,2,…,NP; =1,2,…,D}通过变异后,产生一个中 间体{ (g+1)I L, ≤ ,, (g+1)≤ ,U, ,i=1,2,…,NP; =1,2,…,D}。 (3)交叉操作.对第g代种群{37。(g)}及其变异的中间体{73 (g+1)}进行个体间的交叉操作: , 、 “ (g+1)=  I,if rand(0,1)≤CR or J=j .,、 、 . 8j lIz…Lg ,otherwise 式中CR为交叉概率,J 为[1,2,…,D]的随机整数。 (4)选择操作.DE采用贪婪算法来选择进入下一代种群的个体: f“ (g+1),if f(“ (g+1))≤f(z (g)) oZ" (g+1){ ,、 . . , 、IXi Lg ,otherwise , 9 J 由于选择作用的影响,进化代数的增加,个体间的差异会逐渐降低,这又会影响变异所带来的多样 性,从而导致算法过早收敛到局部极值附近时,形成早熟收敛现象。经过十几年的研究,DE算法得到 了较大发展,出现了很多改进的DE算法,主要包含以下几个方面: 控制参数的改进、差分策略的改进、选择策略的改进等。本文提出的分层的聚类与分类算法混合模 型中采用的是改进的差分进化算法。 1.3分类算法 分类是一种重要的数据挖掘技术,可用于预测,在生物与金融领域应用较广。分类的目的是根据数 据集的特点构造一个分类函数或分类模型,该模型能把未知类别的样本映射到给定类别中的某一个。 1.3.1分类的原理 构造模型的过程一般分为训练和测试两个阶段。在构造模型之前,要求将数据集随机地分为训练 数据集和测试数据集。在训练阶段,使用训练数据集,通过分析由属性描述的数据库元组来构造模型, 假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组 也称作训练样本,由于提供了每个训练样本的类标号,该阶段也称为有指导的学习,通常,模型用分类规 则、判定树或数学公式的形式提供。在测试阶段,使用测试数据集来评估模型的分类准确率,如果认为 模型的准确率可以接受,就可以用该模型对其它数据元组进行分类。一般来说,测试阶段的代价远远低 于训练阶段。常用的分类算法有K—Nearest Neighbor算法、决策树、支持向量机(SVM)。 1.3.2 K—Nearest neighbor(KNN) K最近相邻(k—Nearest Neighbor,KNN) 分类算法的原理是:如果一个样本在特征空间中的k个 最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选的邻居都是 已经正确分类的对象,该算法在类别决策上只依据最邻近的一个或者几个样本的类别来决定待分样本 所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有 关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此 对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。KNN算法描述如下: (1)选定最近邻居的数量定义为K; ・86・ 广西师范学院学报:自然科学版 第28卷 据分两种,第一种是有类标号的样本数据,第二种则是随机的无类标号的样本数据。 聚类与分类主要是对TCP连接的8个属性进行,这8个属性值见表1。 表1属性选择表 属性 .描述 m-百 一 {8 {8 连接持续时间 协议类型 h m 目标主机的网络服务类型 连接正常或错误的状态 从源主机到目标主机的数据的字节数 从目标主机到源主机的数据的字节数 连接端口的标志 错误分段的数量 测试用的仿真环境为Matlab2009b,样本数据集分别用K—means和改进的差分进化算法进行聚类。 Kmeans算法中K值取10,改进的差分进化算法中种群数取NP=30,比率系数F取0.5,交配系数CR 取0.8,交叉策略strategy采用DE/rand/l/bin与DE/best/l/bin两者相结合的交叉选择策略,判定入侵数 据的阈值取O.8。实验结果见表2、表3。 表2有类标号的聚类性能表 聚类算法 K—means 5-nearest neighbor 97.2% 改进的差分进化算法 95.1% K—means 86.2% 72.1% 改进的差分进化算法 在实验结果中,K最近相邻算法中K值取5时能获得较高的聚类准确率。对于有类标号的样本数 据,基于K—means聚类算法的KNN分类仅仅出现不到3%的误分类情形。再对比表2与表3,在采用 的两种聚类算法的KNN分类中,有类标号的样本数据比无类标号的随机样本数据有更好的分类准确 率,原因就是前者样本数据中有类标号,而后者是随机的而且没有类标号的样本数据。 4结 语 实验中用到的数据有些是重叠的,不同类标号的数据集聚类时可能会分组到同一簇当中。K— means聚类算法使用的是线性方程,对于如KDD CUP99这类的没有分隔好的数据集,它不能自身创建 簇群,尽管与差分进化算法相比它能生成较好的聚类效果。未来的工作是如何进一步优化聚类的效果, 这可能会用到多项式与高斯方程将数据集映射到较高的维数进行处理。非线性方法也许更适合于解决 聚类时遇到重叠数据的难题。 参考文献: [1]SANG KYUN NOH,YONG MIN KIM,DONG KOOK KIM,et a1.Network Anomaly Detection Based on C1ustering of Sequence Patterns[J].Computer Science,2006(3981):349.358. [2]HUY ANH NGUYEN,DEOKJAI CHOI.Application of Data Mining to Network Instrusi。n Detection:Classifier Se1ec tion Model[J].Lecture Notes in Computer Science,2008(5):399—408. [3]STORN R,PRICE K.Diferential Evolution--A Simple and Efficient Heuristic for Global Optimization OVer OntCinuous Spaces[J].Journal of Global Optimization,1997,11(4):341—359. 第3期 谢雄程,等:基于聚类与分类混合算法的应用研究 ・87・ STORN R,PRICE K.Differential Evolution--A Simple and Efficient Adaptive Scheme for Global Optimization over Con. tinuous Spaces[R].Technical Report,TH一95—012,Berkeley,USA:University of Galifornia.International omputCer ciS— ence Institute,1995. ADETUNMBI,A 0,FAI AKI,S 0,ADEWALE,0 S,&ALESE,B K(2006).Network Intrusion Deteetion Based on Rough Set and K—Nearste Nei ghbouKJ].International Journal of omputCing and ICT Research,2008,2(1):60.66. University of California.KDD CUP 1999 data[OL/EB].Available at http://kdd.ics.usi.edu/database/kddcup99.diakses terakhir tanggal 27 October 2009. Applicative Research of Mixed Algorithm Based on Layered Clustering and Classification XIE Xiong—cheng,LIU Zhi—jia (College of Computer&Information Engineering.Guangxi Teachers Education University,Nanning 530001,China) Abstract:Although application of clustering and classification algorithms is very wide,the research for both in combination is limited in the field of intrusion detection.Therefore,a model of lavered clustering and classification algorithm is presented and those examples of intrusion detection data are clustered and classed for K Means algorithm,improved differential evolution algorithm and K nearest neighbor algo— rithm.And finally the effective experiment results are obtained. Key words:clustering;K Means algorithm;differential evolution;IDS [责任编辑:黄天放] 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务