您好,欢迎来到画鸵萌宠网。
搜索
您的当前位置:首页基于趋势性度量的有序聚类方法探讨

基于趋势性度量的有序聚类方法探讨

来源:画鸵萌宠网
第35 卷第3 期Vol35!No3统计与信息论坛

Statistics & Information Forum2020 年3 月Mar. , 2020【统计理论与方法】基于趋势性度量的有序聚类方法探讨何韩吉a,邓光明a!(桂林理工大学a.理学院'.应用统计研究所,广西桂林1004)摘要:在有序聚类分析方法的研究中,针对原有方法中对时序的趋势性特征体现不够和一些趋势性特征方

法计算复杂度较高的问题,对类的直径度量进行了改进,在类的直径度量中,提出了基于斜率滑动均值的有序聚 类方法:首先对有序样本中的邻近点计算相互之间的斜率,对新的斜率序列进行滑动平均,将之结果定义为类的 直径,最终实现趋势性度量的有序聚类*模拟与实证结果显示,考虑了趋势性度量的有序聚类方法,对波动性序

列的趋势性具有更好的分辨能力,且降低了计算的复杂程度,能够提高有序样本聚类的准确性。关键词:有序聚类;斜率;趋势性特征;波动性数据中图分类号:C812 文献标志码:A 文章编号:1007 —3116(2020)03 —0009 —05一、引言在常用的聚类方法中,系统聚类、K均值聚类

有序聚类进行分类,结果显示出良好的应用前景囚* 符璐等建立了以F统计量为基础的有序样本分类

方法,测度空气质量影响因子影响程度的变化,从而 评价治理环境的效应囚。陈远中等通过趋势性 特征引入了突变点,将突变点应用到有序聚类中,从 而能够根据突变点对有序样本进行划分,但其方法

均运用于无序样本,即样本的地位是彼此的。 而有序聚类则是对有序样本本身进行聚类,即样本 的次序是有一定关联的*因此!在实际应用中!对于

样本次序不能变动的情况,催生了有序样本的聚类 问题*有序聚类是研究对有序样本进行分类的一种 统计方法,在多学科、多领域有着广泛的应用有

的计算复杂度增加⑷* Li等在水文过程预测中,为 了有效地提取相关特征,将有序聚类方法用于频谱

分类,从而提高了预测的精确性囚* Kashida等将

序聚类算法能够比较成功地对有序样本进行一定的

聚类,但是由于数据受时间的影响较大,需要对时序

甲基红染料共价结合到双链DNA中来进行有序聚 类,发现甲基红团簇的光谱特征囚*二是将现有的 有序聚类方法推广到数据的情况中*如严广松 等对数据进行压缩,变成一维数据,提出了投影

数据的趋势性进行考虑,提取趋势性特征对有序样 本进行划分。然而,针对有序聚类的研究较少,基于 趋势性特征的有序聚类研究更少。寻踪方法、综合评判法和主成分分析法进行一维压

国内外学者基于有序聚类分析方法在多方面进 缩;将系统聚类应用在有序样本聚类上,经过系统聚 类的迭代计算获得最终的有序样本聚类结果7 *任 娟等提出了多指标面板数据融合聚类分析方法,具

行了相关应用和理论探索。目前来看,对于有序聚 类的研究主要包含以下两个方面*一是对有序聚类 方法在其他领域的一些应用!包括在其他领域的有

体是由因子分析提取信息,使用系统聚类法确定分 类情况,通过有序聚类对样本进行动态分析和揭示

序聚类分析和通过有序聚类思想进行一些探索性分

析。如杨毅等针对有序的面板数据时间尺度的维度 问题,用主成分分析处理为一维数据,并进一步通过

收稿日期\"019 — 09 — 16类的演变进程:8-9] *现有的有序聚类分析研究主要存在两个问题*基金项目:国家社会科学基金项目“空间定位抽样技术在民族地区经济调查中的理论及应用研究\"(13BTJ009);国家自然

科学基金项目“快速贝叶斯随机波动建模及其在金融市场中的应用研究$(71963008)作者简介:何韩吉,男,江苏扬州人,硕士生,研究方向:应用统计;邓光明,男,湖北黄石人,硕士,教授,研究方向:应用统计*9统计与信息论坛一是对数据的特征体现不够。一般方法中所使用的 推公式为:.[J

类直径度量为平均法,因此会将均值差异较小的样 本均为一类,从而忽略了数值变化的正负效应,即趋

+(”,2), % min {D(1, — 1) +D(,”)02&&”].[+(”,), % min {L[+( — 1,k 一 1), + <(,”)}势性。二是基于趋势性改进的方法计算复杂度高。 现有的方法中定义了突变点这个度量!计算的复杂度 与平均法相比增加不少!且会在聚类过程中过度突出 突变点,从而导致突变点单独成类的风险。本文通过 构建基于邻近点斜率的度量方法,计算斜率间的均

4)(二)改进类的直径针对样本均值类直径的度量,会导致在一些时序 中,聚类结果偏向于极值点,从而不能很好地反映序

值,简化了计算复杂度,加强了趋势性度量的重要性, 提出了更加突出趋势性的有序聚类分析方法。列的趋势情况。所以,本文提出了基于序列斜率的类

直径计算方法,力求表现序列的趋势,将同一趋势的

二、有序聚类的原理与改进(一)有序聚类的原理&0'对于无序样本,其聚类的处理已经有了充分的

研究和讨论。但是,对于存在一定相关性的样本,即 有序样本,则需要考虑样本的次序*有序样本问题一

般使用费希尔最优求解法来求得最优的聚类结果。

设”维有序样本向量为X % (X1,X⑵,一‘Xn)', 具体的算法与计算步骤如下:1定义类的直径。设某一类G包含的样本是

{X%),X%+1),-,X()0,该类的均值坐标为:Xg% J. —1i +丄 1]'%.Xe (1 )7用D%,)表示这一类的直径,直径可定义为:<%,) % ' X%)—Xg) (X。)—Xg;)

(2)t = i2.定义分类的损失函数。费希尔最优求解法定

义的分类损失函数的思想类似于系统聚类法中的

Ward法,即要求分类后产生的离差平方和的增量最

小。用b(,G)表示将”个有序样本分为k类的某一种分法:G ={i1 !i1 +1 !!i21}; ={i2 !i2 +1 !!i321}其中 Gk ={ik !ik +1 !…\",n}i&11 为因此,我们得到费希尔最优求解法的递

10样本划为同一类。 具体的算法与计算步骤如下:1.计算相邻序列之间的斜率。假设某一 +维有 序样本向量为y %(y(1) ,y⑵,•••,\"(”))',对应的+

维时序向量为r %

E2) ,•••,+))',则相邻序列之间的斜率为:i,i+1Y+1 1 — YiE+1 ) — E1,2, •••,”一 1(5则新的斜率序列 Lj % {1,+1 ,+1,+2,…,j-2,j-1 ,—1,j}。2.根据斜率定义类的直径。设某一类G包含的样本是Yi ,Y(+1),Y()}}则对应的斜率样本为

{ I,+1 ,1+1,+2,…,lj—2,j—1 , lj-1, 7},此类的均值坐标为:I; -)

—1- 〉, j+1(6)=用D(i,))表示这一类的直径,被定义为:j—1 _ _D(i, j ) % '(I”)— Ig)— Ig)(7)不难发现,如果某一类别只包含两个样本,那么 其D(,j)三0,说明最少三个样本或者三个时序数

据,才能看出一定的发展趋势,这与我们的常识也是 相符合的。此外,当斜率相等时,直径为0,说明它们

之间的差异很小变大!从而说明它们之间的差异比较大'当出现斜率的较大变化时。,直径会 三、数值模拟对比较特殊的单调性数据和比较复杂的波动性

数据进行数值模拟,揭示新方法的优势。(一)单调性数据首先,考虑在单调性数据上的模拟。需要生成

具有五组不同斜率的时序数据的递增序列,实验数

据具体为:第一组为1〜21、等差为1的序列;第二 组为23〜41、等差为2的序列;第三组为44〜71、等

差为3的序列;第四组为72〜81、等差为1的序列; 第五组为83〜99、等差为2的序列。一共为60个 时序数据。如图1所示,整体为一递增序列,但是各

何韩吉,邓光明:基于趋势性度量的有序聚类方法探讨段的斜率和上升速度有所差异*组为1〜10、等差为1的序列;第二组为9. 5〜5、等 差为0. 5的序列;第三组为7〜25、等差为2的序

列;第四组为25〜16、等差为1的序列;第五组为17

为了更好地比较两种方法,假定序列聚为5类, 比较两种情况之下聚类的差异,以及与实际情况相

比的正确性。如表1所示,表中的组内成员为序列 号,可以发现改进后的方法与本文初始生成的五组

数据完全吻合,而原始方法却在第3〜5类出现了一

些偏差。因此,在单调序列的应用上,改进后的方法 能够提高聚类的精度和准确性,并且更能够体现时

序数据的趋势性*表1单调序列模拟结果原始方法改进方法类别组内成员类别组内成员第1类1〜21第1 类1〜21第2类22〜31第2 类22〜31第3类32〜38第3 类32〜41第4类39〜52第4 类42〜51第5类53 〜60第5 类52〜60进一步通过图2的图像比较可以看到,原始方

法在斜率出现变化时会出现误判的情况!不能在趋 势上完成正确的聚类。而改进后的方法则完全将上

升速度相同的时间点聚为了一类!本现了改进方法 的优越性*图2单调上升序列聚类结果图(二)波动性数据其次!考虑在时序中比较常见的波动性数据!即 存在一些周期性特征的时序数据,生成具有五组不

同斜率的时序数据的递增序列*实验数据为:第一 〜35、等差为2的序列;第六组为33〜25、等差为1与单调上升序列类似,假定聚为6类!匕较两种

情况之下聚类的差异,以及与实际情况相比的正确

性*如表2所示,可以发现改进后的方法与我们初

始生成的五组数据完全吻合;而原始方法却出现了 截然不同的结果,更加偏向于在波峰与波谷处进行 聚类,即趋势转折点。对斜率的变化明显不够敏感。 因此!在波动性序列的应用上!改进后的方法能够准

确地识别出上升和下降的趋势,这对于在高频数据 上的趋势性提取有着较为广泛的应用性*表2波动序列模拟结果原始方法改进方法类别组内成员类别

组内成员第1 类1 〜5第1 类1 〜10第2 类6 〜23第2 类11〜20第3 类24〜26第3 类21〜30第4 类27〜45第4 类31〜40第5 类46〜55第5 类41〜50第6 类56〜60第6 类51〜60进一步通过图4的图像比较可以看到,原始方 法在转折点处进行聚类,由转折点向两侧分布,不能

在趋势上完成正确的聚类。而改进后的方法则可以

将同样上升或下降速度的点聚为一类,更加能够体图4 波动上升序列聚类结果图11统计与信息论坛四、实证分析(一)数据来源本文选取了中国2016年8月至2019年7月铁

拐点处信息确定G*从图6中看到,在G = 6时,有 一次拐点!所以聚类个数确定为6 个*路客运量月度数据,单位为万人,从而通过这些数据 寻找中国铁路客运量的规律。数据来源为国家统计

局网站,使用R语言进行实证分析。图5为客运量

的折线图,由于波动较多,很难看出整体趋势和客运从表3可以看出,相邻时间聚成的类直径均为0,与上面讨论的结果一致*由于数据的量级比较

大,所以类的直径比较大,但是不影响聚类效果*表3类的直径2019 年7 月2019 年6 月2019 年5 月2019 年4 月2019年7月2019年6月02019 年5 月1. 20E+0702019 年4 月1. 50E+075. 48E+0402019 年3 月1. 58E+074. 48E+062. 91E+060(三)计算最小分类损失函数表4中我们得到了最小分类损失,通过它进行

进一步的聚类选择*表4最小分类损失函数2019 年6 月2019 年5 月2019 年4 月2019 年3 月2019 年5 月02019 年4 月002019 年3 月3. 51E+04002019 年2 月5. 29E+060002019 年1 月5. 58E+063. 51E+04002018年12 月6. 80E+063. 32E+05002018年11 月2. 13E+075. 58E+063. 51E+0402018年10 月2. 90E+075. 58E+063. 52E+040(四)聚类数量的确定一般通过常识来确定分类的数量,否则可以从LLp(nG),随G的变化趋势图中找到拐点处,根据12(五)基于斜率度量的有序聚类结果基于改进的有序聚类方法!得到了有序聚类结果 由表5 所示!不难发现铁路客运量的规律特征!每两类

几乎是对应着相同的月份,即在一年的时间内,客运量 存在着两种发展态势*这样的聚类结果是符合客观事 实的,可以说改进的有序聚类方法是有效的*表5有序聚类结果类别

组内成员第1 类201811—20197第2 类2018. 9—201810第3 类201711—20188第4 类2017. 9—2017. 10第5 类2016. 11—2017. 8第6 类20168—201610(六)与原有方法的比较通过表6中的数据对比两种聚类方法,可以直 观看出,两种方法对客运量都进行了较好的划分,

但是我们进一步通过图7和图8对比发现,改进之

后的聚类结果更能够体现趋势性特征,并且可以 看出铁路客运量受到季节性因素的影响,全年有 两段时期:每年的9 — 10月的波动下降期,11月到

次年8月的持续上升期;而原始方法的聚类则看 不出这样的趋势存在,只是将接近的数值聚在了

同一类中,只能看出每年的铁路客运量的高峰集

聚区和低谷集聚区*表6平均法与斜率法的结果对比原始方法改进方法类别组内成员类别

组内成员第1 类20194—20197第1 类201811—20197第2 类201—20193第2 类201—201810第3 类20187—20188第3 类201711—20188第4 类20179—20186第4 类2017 9—2017 10第5 类20177—20178第5 类201611—20178第6 类20168—20176第6 类20168—201610何韩吉,邓光明:基于趋势性度量的有序聚类方法探讨五、结论 口a、凹<

参考文献:[1, Spath Dr H. Clustering of One-dimensional Ordered Data[J]. Computing, 1973,11(2) : 175-177.+,符璐,吕王勇,甘茂林.成都市环境空气治理效应评价一基于有序样本聚类与分类检验模型统计与信息论坛,

2015,30(12):79-83.陈远中,陆宝宏,张育德,等.改进的有序聚类分析法提取时间序列转折点[J,.水文,2011,31(1):4144.[5, Li F F,Wang Z Y, Zhao X, et al. Decomposition-ANN Methods for Long-term Discharge Prediction Based on Fisher'sOrdered Clustering with MESA[J,. Water Resources Management,2019,33(1) : 1-16.[6, Kashida H, Tanaka M, Baba S, et al. Covalent Incorporation of Methyl Red Dyes into Double-Stranded DNA for TheirOrdered Clustering]J,. Chemistry,2006,12(3) : 777-784.+,严广松,路允芳.有序样本的聚类方法研究[J,.统计与决策,2008(4):3132.+,任娟,陈圻.基于形状特征的多指标面板数据聚类方法及其应用[J,.统计与信息论坛,2011,26(10):2833. +,任娟.多指标面板数据融合聚类分析[J,.数理统计与管理,2013,32(1):5767.+0,朱建平.应用多元统计分析[M,. 3版.北京:科学出版社,2016:88-90.Discussion on Ordered Clustering Method Based on Trending Metricbased on the fact that the trending characteristics of time series are not enough and some trending feature methods have higher computational complexity. Considering the diameter metric of the class, an ordered clustering method is improved based on the slope sliding mean. Firstly, calculating the slope between the adjacent points in the ordered samples,,hen moving average is performed on the new slope sequence,,hat is defined as the diameter of the class. At last, it achieves the ordered clustering of the trend metric. The simulation and empirical results show that the ordered clustering method considering the trend metric, it has better resolving power for the trend of the volatility sequence then using the original method,for which can improve the accuracy of the ordered sample clustering.Key words:ordered clustering; slope; trending characteristics; volatility data(责任编辑:崔国平)Y本文针对有序聚类对波动性时序数据聚类的情 况下!不能很好地对同一趋势的样本进行有效聚类 的情况!考虑了时序的趋势性特征!提出了改进的类

直径度量方法,使用了斜率来对直径进行度量。该

方法可以很好地提取时序数据的趋势性特征,从而

对相同趋势的样本进行聚类。模拟结果表明:对于

同类数据的识别!改进的方法正确率更高!聚类效果

YR'a

更好;尤其是对波动性数据的聚类,改进的方法性能

凹M

远远高于原有方法。实证分析也再次说明,基于趋 势性度量改进的有序聚类方法的聚类结果贴合实际 情况!并且突出了趋势性特征的表现!能够对大量时 序数据进行有效的有序聚类。杨毅,赵国浩,秦爱民.面板数据的有序聚类分析及其应用一一以全球气候变化聚类分析为例[J,.统计与信息论坛, 2012,27(7):13-18.HE Han-jia ,DENG Guang-minga,b(a. College of Science; b. Institute of Applied Statistics,Guilin University of Technology,Guilin 1004,China)Abstract:In the study of ordered clustering analysis method,the diameter metric of the class improved

13

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务