您好,欢迎来到画鸵萌宠网。
搜索
您的当前位置:首页基于形态相似距离的时间序列相似性度量

基于形态相似距离的时间序列相似性度量

来源:画鸵萌宠网
ComputerEngineering andApplications计算机工程与应用 基于形态相似距离的时间序列相似性度量 门连生 ,卫婧菲 ,李 中 MEN Liansheng ,WEI Jingfei ,LI Zhong 1.晋城供电公司,山西晋城048000 2.华北电力大学电气与电子工程学院,河北保定071003 1.Jineheng Power Supply Company,Jincheng,Shanxi 048000,China 2.School ofElectrical and Electronic Engineering,North China Electric Power University,Baoding,Hebei 071003,China MEN Liansheng,WEI Jingfei,LI Zhong.Morphology similarity distance based time series similarity measure— ment.Computer Engineering and Applications,2015,51(4):120—122. Abstract:Time series similarity measurement is one of the fundamental tasks in time series data analyzing,and the key to similarity matching.In view of shortcomings of Euclidean distance can not compare segment trend similarity and pattern distance measure or its transformations existing discretization problem,the morphology similarity distance based time series similarity measurement is presented in this paper.Experimental results of reorganization and clustering on standard data sets show that the proposed method is feasible and effective. Key words:time series;morphology similarity distance;similarity;clustering 摘要:时间序列的相似性度量是时间序列分析的基础工作之一,是进行相似匹配的关键。针对欧几里德距离描述 分段趋势的不足和各种模式距离对应分段之间距离值的离散化问题,提出一种基于形态相似距离的时间序列相似 性度量方法,标准数据集上完成的识别和聚类实验表明了该方法的可行性和有效性。 关键词:时间序列;形态相似距离;相似性;聚类 文献标志码:A 中图分类号:TP311 doi:10.3778 ̄.issn.1002.8331.1312—0107 1 引言 时问序列是一种重要的数据对象,是某个物理量按 针对欧几里德距离描述分段趋势上的不足,我国学者提 出根据上升,保持和下降三种趋势的模式划分,计算其 模式距离来度量两个等长序列的趋势差异程度 ,文献 [8]对其改进后提出了基于七元模式的形态距离,一定 程度上提高了度量的精度。这类模式距离保留了时间 序列的分段趋势信息,但分段模式的有限划分使任意两 照时间顺序观察得到的一串值,这些值可以是具体的实 数值,也可以是观察事件发生的数目或者特定模式的数 值。时间序列数据广泛存在于商业、金融、医药、天文气 象、航空航天等多个不同应用领域u 。 时间序列数据一般规模巨大,具有时间连续性的特 点,甚至持续增长,这给时间序列的处理、分析和挖掘工 作带来了诸多困难。时间序列的相似搜索是时间序列 数据挖掘的一个研究热点 。 ,其中序列的近似表示和相 似性度量决定了相似匹配的效果,是解决相似性搜索的 关键 。 个序列对应分段间的距离值是离散的,相似匹配的精确 程度依赖于模式划分粒度。此外,文献【9]采用相邻线 段问的夹角构成角度序列,来近似表示时间序列,并用 夹角距离进行相似度度量,该方法具有平移和旋转不变 性的优点,但未能保留分段趋势信息,有些情况下并不 适用。文献【l0]提出了时间序列的分段线性弧度表示 时间序列相似性的研究,很多研究采用了欧几里德 方法,定义了弧度距离及基于弧度距离的相似度量,文 距离或者变形,但基于点距离的欧几里德距离及其变形 对于对序列在时间轴上的偏移非常敏感,不具备形态识 别能力,不能识别时间序列在不同分辨率下的模式变化 。 中仿真结果表明该方法准确性较高并具有多分辨率条 件下的稳定性,但处理方法相对复杂。 动态时间弯曲(Dynamic Time Warping,DTW)距 作者简介:门连生(1973一),男,工程师,研究领域为电力信息分析、输配电工程;卫婧菲,女,电力系统及自动化专业本科生;李中 男,博士,副教授,研究领域为智能信息处理、电气设备故障诊断。E.mail:jcmenls@163.corn 收稿日期:2013—12—08 修凹口期:2014-01一O9 文章编号:1002—8331(2015)04.0120.03 门连生,卫婧菲,李 中:基于形态相似距离的时间序列相似性度量 40 50 50 35 40 j四4O ,o so 25 30 2O 2O 1O 20 0 20 40 60 0 20 4O 60 0 20 4O 6O 时间点 时间点 时问点 (a)第1类样本 (b)第2类样本 (e)第3类样本 5O j四40 趔 30 20 0 20 4O 6O 时间点 时间点 时间点 (d)第4类样本 (f)第5类样本 (e)第6类样本 图1各类测试数据样本 离在语音处理领域得到广泛的研究与应用。Berndt和 分析可知,任意2个向量X 与x 之间的形态相似 Cliford最早将DTW的概念应用到小型时间序列分析 距离满足以下约束: 领域,并在实验中取得了较好的结果n”。动态时间弯曲 MsD( ,, )∈[三2(xj,Xk),2L2(xj,Xk)] (3) 距离可以有效地消除欧几里德距离的缺陷,它允许序列 并且,若V( 一 ), 1,2,…, ,取值符号相同,则 在时间轴上的偏移,支持不同长度序列的相似度度量, 但计算复杂度高,很大程度上了其使用范围。 dMSD( ,, )= 2( ,,x );否贝0,L2(xj,Xk)< MSD( ,,Xk)≤ 针对现有方法的不足,本文提出在对时间序列分段 2L:( , )当且仅当满足∑( 一Xki)=0时,则有: 的基础上,采用形状相似距离进行时间序列的相似度计 i=】 算。分析介绍了形态相似距离(Morphology Similarity dMSD(xj,Xk)=2L2(x,, )。 Distance,MSD)及其性质,以UCI标准时问序列数据为 测试对象,分别以欧几里德距离和形态相似距离作为相 3测试数据 似度计算方法,完成了基于质心的识别和层次聚类仿真 为保避荚 方真的公正}生,选择ucI的KDD ARCHIVE 实验,并对实验结果进行了对比。 中的一个实例时间序列数据Synthetic Control Chart Time Series作为测试研究对象。这些数据来源于工业 2形状相似距离 生产控制图,由600个时间序列样本组成,每个样本60 经典的欧几里德距离根据两个向量之间的差值的 个点,共6类,各类均含100个样本 。表1说明了该数 绝对值计算得出,忽略了差值的符号和分布特征。文献 据集的基本构成和属性,图1中的(a)至(f)依次显示了6 [12.13]考虑向量差值分布的具体情况,提出了一种形态 类测试数据中的第1条时间序列样本。 相似距离用于相似度评估,该方法是对欧几里德距离进 表1 Synthetic Con ̄ol Chart Time Series数据属性 行的修正,国际标准数据集上的对比仿真实验分析表明 对于包含对象形状特征数据的相似度计算,形态相似距 离比欧几里德距离具有更高的精确度。 形态相似距离的定义是:对于P个n维向量x = ( f1, f2,…, ) , =1,2,…,P,则 ,与 之间的形态 相似距离dMSD(xj, )是: dMSD( ,,xk)=L2( ,, )×[2一ASD(xj, )/L1(x,,x )](1) 4仿真实验 上式中,L2(xj, )是欧几里德距离,三 ,, )是曼 为检验形态相似距离用于时间序列相似度计算的 哈顿距离,ASD(x,,x )是数据 与x 的差值和绝对值 可行性和有效性,本文分别采用欧几里德距离和形态相 (Absolute sum of the diferences),其定义为: 似距离两种相似度度量方法,在测试数据上完成了基于 ASD( ̄, ):I∑( 一Xki)(2) 质心的识别和层次聚类,用以比较这两种距离测量时间 li=1  序列相似度的性能。 Computer Engineering andApplications计算机工程与应用 4.1基于质心的识别 基于质心的识别过程是:分别计算求取各类样本的 算术平均值作为各类样本的质心,然后计算所有测试 样本与各类质心的距离,最后依据最邻近法则进行分类 识别。 按照Synthetic Control Chart Time Series数据样 本的顺序,依次选取每类样本的20条记录,合计120条 样本构成一组测试数据,照此方法共计可得到5组测试 数据。计算每一组测试数据各类样本的质心,分别以欧 上 rf』=门上] l样本标号 厂 r——1 4 6 5 7 9 8 l 2 3 图2基于欧几里德距离的层次聚类结果 几里德距离和形态相似距离作为相似度测量标准,依据 组内所有样本距离各类质心的距离完成分类。5组的识 别结果记录在表2。 表2基f不同距离的识别结果 组号一l_ 1 16 9 2 14 6 3 10 5 4 16 5 5 14 8 合计 70 33 表2表明,在所有的5组测试数据中,形态相似距离 的错误识别数比欧几里德距离均有显著减少。在所有 600条样本中,形态相似距离和欧几里德距离无法正确 识别的样本数分别是33和70,错误识别率分别5.5%和 l 1.667%。显然,对于Synthetic Control Chart Time Series 数据,形态相似距离的时问序列相似性计算精度比欧几 里德距离有显著优势。 4.2 聚类 聚类(Clustering)是按照某个特定标准(一般为距 离准则)把一个数据集分割成不同的类或簇(Cluster), 使得类内相似性尽可能大,同时类问的差异性也尽可能 大。聚类算法众多,算法的选择取决于数据的类型、聚 类的目的与应用等因素。 本文采用时间序列分析中常用的层次聚类(Hierar. chical Cluster)算法,其中类的距离采用平均连通方法 (Group.average link),分别采用欧几里德距离和形态相 似距离作为相似度测量标准进行聚类实验。 实验中,聚类数据选取了Synthetic Control Chart Time Series数据中编号依次是[201,202,203,301,302, 303,501,502,503]的12条样本,也即第3类、第4类和第 6类中的前3个样本作为测试数据,并将其依次标号为1 至12,即标号1—3是上升趋势(Increasing trend),标号 4-6是下降趋势(Decreasing trend),标号7-9是快速下降 趋势(Downward shitf)。 分别以欧几里德距离和形态相似距离作为相似度测 量标准完成层次聚类,聚类结果分别示意如图2和图3。 4 6 5 /8 9 l 3 2 样本标号 图3 基于形态相似距离的层次聚类结果 图2表明,基于欧几里德距离的层次聚类结果不尽 合理。对于所有l2条样本划分为两个大类,合理区分 了时间序列的上升和下降趋势,但是对于两种下降趋势 的划分,显然出现了偏差,错误将下降趋势的标号5的 样本归类于快速下降趋势,说明该方法无法正确区分下 降和快速下降趋势,存在相当的误差。 图3中所有测试样本聚类正确,聚类结构良好,说 明基于形态相似距离的层次聚类结果明显优于基于欧 几里德距离的聚类,显然,形态相似距离的序列相似度 测量性能优于欧几里德距离。 5结论与未来工作 时间序列是一类重要的复杂类型数据,时间序列的 相似度量是时问序列数据挖掘的重要任务之一。本文 提出分段后用形态相似距离计算时间序列的相似度,解 决了模式距离及其各种变形的离散化问题,标准数据集 上的实验分析表明,该方法能够较好地描述时间序列趋 势差异,计算简便,相比欧几里德距离具有更高的精度。 未来的工作是改进和完善基于形态相似距离的时 问序列相似度计算和应用,包括如何处理非等长序列的 计算以及研究设计各种基于分段线性表示(Piecewise Linear Representation,PLR)的时间序列相似度量方法。 参考文献: [1]Aigner W,Miksch S,Mfiller W,et a1.Visual methods for analyzing time—oriented data[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(1):47—6O. [2]Chung Fu—Lai,Fu Tak—Chung,Ng V,et a1.An evolutionary approach to pattern-based time series segmentation[J].IEEE Trans on Evolutionary Computation,2004,8(5):47 1—489. (下转147页) 杨秀娟,董军,李慧慧:欧式空间中反向最远邻查询方法的研究 2015,51(4) 哈尔滨工程大学学报,2008,29(3):261.265. 147 反向最远邻查询问题。为了更具实用性,下一步应将算 法应用到交通路网中。 [8】Benetis R S,Jensen C,Karciauskas G,et a1.Nearest and reverse nearest neighbor queries formoving objects[C]// 参考文献: [1]Kom F,Muthukrishnan S,Srivastava D.Reverse nearest neigh- bor aggregates over datastreams[C]//VLDB,2002:814-825. [2]Benetis R,S.Jensen C,Karciauskas G,et a1.Nearest and VLDB,2006,15(3):229—249. [9】Korn F,Muthukrishnan S.Influence sets based on reverse nearest neighbor queries[C]//Proceedings of 2000 ACM SIGMOD International Conference Management of Data. Dalias,Texas,USA:ACM Press,2000:201-212. reverse nearest neighbor queries formoving objects[C]// VLDB,2006,15(3):229.249. [10]李博涵,郝忠孝.反向最远邻的有效过滤和查询算法[J]-,j、 型微型计算机系统,2009,30(10):l948.1951. [1 1]Yao B,Li F,Kumar P.Reverse furthest neighbors in spatial databases[C]//ICDE,Shanghai,2009:664—675. [12]Liu J,Chen H,Furuse K,et a1.An eficifent algorithm for reverse furthest neighbors querywith metric index[C]// DEXA.Berlin:Heidelberg,2010:437—451. 【3]Kang J M,Mokbel M F,Shekhar S,et a1.Continuous eval— uation of monochromatic andbichromatic reverse nearest neighbors[C】//Istanbul,In ICDE,2007:806・8 1 5. [4]Cheong O,Vigneron A,Yon J.Reverse nearest neighbor queries in fixed dimension[J].Int J Comput Geometry Appl, 2011,21(2):179.188. [5]Tran Q T,Taniar D,Safar M.Bichromatic reverse nearest. neighbor search in mobile systems[J].IEEE Systems Journal (SJ),2010,4(2):230.242. [13]王宝文,彭川,陈子军,等.路网上的单色和双色反k最远 邻查询[J】.计算机工程与设计,2012,33(8):3099-3104. [1 4】Tao Yufei,Papadias D,Lian X,et a1.Multi—dimensional reverse knn search[C]//The 32nd International Conference on Very Large Data Bases,Seoul,Korea,2006:121-163. [6]Tao Y,Yiu M L,Mamoulis N.Reverse nearest neighbor search in metric spaces[J].IEEE Transactions on Knowl- edge and Data Engineering,2006,18(9):1239・1252. [1 5]Tao Y,Papadias D,Lian X.Reverse kNN search in arbi- trary dimensionality[C]//VLDB,Toronto,Canada,2004: 744—755. [7]李松,郝忠孝.基于v0ronoi图的反向最近邻查询方法研究[J】. (上接122页) [3】林子雨,杨冬青,王腾蛟用基于移动均值的索引实现时间 序列相似查询[J].软件学报,2008,19(9):2349.2361. [4]A1一Naymat G,Taheri J.Effects of dimen-sionality reduction techniques on time series similarity measurement[C]// The 6th ACS/IEEE International Conference on Computer 研究[J].电子与信息学报,2007,29(5):1228—1231. [9]张鹏,李学仁,张建业,等.时间序列的夹角距离及相似性 搜索[J】.模式识别与人工智能,2008,21(6):763-767. [10]丁永伟,杨小虎,陈根才,等.基于弧度距离的时间序列相 似度量[J].电子与信息学报,2011,33(1):122—128. [1 1]Berndt D,Cliford J.Using dynamic time warping to find patterns in time series[C]//AAAI・・94 Workshop on Knowl— edge Discovery in Databases(KDD一94),Seattle,Wash- ington,1994. Systems and Applications,Doha,Qatar,Mar 3 1-Apr 4,2008: 188—195. [5]王燕,马倩倩,韩萌.基于特征点分段的多元时间序列相似 性搜索[J】.计算机工程应用,2012,48(33):162.166. [6]Shatkay H,Zdonik S B.Approximate queries and represen— [1 2]Li Zhong,Yuan Jinsha,Zhang Weihua.Fuzzy C—mean algorithm with morphology similarity distance[C]//FSKD2009, Tianjin,China,2009:90-94. [1 3】Li Zhong,Yuan Jinsha.An estimation similarity measure tations for large data sequences[c】//Proceedings of the 1 2th International Conference on Data Engineering,New method based on the characteristic of vector difference[J]. Information,2011,14(3):1067—1074. [14]Pham D T,Chan A B.Control chart pattern recognition using a new type of self organizing neural network[C]// Proc lnstn,Mech,Engrs,1998,212(1):115-127. Orleans,Louisiana,Feb 26.Mar 1,1996:536.545. [7】王达,荣冈.时间序列的模式距离[J].浙江大学学报:工学 版,2004,38(7):795.798. [8]董晓莉,顾成奎,王正欧.基于形态的时间序列相似性度量 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务