您的当前位置:首页正文

基于支持向量机的复杂核素能谱识别

来源:画鸵萌宠网
第36卷第8期 核电子学与探测技术 Vo1.36 No.8 2016年8月 Nuclear Electronics&Detection Technology Aug. 2016 基于支持向量机的复杂核素能谱识别 张江梅 ,任俊松 ,李培培 ,王坤朋 ,霍建文 ,朱庆平 (1.西南科技大学信息工程学院,四川绵阳621010;2.中国科学技术大学自动化系,合肥230026) 摘要:针对传统 能谱识别方法对高本底、低分辨率的复杂^y谱解析效果不明显、准确率低等问 题,提出了一种基于支持向量机的核素识别方法。通过能谱预处理方法,获取能谱特征信息,将核素库 的建立与分类器的构造相结合,使用实际能谱进行验证。通过谱仪对3种核素的不同组合进行能谱实 测,实验结果表明,通过支持向量机的分类方法,对实测混合核素的识别准确率达到94%以上。 关键词:支持向量机; 能谱;核素识别;混合核素 中图分类号:TL 817 文献标志码:A 文章编号:0258-0934(2016)8-0856-06 随着国民经济与核技术的快速发展,放射 指纹模糊识别机理完成对核材料的能谱分析及 源在研究院、企业、医院等场所广泛运用,从而 核素识别。近几年,随着神经网络与支持向量 对核素识别技术提出了更高的要求。根据样品 机(sVM)等非线性分类方法的发展,逐渐将其 中 射线能谱准确、高效的从混合核素中判断 引进到核素识别领域。钱晋 提出了基于遗 所包含的单一放射性核素是核素识别的主要研 传神经网络的能谱分析方法,利用自适应遗传 究内容之一。 算法优化BP神经网络,实现对相干核素的识 目前, 能谱分析任务主要包括 能谱测 别。Liang Chen等人 提出了一种基于K—L 量、数据采集、解谱分析等…,^y能谱的复杂性 变换和神经网络的复杂能谱识别方法,通过K 体现在两个方面,一是,由于^y能谱自身的复 —L变换将混合能谱转化为成分谱的线性叠 杂性及^y射线探测器的限制,导致累积效应、 加。然而神经网络存在收敛速度慢、过拟合导 和峰效应、特征X射线峰等干扰,并且噪声、基 致泛化能力弱、易陷入局部最小等缺陷,需要其 线漂移等因素也会影响核素识别准确率与速 他算法来弥补。与神经网络比较,支持向量 度;二是,不同核素组成的相干核素干扰使其对 机 卜引(SVM)在解决小样本、非线性及高维模 核素的识别更加复杂。霍勇刚等人 提出了 式识别问题中表现出特有的优势。 基于模式识别的放射性核素快速识别方法,对 本文基于支持向量机,提出了一种特征信 混合核素具有较好的识别率,但是对采样数量 息提取及核素分类识别的方法。在对能谱进行 较敏感。王崇杰、王一鸣等人 采用^y能谱 预处理后,以^y射线的全能峰能量峰值集合为 输入向量,通过支持向量机进行训练与分类识 收稿日期:2015一l1—23 别,实现对复杂能谱的识别。 基金项目:四川省重点实验室开放基金(15kftk02) 资助。 1支持向量机 作者简介:张江梅(1975一),性别女,籍贯山西省,职 支持向量机是由Vapnik领导的AT&T Bell 称副教授,主要从事核探测技术及应用、机器人技 实验室研究小组在1995年提出的一种新的非 术。 常有潜力的分类技术,支持向量机(SVM)是建 856 立在统计学习理论基础上的一种数据挖掘方 法,能够成功地处理回归问题(时 间序列分析)和模式识别(分类问题、判别 分析)等诸多问题 。SVM方法主要是针对两 类分类问题,定义分类函数: )= T+b (1) 由 )确定的平面为分类超平面,当 ) =0时 为超平面上点,sgn[f( )]将 分为两 类(1与一1)。存在一个或多个 )使样本完 全分开,SVM通过训练样本找到各分类面中的 最优超平面,其中最优是指每一类数据超平面 距离最近的向量与超平面之间的距离最大的平 面, 1 lI Il。最小。将其转化为二次优化问 题为: . arin下1 l l+c∑£ 。 ‘一 ,,)、 s.f.,,i( ・ 。+b’) 1一 。 0,i=1,2,…, 式中:基为每个样本点的松弛变量;C为惩 罚参数。 为解该二次优化问题,通过构造朗格朗日 乘子: 1 』1, ((【,, , , , )=÷lI ll +c∑ 一 一 ‘ l Jlv N ∑ (,,i(∞ i+6)一1+矗)一∑ (3) l=l I=l 1 式中: 0, 0为Lagrange乘数,÷ II I为分类间隔。通过对公式(3)求解,得到 最优解(∞ ,b’),从而得到间隔最大的最优分 类面。 对于不可分模式的最优超平面寻找,通过 使用核方法,将低维输入空间线性不可分的样 本转化为高维特征空间使其线性可分,如图1。 即令 ( )=[ , ,…, ] ,通过核函数 K(x, )将< ‘¨, >替换为< ( )‘”, ( ) >。最终通过SMO[1叫算法得到最优解向量仅 值: ‘=(a ,…, :) (4) 从而得到最优偏置: b’=Y一∑ ’K( , 。) (5) 由此得到决策函数: 特征空闻中的最优超平面 图1从低维空间映射到高维 m )=sgn(∑ ’K( , )+b’ (6) 在获得新样本时,只需将新样本与训练集 合中的支持向量做内积,便可获得新样本的标 签。 然而支持向量机模型都是针对二分类问题 设立的,在实际应用中,待测核素可能含有两种 以上类别的核素,传统多分类支持向量机有基 于“一对一”投票法、基于决策树方法和有向无 环图的多分类SVM等方法;根据国际原子能机 构(IAEA)关于便携式谱仪对放射线核素进行 探查、定位与识别的要求,给出了4类、27种核 素的具体识别指标,因此对于单一核素采用 “一对多”算法构造最多27个二分类器,考虑 训练及分类速度,当类别小于8时采用“一对 多”算法构造分类器,采用取决策函数输出值 最大的那个SVM模型对应的类别作为测试样 本的所属类别;当类别大于8时,采用一种基于 决策树的快速SVM分类方法。 2核素识别过程 2.1 能谱平滑 在核素能谱测量过程中,放射性事件具有 的统计涨落性和设备固有的电子学噪声,会影 响对本地扣除、全能峰峰位的确定及峰面积的 计算。特别对于使用NaI与CdZnTe探测器测 的数据,具有能量分辨率低、噪声大等特点,使 用一般的多项式平滑会导致全能峰区域值被低 估而低统计量区域值被高估。为了实现良好的 寻峰效果,采用基于离散马尔科夫链的平滑方 法,在较好的保持 能谱形状下获得更加平滑 的能谱曲线。 S(0)P (0)=S(1)P一(1) 857 :S(2)P一(2) 由表1可以看出,合成峰具有7个峰,实际 找到9个峰位,而正确找到的7个峰中峰位误 差在正负两个道址,寻峰效果良好。实验过程 S(N一2)P (N一2) Js(N一1)P一(N一1) =(7) 证明,通过改变平滑窗宽度m,可以调整寻峰算 法对假峰的容忍度。 表1寻峰效果表 其中S(i)=S( 一1)・P (i一1)/P一( ),i ∈(1,N一1)是平滑后的第i道计数,P (i)= A( )黑exp【 ,A( )保证P (i)+P~(i)=1,并且∑S(i)--=1,m是平滑窗 宽度。 2.2寻峰和特征提取 经过马尔科夫平滑处理后,消除了大部分 统计波动及其形成的假峰,从而有效提高了寻 峰效率,在此基础之上,本文采用一种“量子化 球”算法来实现能谱的寻峰。 我们在能谱的某个道址上选取一个点(看 作一个可以越障的量子小球),并且让这个点 可以向左或者向右跳跃一个道址,或者保持在 原位,我们把从i道跳至第i一1道的可能性定 义为Pid-1 ̄善A ,A是数值常数。 改变A和rn,可以给出球的越障能力。将平滑 后能谱视为一个马尔科夫链,则该链的转移概 率矩阵近似为: 0 l 0 O 0 … P21 0 P23 O 0 … P= 0 P32 0 P34 0 … (8) O … … 0 l O 该点将迅速的爬至能峰顶点并且在顶部震 荡,我们取震荡区间的道址求其中位点,就可以 得到全能峰位置。图2给出具有高斯噪声的合 成能谱,具有7个特征峰,对该合成能谱执行马 尔科夫平滑后进行寻峰,寻峰效果见表1。 图2合成噪声能谱 858 在得到全能峰峰位后,核素识别的基本方 法是在自动寻峰完成后,可得到全能峰能量峰 值向量P(p。,P2,…,P )。 2.3核素库建立 在核素识别过程中,核素库的建立是非常 重要的,它是识别判断的重要依据,探测器规 格、环境辐射与核素强度是影响核素能谱的几 大要素。为了克服探测器影响,本文采用同一 探测器对已知核素测量处理后选取其特征峰为 核素库,由于不同核素的特征峰数量不定,通过 调整寻峰参数,使其得到9个特征峰,其中包含 特征峰及实测所得的辅助峰位,而核素库建立 的过程,也可以看作是一组分类模型的建立。 2.4核素识别 在传统核素识别中,在得到全能峰能量峰 值集合P后,将探测器检测到的特征峰与标准 核素库中所有核素相匹配,然后利用峰面积和 相邻峰的间距等信息对所匹配到的峰位进行排 除和验证,从而确定属于哪种核素,该方法运算 量大、效率低,识别准确率也不高。并且,在识 别过程中,个体的放射性活度、探测距离等因素 会对能谱测量造成影响,因此,本文考虑引入支 持向量机(SVM)方法进行核素识别,SVM具有 分类间隔最大化的特点,分类效果对环境辐射 及放射性活度等“噪声”具有较好的容忍度。 设已知样品i的特征向量为: Pi=[P ,P ,…, ] (i=1,2,…, )(9) 在k类样品中,待识别的目标种类训练集 样品个数为12,其在分类标签矩阵中取1,为了 在保证负类样本能够充分扩充到其应有的空间 同时保证正负样本平衡,选取另外k一1类样品 P ,P ,… … 每类个数为2rd(k一1),其在分类标签矩阵中取 一1,由此可得训练样本集的数据输人矩阵R为t P ,…一,… 1 1 ・, ln (10) R= P: p:,p:, … p;, 1 J p:”,p;“,…,p; ,一1 1 … … … …P:+, , 一1 ,l p31 , p23 , … p93“, 一1 J 建立数据输入矩阵后,将其带人支持向量 实验采用Kromek公司的 谱仪:CdZnTe 探测器,能量分辨率小于2.5%(在662 keV 处),能量范围为25 keV~3.0 MeV。将探测器 置于Turtlebot机器人上实现远程控制,并且可 机中,使用适当的优化算法,确定核函数种类与 惩罚参数e等参数,建立SVM模型,完成训练。 对于训练后的SVM,使用采用10一fold交叉验 证策略,并且将未参JJn ̄Jl练的测试数据集带人 SVM,验证其分类准确性。 以将探测器与放射源之间距离精确控制在0.1 emo 3仿真及实验测试 3.1设备及测量 标准源:”’Cs,∞Co,悦Eu。分别建立单一 核素样本与混合核素样本共计7组,如表2。 表2实验样本表 测试时,将样本1置于固定位置,控制机器 人行驶置预先标定的位置,测量时间为1 200 S, 每个位置测量五组数据。然后控制机器人以固 3.2核素识别方法及结果分析 由上述”’Cs、印Co和 Eu所建立的7组样 本,每组样本测试5O次,共计350项数据。其 中三组为单一核素,另外四组为}昆合核素。每 有步长0.7cm递增,并显示其位置状态,总共 测量十个位置。对七组样本重复以上实验过 程,共350个样本。获取样本数据后,通过 MATLAB工具箱对能谱数据进行预处理,从而 组数据取45项为训练数据,剩余5项为测试数 据,识别过程以样本7为例,设样本7为正类数 据,其余样本为负类数据。 由式(1)、式(2)和式(8),设优化函数模型 和决策函数分别为: ain r,得到每个样本对应的全能峰能量峰值向量。图 3是样本7的实测能谱及所寻到的全能峰位 置,共找到九个全能峰,其中6个为正确的特征 峰,3个为辅助峰位。 6, +c∑ 扎刍 , (11) 要固 西 譬 团匿 圈 I-si ̄i t. ), ( 了 咖( )+b) 1一 0,i=1,…,1 固 囝 ;、 } 、 圜 :l sgn(o 币(x)+6)=sgn(∑yi iK( i, )十6) (12) ; 0 500 I 娜 { j. l 式中:C为惩罚因子,核函数: j 2000 2500 1000 1500 ( , ):e p(一._ ‘g )(13) 能量道址 图3寻峰效果图 将分类标签分别为+1和一1的训练集作 为输入,通过两种寻参方式比较,从而获得支持 859 向量分类(SVC)的最优的惩罚参数c和关联参 数g。 首先使用网格寻优法,设定惩罚参数c的 范围为2。。~2 ,RBF核参数g的范围为2一一 2 。 确定SVM参数后,将剩余35组数据作为测试 集,最终所得三种混合核素的实际分类准确率 为94.285 7%。 为了更好的验证分类识别的准确率,建立 一组针对每个样本的共七个分类器,可以得到 表3混淆矩阵 由训练样本集可以获得最优参数c= 0.707 I,g=II.313 7及交叉检验CV(Cross 其10折交叉验证的混淆矩阵如表3: validation)口 意义下的最佳分类准确率 97.647 1%。如图4,5。 l00 3o 图4参数寻优3d视图 SVC参数选择结9.11g(等高线圈)[CmdSe ̄whMethod] 图5参数寻优等高线视图 使用遗传算法来进行寻优,根据样本极值 信息[1 ,设定终止代数为50,种群数量pop= 200,如图6,最终由训练样本集得到最优参数c =0.49095,g:15.2132,以及CV意义下最优 分类准确率96.4706%。 适盥度曲线Ac∞ura 【G 凹 】 (终止代数=50种群数量pop-2o) B ̄ ̄,=0.49095g=15.2132CVAcc,,u,acy'=96A706% 进化代数 图6遗传算法参数寻优 对比两种寻优方法,最终确定为网格寻优 法所确定的参数c=0.70711,g=11.3137。在 860 编号 1 2 3 4 5 7 ~ 1 45 0 0 0 0 O 2 O 44 O O O 1 3 0 0 430 0 0 4 0 0 0 45 0 5 0 0 O 0 43 6 0 O o0 0 441 7 O 0 o0 00 45 样本7为包含三种样本的混合核素,因此 可视为与样本1—6为相关核素,如图7所示, 样本7与样本2在1 500—2 000道之间具有多 个相干峰,而分类结果很好的克服了相干核素 之间的干扰,具有较好的分类准确率。 1 1 道址 图7实测能谱图 3.3仿真测试 为了验证分类器在多核素下的分类效果, 在标准核素库任意选择19种核素通过理论计 算得到特征能量峰位置,使用Geant4软件模拟 得到其能谱,通过上述预处理过程,完成特征提 取、参数优化从而建立分类器模型,通过1O折 交叉验证,得到其综合分类准确率为99.298 2 %,Kappa值为0.962 6,模型建立时间为2.49 So 在选取的l9的核素中,包含医学上常用的 同位素 Ga、加 Pb、” xe等,工业领域常用的∞ Co 133Ba、 Ra等以及自然界常见的 幢Pb、猫 Th、 控Bi等同位素。 4结论 本文提出了一套基于支持向量机的复杂核 素的识别方法,针对实际能谱噪声大、分辨率低 ics Research,2009(598):450—453 等特点,通过优化预处理过程及核素库的建立, [7]李国正,王猛,曾华军,译.支持向量机导论[M].北 将识别问题转换为分类问题,充分克服了距离 京:电子工业出版社,2004. 及环境辐射等影响,提高了核素识别的效率。 [8]张学工.关于统计学习理论与支持向量机[J].自动 该方法通过CdZnTe探测器完成对实际复杂谱 化学报,2000,26(1):32—41. 的测试,表明其对于复杂谱的识别具有较高的 [9]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法 研究综述[J].电子科技大学学报,201I(01):第2 分类准确率。 一lO页. 方法在实现过程中,需要使用同一探测器 [10]John C.Platt.Sequential Minimal Optimization:A 实现核素库构造及分类,具有局限性。并且,多 Fast Algorithm for Training Support Vector Machines 种类核素下的实测实验还未验证。这些都是在 [J].Microsoft Research.1998—4—21. 下一步研究中所需要解决的问题。 [11]刘志刚,李德仁,秦前清,等.支持向量机在多类 分类问题中的推广[J].计算机工程与应用.2004 参考文献: (o7):10—13. [1]刘永刚. 能谱谱数据分解方法研究[D].北京:中 [12]崔建,李强,刘勇,等.基于决策树的快速SVM分 国地质大学,2011. 类方法[J].系统工程与电子技术.2011(11): [2]霍勇刚,安洪振,吴岳雷.一种基于模式识别的放射 2558—2563. 性核素快速识别方法研究[J].核电子学与探测技 [13]Morhd M,Kliman J,Matou Ek V,et a1.Identiifea- 术,2014,34(1):51—53. ifon of peaks in multidimensional coincidence 一my [3]王崇杰,包东敏,程松,张爱莲.核材料能谱指纹模 spectra[J].Nuclear Isntruments and Methods in 糊识别机理研究[J].物理学报,2008,57(9):5361 Physics Research Section A:Accelerators,Spectrome- 5365. ters,Detectors and Associated Equipment.2000,443 —[4]王一鸣,魏义祥.基于模糊逻辑的 能谱核素识别 (1):108—125. [J].清华大学学报(自然学科版),2012,52(12): [14]Yongli Zhanga,Yuhong Yansb.Cross—validation 1736—1740. for selecting a model selection procedure[J].Joumal [5]钱晋.基于遗传神经网络的^y能谱分析研究[D]. of Econometircs.2015,(187):95—112. 北京:中国计量学院,2013—6:41—42. [15]李金屏,何苗,杨波.遗传算法平均截止代数和成 [6]Liang Chen,Yi—X_iangWei.Nuchde identiifcation 功率与种群规模之间的关系[J].系统仿真学报, algorithm based on K-‘L transform and neural net- 2oo1(S1):206—210. works[J].Nuclear Instruments and Methods in Phys- Complex Radioactive Nuclide Identiifcation Method Based on Support Vector Machine ZHANG Jiang—mei ,REN Jun—song ,LI Pei—pei ,WANG Kun—peng , HUO Jian—wen 。ZHU Qing—ping (1.Southwest University of Science and Technology,College of Information Engineering of Sichuan Province,Mianyang Sichuan 621010,China; 2.University of Science and Technology of China,department of automation,Hefoi 230026,China) Abstract:In view of some defects of the traditiona1 method in complex nuclide identiifcation field,such as the result is unclear and the low accuracy for analysis of complex^y spectrum,proposed a nuclide identification method based on SVM.This method utilizes spectrum preprocessing process to acquire the feature information, combined the establishment of nuclide library with the construction of the classiifer,and veriifed through meas— ured specturm.We used spectrometer to measure the spectrum of different combination of three kinds of nu— clides,and the results demonstrate that the identification accuracy can reach 94%by this method. Key words:support vector machine;^y spectrum;nuclide identiifcation;mixed isotope 86】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top