Vol124 No13
长春师范学院学报(自然科学版)
JournalofChangChunTeachersCollege(NaturalScience)
2005年8月Aug 2005
基于Web的数据挖掘研究
王 岚,张鹏祥
(洛阳师范学院计算机科学系,河南洛阳 471022)
[摘 要]基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文介绍了Web数
据的特点及Web数据挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,并总结了
Web日志挖掘的常用数据挖掘技术。
[关键词]数据挖掘;Web挖掘;Web日志挖掘;电子商务[中图分类号]TP393 [文献标识码]A [文章编号]1008-178X(2005)03-0059203
11引言
数据挖掘是从海量的数据中自动高效地提取有用知识的一种新兴的数据处理技术。在数据挖掘发
[1]
(Knowledge展的最初阶段,研究者更多地把注意力集中在对存放在数据库中的数据进行挖掘,KDD
DiscoveryinDatabase,从数据库中获取知识)的概念就是在这种情况下提出的。近年来,因特网的飞速发展与广泛使用,使得Web上的信息量以惊人的速度增长,目前信息资源已经成为一个天文数字。人们如何从这海量的数据中获取对自己有用的数据和信息,这一切都急需要一种能自动地从Web资源中发现、获取信息,不至于在数据的海洋中迷失方向的新技术,因此Web挖掘技术应运而生。21Web信息数据的特点
Web数据挖掘起源于数据挖掘,但是传统的数据挖掘对象大多是针对关系数据库或数据仓库的,所处理的数据具有完整的结构。而Web信息数据具有如下特点:
(1)大规模海量数据信息。目前Web上的数据以TB数量级计算,且在迅速地增长和更新。(2)分布广泛。Web是一巨大、分布广泛,全球性的信息服务中心。
(3)异质、动态的信息源。Web及其数据的更新、增长速度极快,也无固定的模式。Web上的信息几乎都是隐藏的、潜在的、未知的。
(4)信息具有丰富的内涵。既有涉及经济、文化、教育、新闻、娱乐、电子商务等丰富的信息服务,又蕴涵着访问页面特性、访问路径特性、访问时间特性这些潜在的访问信息。
Web是一个巨大的、广泛分布的、异构的、半结构的、超文本P超媒体的、相互联系并且不断变化的信息仓库,其中包括链接信息、访问使用信息等。这大量的非结构化数据是无法使用现有数据库管理系统来处理和管理的,这就对Web进行有效的信息抽取和知识发现带来了极大的挑战,也使得Web数据挖掘更加复杂。31Web数据挖掘的分类
[2]
Web数据挖掘是用数据挖掘技术在Web文档和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息。
[3]
按照挖掘对象的不同,可以将Web挖掘分为三大类:Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)和Web访问信息(Web日志)挖掘(WebUsageMining),如图1所示。311 Web内容挖掘
Web内容挖掘是对Web页面内容进行挖掘,是从大量的Web数据中发现信息、抽取知识的过程。这些数据既有文本数据,也有图像、音频等多媒体数据。它包括:
(1)对搜索引擎的查询结果作进一步的处理,得到更为精确和有用的信息,以增强搜索引擎的内容查询功能。
(2)数据库方法。把半结构化的Web信息重构得更结构化一些,然后就可以使用标准化的数据
[收稿日期]2005-04-20
[作者简介]王 岚(1967-),女,河南洛阳人,洛阳师范学院计算机科学系副教授,从事数据挖掘、信息处理技术
和电子商务研究。
・59・
库查询机制和挖掘方法进行分析。
图1
(3)对HTML页面内容进行挖掘。对页面中的文本进行文本挖掘,对页面中的多媒体信息进行多媒体信息挖掘。包括对页面内容摘要、分类、聚类以及关联规则发现。312 Web结构挖掘
Web结构挖掘即挖掘Web潜在的链接结构模式。在整个Web空间里,有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构之中。例如,如果我们发现一篇文章经常被引用,那么这个页面一定是非常重要的。针对一个网页链接和被链接数量等链接信息进行分析,可以发现文档间的链接结构。
超链接含有大量人类潜在的注释,权威性就隐藏在这些链接中。基于超链的拓扑结构,Web结构挖掘可进行网页分类,总结网站和网页的结构,由此获得有关不同网页间相似度及关联度的信息。
[4]
Web结构挖掘也有助于发现权威的Web页面,这样可以进行页面等级的划分。313 Web访问信息挖掘
Web访问信息挖掘即用户从Web站点的访问数据中发现有价值的信息。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息等等。
尽管WWW是一个复杂、异质、动态、庞大的信息源,然而每个Web服务器都保留了访问日志,只要用户对站点进行访问,那么用户访问信息就会被记录。只要用户访问Internet,那么必然至少有一个服务器记录其访问和交流信息。
Web访问信息挖掘最终是在海量的Web日志数据中自动、快速地发现用户的访问模式,由此所得的结果既可作为优化站点拓扑结构及页面之间的超链接关系的依据,也是在Web上进行电子商务活动的依据,还可以作为网站为用户提供个性化服务和构建智能化Web站点的依据。41Web访问日志挖掘的基本算法
现在,越来越多的企业利用Internet进行商务活动,对企业来说,访问信息挖掘是一种很重要的信息获取方式。用户在Web站点上的商业活动和浏览访问信息都记录在log文件中,Web日志挖掘就是从服务器的log文件或其他数据中分析用户的访问模式。
[2]
Web日志挖掘可分为三个阶段:数据预处理、数据挖掘和对挖掘出的模式进行分析。数据预处理将原始的日志文件经过一系列的数据处理转化成事务数据库,供数据挖掘阶段使用。数据挖掘阶段
[5]
对数据预处理所形成的事务数据库,利用数据挖掘的一些有效算法来发现隐藏的模式、规则。然后主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式。
在此主要分析一个Web日志挖掘的几种基本算法:411 关联规则的发现
通过关联分析挖掘出隐藏在数据间的相互关系,发现用户浏览时的相关页面。最常利用Aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。
如通过对Web站点服务器的日志进行关联规则的挖掘,发现访问室内排球页面的用户,其中的45%也访问手球页面。访问羽毛球和跳水页面的用户,其中的59%也访问桌球页面。
进行Web挖掘,利用在Web上的关联规则的发现,构建关联模型,可以针对客户动态调整站点的结构,使用户访问的有关联的文件间的连接能够比较直接。减少用户过滤信息的负担,网站若具有这样的便利性,能给用户留下好的印象,增加了下次访问的机率,也就为电子商务的开展提供了先机。412 路径分析・60・
路径分析可用于发现Web站点中最经常被访问的路径,从而调整站点的结构。
将网站上的页面定义成节点,页面之间的超级链接定义成图中的边,这样就形成网站结构图,从图中确定最频繁的访问路径。
如一个网站,它包括页面{A,B,C,D,E,F,G},这些页面之间通过超链接相连,其中A为这个网站的主页。网站的访问记录中有大量的不同访问者的访问路径数据,通过数据挖掘发现有许多用户在连接主页A后都会沿着A-B-C-D-E的访问路径访问E,网站就应该在主页A上增加一个直接到E页面的链接,以方便用户的使用。通过路径分析,可以改进页面及网站结构的设计。413 分类
分类是将数据项按照预先定义的类别进行划分。在Web日志挖掘中,分类分析的输入集是一组记录集合和几种标记,首先为每个记录赋予一个标记,即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。例如我们可能从日志中发现:在PproductPmp3提交订单的用户中,有40%是居住在大中城市并且年龄段在18~28岁之间。得到这个分类后,就可以针对这部分用户群的特点开展商务活动,并提供有针对性的个性化服务。414 聚类分析
聚类分析不同于分类,其输入集是一组未标记的记录,也就是此时输入的记录还没有进行任何分类。聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户,使管理员更多地了解用户,为用户提供更满意、更个性化的服务。
如有一些用户经常浏览“TOFEL”,“GRE”,“application”,“visa”的信息,经过分析这些用户被聚类为一组,就可以知道这是一组“expectingoverseasstudent”用户。这样,Web可自动给这个特点的用户聚类群发送新信息邮件,及时调整页面及页面内容,使网站管理活动能够在一定程序上满足用户的需求,使此Web站点活动更有意义和价值。415 序列模式
序列模式指在时序数据集中发现在时间上具有先后顺序的数据项。它与关联挖掘都是从用户访问的日志中寻找用户普遍访问的规律,关联挖掘更注重事务内的关系,序列模式挖掘则注意事务间的关系。在Web日志挖掘中,序列模式识别指寻找用户会话中在时间上有先后关系的页面请求。
如在线定购电脑的用户,60%的人会在3个月内定购打印机。发现序列模式能够便于电子商务的
[6]
决策者预测客户的访问模式,对客户提供个性化服务;网站管理员可利用发现的序列模式预测用户即将可能请求的页面,这样就可以针对特定用户在页面中放置不同的广告来增加广告点击率。51结束语
Web挖掘研究是WWW和数据挖掘结合的一种新技术。目前国内的Web挖掘尚处于学习、跟踪和探索阶段,随着Web应用日益被广泛接受,越来越多的信息被存放在Web上,Web挖掘在信息的准确检索、个性化信息服务、开展有针对性的电子商务、构建智能化站点等方面将起到重要作用。Web挖掘的研究具有广阔的应用前景和巨大的现实意义。
[参考文献]
[1]范明,孟小峰,等译.数据挖掘———概念与技术[M].北京:机械工业出版式社,2004.
[2]R.Cooky.WebUsageMining:DiscoveryandApplicationofInterestingPatternsfromWebdata[M].PhDthesis,DeptofCom2puterScience,UniversityofMinnesota,May2000.
[3]OEyzioni.Theworldwildweb:Quagmireorgoldmine[J].CommunicationoftheACM,1996,39(11).[4]ChakrabartiS,DomBE,KumarSR,etal.MiningtheWeb’sLinkStructure[J].Computer,1999,32(8):60-67.[5]王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31.
[6]蒋良孝,蔡之华.电子商务中的数据挖掘及其应用[J].计算机工程与设计,2003,24(6):74-77.
DataExcavationResearchBasedontheWeb
WANGLan,ZHANGPeng-xiang
(ComputerScienceDepartment,LuoyangNormalCollege,Luoyang471022,China)
Abstract:DataexcavationbasedontheWebisapopularresearchtopicthatjoinsthedataexcavationandWWWto2gether.ThispaperintroducesthecharacteristicsandthreekindsofclassificationsinthestudyofWebdataexcava2tion:theWebcontentsexcavation,theWebconstructionexcavationandtheWebuseexcavation.ItsummarizesandintroducesthecommondataexcavationtechniqueoftheWebdailyrecordexcavation.
Keywords:dataexcavation;Webexcavation;Webdailyrecordexcavation;electroniccommerce
・61・
因篇幅问题不能全部显示,请点此查看更多更全内容