您好,欢迎来到画鸵萌宠网。
搜索
您的当前位置:首页面向知识图谱的信息抽取

面向知识图谱的信息抽取

来源:画鸵萌宠网

面向知识图谱的信息抽取

 

点击蓝字 · 关注我们

来源:《 数据挖掘,》 ,作者赵海霞等

关键词: 知识图谱;信息抽取;实体抽取;关系抽取;开放域

摘要:

 摘要: 随着大数据时代的到来,海量数据不断涌现,从中寻找有用信息,抽取对应知识的需求变得越来越强烈。针对该需求,知识图谱技术应运而生,并在实现知识互联的过程中日益发挥重要作用。信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时,由于具有多样化的实现方法,扩充了信息抽取技术的应用领域和场景,也提升了对信息抽取技术研究的价值和必要性的认可度。本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。

1. 引言

随着计算机技术和互联网的飞速发展和知识互联时代的到来,人们期寄着构建一个更加智能的、机器可理解可计算的万维网。知识图谱(Knowledge Graph)的概念逐渐出现在人们视野中。知识图谱在语义处理、开放处理等功能方面都显现出很强的能力,在智能推荐、问答和对话系统以及大数据分析和决策等应用中也体现出越来越重要的价值。知识图谱预计将在互联网知识互联的实现过程中起到中流砥柱的作用。

文献 [1] 给出了知识图谱的定义:知识图谱是一个用于描述物理世界中的概念及其联系的语义网络,它包含以下三个重要的因素:1) 概念。概念可以是实体、属性,也可以是一个事实,例如“一个人有两只手”。概念通常被描述为节点;2) 关系。关系是两个概念节点之间的语义联系,例如属性关系、拥有关系等;3) 概念和关系的背景知识。因为同一个概念和关系都有许多不同的表达方式,因此需要其背景知识作为提供查询的字典或者本体对多种表现形式进行连接。

知识图谱是知识工程在现今大数据阶段的一个标志性工具。知识工程是将人工智能的原理和方法 [2] 用于构建大规模知识库。知识工程创立者费根鲍姆(Feigenbaum)给出了知识工程的确切定义,即将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务 [3]。知识工程从以图灵测试为代表的前知识工程开始,经历了以知识库、框架、推理机为核心的专家系统,Web1.0、群体智能Web2.0等发展阶段,随着2012年知识图谱概念的提出以及Dbpedia、Freebase、YAGO等知识库的建立,知识工程发展进入了一个新的发展阶段 [4],即大数据知识工程(BigKE)。大数据知识工程实现了对数据中的语义,包括隐含语义的挖掘,使数据成为了智慧数据(Smart Data),其目标是自动或半自动地获取知识,融合碎片化知识,然后建立基于知识的系统 [2],最终达到为一众应用(例如,语义搜索系统、智能推荐系统、问答和对话系统以及大数据分析与决策)提供互联网智能知识服务的目的。

知识图谱的构建经历了人工构建和群体构建(众包),现在自动构建技术成为了各个业界的研究热点 [5]。知识图谱构建的两个基本构造是“实体–关系–实体”三元组和“实体–属性(值)”键值对的构建。实体通过它们之间的关系连接在一起形成图数据库 [1]。知识图谱的构建从数据来源分类,可分为面向结构化数据、面向半结构化数据以及面向非结构化数据的知识图谱构建。本文主要介绍面向非结构化数据的知识图谱构建过程,以及应用的关键信息抽取技术。吴信东等人在文献 [6] 提出了大数据知识工程模型BigKE,实现了三层次的知识建模过程:首先对大数据进行三阶段处理,进行在线挖掘学习得到碎片化知识模型;接着对碎片化知识进行多个步骤的知识融合;最终实现以需求为导向的知识服务。因此,对应于BigKE提出的三层次过程,知识图谱的构建(Knowledge Graph Construction)技术按照自底向上的过程也包括三个层次:信息抽取(Information Extraction)、知识融合(Knowledge Fusion)和知识加工(Knowledge Processing) [7]。

基于大数据知识工程下知识图谱的构建,如吴信东等人在文献 [8] 提出的HACE定理所述,信息抽取可以描述为这样的一个过程:首先,第一阶段对大量孤立、模糊、复杂的动态非结构化数据进行初步处理和计算;然后,第二阶段对数据进行深层语义分析、用户隐私保护问题分析以及应用领域知识的结合分析;最后,第三阶段选择合适的挖掘算法和抽取技术进行数据抽取和融合 [8]。通过将抽取得到的碎片化知识存入知识库的数据层和模式层,我们最终可以对数据形成本体化表达。这里的抽取技术又按照抽取过程分为实体抽取(Entity Extraction)、关系抽取(Relation Extraction)、属性抽取(Attribute Extraction)以及实体链接(Entity Linking)等 [9] [10]。其中,实体抽取用于发现文本或者网页中的命名实体,并将其加入现有知识库中。关系抽取用于自动抽取实体之间存在的语义关系。属性抽取属于一种特殊的关系抽取。信息抽取的目标是自动化知识获取,即实现自动地从异构数据源中抽取实体、关系、属性等信息进而得到候选知识单元。

由于知识图谱的构建过程是通过以结构化形式描述客观世界中的概念、实体以及其关系开始的 [11],概念、实体、关系等信息提取的准确性对构建过程至关重要,信息丢失、冗余、重叠往往是知识图谱构建面临的最大挑战 [1]。作为知识图谱构建的第一步,信息抽取是得到候选知识单元的关键。信息抽取的完整度、准确度直接显性影响后续知识图谱构建步骤的质量和效率以及最终知识图谱的质量。

面向知识图谱的信息抽取与传统信息抽取有很大区别。面向知识图谱的信息抽取大多面向开放域(Open Domain)而不再是限定领域(Closed Domain)。同时,随着维基百科(Wikipedia)等知识库的出现,知识图谱的数据源从有限的文本类型扩展为多源、异构、语义结构复杂的海量数据。因此,信息抽取的核心技术从单一的文本分析变为复杂的知识发现、知识链接等,并在新的应用场景和领域中对现有技术和实现方法提出了新的挑战问题。

信息抽取作为构建知识图谱的基础技术,实现了从大规模数据中获取结构化的命名实体及其属性或关联信息。同时,由于具有多样化的实现方法,扩充了信息抽取技术的应用领域和场景,也提升了对信息抽取技术研究的价值和必要性的认可度。

本文首先以知识图谱的构建框架为背景。探讨信息抽取研究的意义;然后从MUC、ACE和ICDM三个国际测评会议的角度回顾信息抽取的发展历史;接着,基于面向限定域和开放域两个方面,介绍信息抽取的关键技术,包括实体抽取技术、关系抽取技术和属性抽取技术。

2. 信息抽取研究的发展历史

2.1. 信息抽取相关概念

信息抽取系统是一种从大量信息源中迅速抛开无效信息找到有用信息的信息获取工具。关于信息抽取的定义有以下几种。

定义1 信息抽取的目标是从海量数据中,尤其是本文数据中,快速精准分析抽取出特定的事实信息(Factual Information),将其转换成可理解可使用的结构化形式信息 [12],最后将条理的结构化信息存储在数据库中,等待下一步的分析利用。

定义2 信息抽取是一种自动地从结构化(Structured Data)、半结构化(Semi-structured Data)或非结构化(Unstructured Data)数据中抽取概念、实体、事件,以及其相关的属性和之间的关联关系等结构化信息的技术 [13]。

信息抽取带有一定的文本理解。可以看作深层的信息检索技术,也可以看作是简化的文本理解技术。信息抽取通常从两方面进行实现:一类是基于知识发现(Knowledge Discovery in Databases, KDD)和数据挖掘(Data Mining)的方法,通常处理结构化、半结构化的数据;另一类是基于自然语言处理(Natural Language Processing, NLP)和文本挖掘(Text Mining)的方法 [12],通常处理非结构化数据。信息抽取的具体方法可分为三类:第一类是基于规则(基于专家系统)的方法。主要在早期使用,使用人工编制规则,存在效率低,系统可移植性差等不可忽视的局限性;第二类是基于统计的方法,可在一定程度弥补第一类方法的缺点;第三类是基于机器学习的方法,,它大幅减少了人工干预,并具有处理新文本的能力,是目前常用的方法。

2.2. 信息抽取发展史

2.2.1. MUC会议和ACE会议

到20世纪80年代末,由于消息理解系列会议(Message Understanding Conference, MUC)的召开,信息抽取技术开始飞速发展,逐渐进入蓬勃期,成为了自然语言处理领域的重要分支之一。

MUC会议自1987年召开第一届起,一共进行了7届会议。会议由美国国防高级计划研究局DARPA资助,其主要目的是对信息抽取系统进行评测 [14],是典型的评测驱动会议。会前MUC组织会提供样例文本和抽取任务说明,参会单位进行信息抽取系统的开发。在会议召开时参会单位将对各自系统进行样例文本集合的测试,然后通过与手工标注结果进行对比,得到评测结果。最后在会议中对评测结果进行分享、交流、讨论。

MUC会议在抽取任务中定义了模板、槽的填充规则以及模板填充机制,将信息抽取规定为模板填充的过程,模板填充即将抽取出的文本信息按照一定规则填入模板的相应槽中 [12]。除此,会议还定义了一套完整的评价指标,由准确率(Precision)、召回率(Recall)、F1值以及平均填充错误率(Error Per Response Fill, EPRF)等进行结果评价。

在会议的逐年开展过程中,信息抽取任务逐渐细化、复杂化:抽取模板由单一的扁平结构变为多个模板的嵌套结构;组成模板的槽,从18个、24个到47个的逐渐增加;评测任务也在开始仅有的场景模板(Scenario Templates)填充任务上进行了命名实体识别(Named Entity Recognition)任务、共指消解(Coreference Resolution)、模板元素填充(Template Elements)、模板关系抽取和事件抽取等的任务扩充。

总之,MUC会议的召开吸引了世界各地的研究者开始信息抽取系统的开发,在信息抽取研究的实践和理论方面都起到了极大的促进作用 [15],并确立了信息抽取的各种标准和规范,以及信息抽取技术的研究和发展方向。

继MUC之后,2000年12月,由美国国家标准技术学会(NIST)、美国国家(NSA)以及情报局(CIA)共同主管举办的自动内容抽取(Automatic Content Extraction, ACE)评测会议接着成为了信息抽取研究的又一巨大推动力,将信息抽取技术推向了一

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务