知识抽取与知识挖掘
前言
知识抽取是构建大规模知识图谱的重要环节,而知识挖掘是在已有知识图谱的基础上发现隐藏的知识。1。非结构化数据的知识抽取
大量的数据以非结构化数据的形式存在,如新闻报道、文学,读书等。我们将从实体抽取、关系抽取和事件抽取进行介绍。1。2实体抽取
实体抽取又称命名实体识别,其目的是从文本中抽取实体信息元素,包括人名、时间、地点、数值等。实体抽取是解决很多自然语言处理问题的基础。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去。实体抽取问题的研究开展得比较早,该领域积累了大量的方法。总体上,可以将已有的方法分为基于规则的方法、基于统计模型的方法和基于深度学习的方法。
1。2。1基于规则的方法
早期的命名实体识别方法主要采用人工编制规则的方法进行实体的抽取。这类方法首先需要构建大量的实体抽取规则。一般由相关领域的知识专家进行手工构建,然后将这些规则与文本字符串进行匹配,识别命名实体。
这种实体抽取方法在小数据集上可以达到很高的准确率和召回率(召回率(Recall)系统检索到的相关文件系统所有相关的文件总数)但是随着数据集的增大,规则集的构建周期变长,并且移植性较差。
1。2。2基于统计模型的方法
基于统计模型的方法利用完全标注或标注的语料进行模型训练,主要采用的模型包括隐马尔可夫模型、条件马尔可夫模型、最大熵模型以及条件随机场模型。
这类方法将命名识别作为序列标注问题处理。与普通的分类问题相比,序列标注问题中当前标签的预测不仅与当前的输入特征相关,还与之前的预测标签相关,即预测序列是有强相互依赖关系的。
基于统计模型构建命名识别方法主要涉及训练语料标注、特征定义和模型训练三个方面:
训练语料标注:为了构建统计模型的训练语料。一般采用InsideOutsideBeginning(IOB)或InsideOutside(IO)标注体系对文本进行人工标注。在IOB标注体系中,文本中的每个词被标记为实体名的启始词(B)、实体名称的后续词(I)或实体名称的外部词(D)。而在IO标注体系中,文本的词被标记为实体名称内部词(I)或实体名称外部词(D)。
特征定义。在训练模型之前,统计模型需要计算每个词的一组特征作为模型的输入,这些特征具体包含单词级别特征、词典特征和文档级特征等。单词级别特征包含是否首字母大写、是否以句点结尾、是否包含数字、词性等。词典级别特征依赖外部词典定义,例如预定义的词表、地点列表等。文档级特征基于整个语料文档集计算,如文档集中的词频、同现词等。
模型训练:隐马尔可夫(HMM)和条件随机场(CRF)是两个常用于标注问题的统计学习模型,也被广泛应用于实体抽取问题。
1。2。3基于深度学习的方法
随着深度学习在自然语言处理的广泛应用,深度神经网络也被广泛的成功用于命名实体识别问题,并取得很好地效果。与传统统计模型相比,基于深度学习的方法直接以文本中词的向量为输入,通过神经网络实现端到端的命名实体识别,不再依赖人工定义的特征。目前,用于命名实体识别的神经网络主要有卷积神经网络(ConvolutionalNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)以及引入注意力机制(AttentionMechanism)的神经网络。1。3关系抽取
关系抽取是从文本中抽取两个或者多个实体之间的语义关系。关系抽取与实体抽取密切相关,一般在识别出文本中的实体后,在抽取实体之间可能存在的关系。目前,关系抽取得方法可以分为基于模板的关系抽取方法,基于监督学习的关系抽取方法和基于弱监督学习的抽取方法。
1。3。1基于模板的关系抽取方法
在早期的实体关系方法大多数基于模板匹配实现。该类方法基于语言学知识,结构语料的特点,由领域专家手工编写模板,从文本中匹配具有特定关系的实体。
在小规模、限定领域的实体关系抽取问题上,基于模板的方法能够取得较好的效果。优点是模板构建简单,可以比较快地在小规模数据集上实现关系的抽取系统。但是,当数据规模较大是,手工构建某班需要消耗专家大量的时间,此外,系统的可移植性差。
1。3。2基于监督学习的抽取方法
基于监督学习的抽取方法将关系抽取转化为分类问题。在大量标注数据的基础上,训练有监督学习模型进行关系抽取。一般的步骤包括:
预定义关系的类型
人工标注数据
设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得
选择分类模型,基于标注数据训练模型
对训练的模型进行评估
传统的基于监督学习的关系抽取是一种依赖特征工程的方法,近年来有多个基于深度学习的关系抽取模型被研究者们提出。目前,已有的基于深度学习的关系抽取方法主要包括流水线方法和联合抽取方法两大类。流水线方法将识别实体和关系抽取作为两个分离的过程进行处理,两者不会相互影响;关系抽取在实体抽取结果的基础上进行,因此关系抽取的结果也依赖于实体抽取的结果。联合抽取方法将实体抽取和关系抽取相结合,在统一的模型中共同优化;联合抽取方法可以避免流水线方法存在的错误积累问题。
1。3。3基于弱监督学习的关系抽取方法
基于监督学习的关系抽取方法需要大量的训练语料,特别是基于深度学习的方法,模型的优化更依赖大量的训练数据。当训练语料不足时,弱监督学习方法可以只利用少量的标注数据进行模型学习。基于弱监督学习的关系抽取方法主要包括远程监督方法和Bootstrapping方法。
(1)远程监督方法。远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据,减少模型对人工标注数据的依赖,增强模型的跨领域适应能力。远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系,则包含两个实体的句子均表达了这种关系。
因此,远程监督关系抽取方法的一般步骤为:
从知识图谱中抽取存在目标关系的实体对;
从非结构化文本中抽取含有实体对的句子作为训练样例;
训练监督学习模型进行关系抽取。
远程监督关系抽取方法可以利用丰富的知识图谱信息获取训练数据,有效地减少了人工标注的工作量。但是,基于远程监督的假设,大量噪声会被引入到训练数据中,从而引发语义漂移的现象。
(2)Bootstrapping方法。Bootstrapping方法利用少量的实例作为初始种子集合,然后在种子集合上学习获得关系抽取的模板,再利用模板抽取更多的实例,加入种子集合中。通过不断地迭代,Bootstrapping方法可以从文本中抽取关系的大量实例。
Bootstrapping方法的优点是关系抽取系统构建成本低,适合大规模的关系抽取任务,并且具备发现新关系的能力。但是,Bootstrapping方法也存在不足之处,包括对初始种子较为敏感、存在语义漂移问题、结果准确率较低等。1。4事件抽取
事件是指发生的事情,通常具有时间、地点、参与者等属性。事件的发生可能是因为一个动作的产生或者系统状态的改变。事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等
一般地,事件抽取任务包含的子任务有:
识别事件触发词及事件类型;
抽取事件元素的同时判断其角色;
抽出描述事件的词组或句子;
事件属性标注;
事件共指消解。
已有的事件抽取方法可以分为流水线方法和联合抽取方法两大类。
1)。事件抽取的流水线方法流水线方法将事件抽取任务分解为一系列基于分类的子任务,包括事件识别、元素抽取、属性分类和可报告性判别;每一个子任务由一个机器学习分类器负责实施。一个基本的事件抽取流水线需要的分类器包括:
(1)事件触发词分类器。判断词汇是否为事件触发词,并基于触发词信息对事件类别进行分类。
(2)元素分类器。判断词组是否为事件的元素。
(3)元素角色分类器。判定事件元素的角色类别。
(4)属性分类器。判定事件的属性。
(5)可报告性分类器。判定是否存在值得报告的事件实例。
2)。事件的联合抽取方法事件抽取的流水线方法在每个子任务阶段都有可能存在误差,这种误差会从前面的环节逐步传播到后面的环节,从而导致误差不断累积,使得事件抽取的性能急剧衰减。为了解决这一问题,一些研究工作提出了事件的联合抽取方法。在联合抽取方法中,事件的所有相关信息会通过一个模型同时抽取出来。一般地,联合事件抽取方法可以采用联合推断或联合建模的方法
做什么生意(适合小区做的44个生意)现在中国的居住地方都是以小区为单位,一个小区里面起码有者几千人在里面,所以在小区做点生意还是可以做的,尤其是开小卖部的就非常好,不用出去小区,直接送货上门,多方便。一、收……
为什么电脑连不上无线网(笔记本电脑连接不上网络怎么办)我们在电脑上搜索网络,找到无线网络的名称之后,我们首先要进行的就是输入密码的操作,有时候就是因为我们输入的密码错误了导致连接不上。这时候需要确认密码是否有错误。如果密码忘……
结婚男方需要准备什么(订婚男方要准备6样礼)在某些地区会有订婚一说。订婚是在婚礼前的一个重要流程。当男女双方准备订婚时就告知大家他们要准备结婚了。那么,男女双方订婚需要准备什么?男女订婚物品清单。一、订婚男方准备物……
上半年服装企业集体哑火,多达21家下盘不稳?附三大增长思路疫情可以说是影响服装销量下滑的因素之一,但不曾是品牌下滑的唯一借口。上半年服装企业集体哑火已成事实,许多知名品牌因下盘不稳难以抵御疫情的冲击,欠薪、重组、关店比比皆是,这……
为什么那么多人骂鹿晗(鹿晗为什么那么多人喜欢)前言无疑,鹿晗是美的,漂亮的!但他的美也是有争议的,喜欢的人推崇备至,五体投地!不喜欢的人嗤之以鼻,冷嘲热讽!其实,美本就是多种多样的,审美也是因人而异的,别人喜欢的我们……
为什么那么多人黑双笙(双笙黑照)新一期的江苏卫视《京都念慈菴蒙面唱将猜猜猜》登场了新晋唱将一只表情包。面具造型是一只圆嘟嘟脸蛋儿的小笼包,惹人爱的闪亮大眼睛时刻卖萌,仅仅一期就被猜评团发现她是新生代歌手双笙。……
咎由自取是什么意思(咎由自取打一生肖)黑熊生活在大山深处,力大无穷,是让人恐惧的猛兽,人称黑瞎子。那么,黑瞎子、老实人、奸猾者、美女,他们凑到一块儿,会上演什么好戏呢?柴兴志1。山林奇遇裴全是林场……
顺丰超重一公斤多少钱(顺丰快递收费多少钱)刚刚在顺丰把儿子上学的被褥打包好,付款100元。顺丰快递的价格是省外18元(1公斤内)超出每公斤5元一个纸箱6元1元保险(包裹总重16公斤)。大家说合不合算。随着开学日益……
心肌梗死后能活多久(心梗能治好后能活几年)根据来自2019年的我国死亡数据统计报告显示,这一年中我国因各种疾病离世的患者达到了1065万人左右,这其中因心脑血管病而离世的患者就占据了458万人。单纯按照这一数据来……
电竞重返白银时代再无黄金时代。电竞是什么?发展到哪个阶段了?这两个问题每年都要被学者、专家和媒体集中讨论,尤其是每年的腾讯电竞发布会后,2022年依旧如此。有人说我国电竞产业……
散文登泰山文杨先旺登泰山回来后,几次提笔想写点儿登山的感受,但很久迟迟不能下笔,究其原因,关于泰山的鸿篇佳作实在太多,仰其项背,赧汗淋漓。但最终也要写的,作为一点儿纪念吧。原……
红薯煮多久能熟(煮熟的红薯放三天还能吃吗)现在生活水平高了,家里面的电器也是越来越齐全了,厨房里的工具也是越来越多,很多朋友家都有了烤箱,很多人没事的时候就喜欢用烤箱做些美味的食物。家里有的方便了,就不想买外面的吃了,……