推荐7篇关于细粒度实体分类的计算机专业论文

今天分享的是关于细粒度实体分类的7篇计算机毕业论文范文, 如果你的论文涉及到细粒度实体分类等主题,本文能够帮助到你

细粒度实体分类与短文本实体链接研究

这是一篇关于细粒度实体分类,BERT,联合向量,短文本实体链接,多任务学习,信息不充分的论文, 主要内容为互联网中的文本数据在当前的大数据时代呈现爆炸式增长,如何从海量的互联网文本中准确地找出对人们有价值的信息成为当前的热点研究问题。知识图谱的产生为海量互联网数据的充分利用提供了可能。细粒度实体分类是信息抽取任务中的关键环节,能够为实体链接和知识图谱的下游应用提供辅助作用;实体链接是知识图谱构建和应用过程中的关键技术。论文主要研究内容为细粒度实体分类和短文本实体链接,研究成果如下:(1)提出一种基于BERT的细粒度实体分类方法。首先将样本输入BERT层进行特征提取,然后取BERT输出的[CLS]位置对应的向量作为输入文本的句子向量;根据实体指称在输入文本中的开始和结束位置取BERT输出中对应位置的向量,将其拼接作为实体指称特征向量。将实体指称特征向量和句子向量拼接组成联合向量,将联合特征向量输入分类层对实体指称进行分类。实验结果表明,本章提出的细粒度实体分类方法能够有效解决中文细粒度实体分类问题。(2)提出一种基于多任务学习的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中。构建多任务学习模型,将短文本实体链接作为主任务,引入实体分类作为辅助任务,辅助任务能够缓解短文本实体链接过程中信息不充分的问题,促使模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020(全国知识图谱与语义计算大会)任务二数据集上的实验表明,该方法取得了较好的实体链接效果,可以有效解决短文本实体链接过程中的信息不充分问题。

基于预训练模型的细粒度实体分类研究与实现

这是一篇关于细粒度实体分类,预训练模型,双曲空间,微调,句子嵌入的论文, 主要内容为随着互联网的发展,随时都会产生大量的非结构化的数据,所以需要利用信息抽取的技术对这些数据进行存储与利用。细粒度实体分类是信息抽取的关键性技术之一,为实体链接,知识图谱等任务提供支持。细粒度实体分类任务的目标是根据所提供的候选实体与其上下文,将候选实体归到正确的类别。与传统命名实体识别所不同的是,细粒度实体分类是多标签多分类任务,提取与细粒度实体分类任务紧密相关的特征,决定了分类结果的好坏,也会对下游任务产生影响。预训练模型得益于其强大的表征能力,自被研究者提出以来,广泛的应用在了自然语言处理的诸多领域。预训练模型主要通过特征提取与微调应用到具体任务中。在特征提取方面,本文使用ELMo预训练模型的词向量替代传统的词向量;在微调方面,本文使用BERT、XLNet、RoBERTa以及LUKE四种预训练模型进行细粒度实体分类,并通过基于Sentence-transformer和基于对比学习两种方式,对RoBERTa模型进行微调。论文的主要贡献如下:1.提出基于预训练词向量和双曲空间的细粒度实体分类方法。本文使用ELMo词向量进行细粒度实体分类任务,并且针对细粒度实体分类中类别过细,各类别之间出现了层次结构这一问题,使用更适合层次结构的双曲空间进行解决。实验验证了使用ELMo词向量与双曲空间进行细粒度实体分类的性能更好。2.提出基于微调预训练模型的细粒度实体分类方法。通过微调BERT、XLNet、RoBERTa以及LUKE进行细粒度实体分类。基于Sentence-transformer、对比学习对 RoBERTa 进行微调以获取具有语义信息的句子嵌入来进行细粒度实体分类。3.在UFET标准数据集上的实验结果验证了基于预训练词向量与基于微调的方法均能够提升细粒度实体分类性能。

基于远程监督的细粒度实体分类方法研究

这是一篇关于细粒度实体分类,远程监督,标签平滑,课程学习,半监督学习的论文, 主要内容为细粒度实体分类任务是信息抽取中的一项重要任务,其目标是将句子中出现的实体指称项分类到一组预定义的细粒度概念集合中。理解句子中实体指称项的概念有助于各种下游应用,例如实体链接、问答系统、推荐系统等。目前流行的细粒度实体分类模型主要基于深度学习,需要大量高质量的标注数据用于训练。然而,由人工进行标注代价高昂。因此,远程监督方法被提出用于自动地生成大规模的细粒度实体分类标注数据。其基本思想是引入外部知识库,将句子中的实体指称项链接到外部知识库的实体上,并将该实体的所属概念集作为句子中实体指称项的标注结果。尽管远程监督能够高效地生成大量的标注数据,但由于其标注的时候并没有考虑实体指称项所在的上下文信息,容易产生噪声标签。使用带噪声标签的数据训练会显著降低模型的性能。为了解决这一问题,现有的大多数方法都假定远程监督标注的细粒度实体分类数据集可以分为“干净”集和“噪声”集,并使用了不同的策略来划分和处理这两类数据。但这些方法仍然存在两方面挑战:(1)当前方法使用的“干净”集主要通过人工标注或启发式规则产生。前者需要额外的人工代价,后者产生的“干净”集的标签依然存在假阳性问题(即噪声标签)。(2)当前方法主要采用基于部分标签损失的方法来处理“噪声”集,即模型将自身的预测结果作为下一步训练的优化目标,这会导致确认偏差的问题。针对当前方法存在的挑战,本文提出了两种不同的解决方案。具体来说,本文的研究内容及主要贡献如下:(1)本文提出了一种基于三阶段课程学习的细粒度实体分类方法,迭代地从远程监督标注的数据集中自动筛选出干净的数据用于训练细粒度实体分类模型,解决了当前使用“干净”集的方法需要额外的人工代价或者存在假阳性的问题。同时,在课程学习的三个不同阶段中,针对当前数据集中存在的噪声问题,提出了基于不同策略的层次化标签平滑方法,用于对训练数据的标签进行不同程度的平滑,并用平滑后的标签来训练分类模型,防止模型拟合噪声数据。(2)本文提出了一种基于半监督学习的细粒度实体分类方法,具体来说,本文将“干净”集视为标注数据,“噪声”集视为无标注数据。针对“干净”集上的假阳性问题,本文提出了一种混合标签平滑方法来生成“干净”集中数据的平滑标签用于模型训练,避免对噪声数据的过拟合。针对“噪声”集上的确认偏差问题,本文不考虑“噪声”集中数据的原始标签,而是使用伪标签技术为“噪声”集中的数据生成可靠的伪标签用于模型训练。(3)本文在三个广泛使用的基于远程监督的细粒度实体分类数据集上进行实验。对于基于三阶段课程学习的细粒度实体分类方法,该方法与当时最相关的基线方法进行比较,实验结果表明使用该方法在三个数据集上都取得了比基线方法更好的效果,样例分析表明了该方法能够筛选干净数据。对于基于半监督学习的细粒度实体分类方法,该方法与当时最相关的基线方法在三个数据集上进行对比,实验结果表明了该方法的有效性,并显示了该方法优于其他基于半监督学习的去噪方法。

基于多任务的元学习方法在细粒度实体分类中的研究

这是一篇关于细粒度实体分类,元学习,多任务学习,少样本学习的论文, 主要内容为互联网发展至今,每时每刻都会产生海量的非结构化信息数据,需要利用信息抽取技术自动地将其转化为结构化知识数据存储并利用。细粒度实体分类任务是信息抽取研究关键性的基础任务之一,为知识图谱、知识库的构建提供了关键性的技术支撑。细粒度实体分类领域高质量数据资源匮乏,人工标注成本高,数据成为了模型的瓶颈。如何利用已有资源数据,获得更好的模型泛化能力,以及如何在少样本领域,有效地利用新标注的资源,都是亟待解决的问题。本文针对上述挑战,提出了两种方法,一种是针对整合现有数据集的多任务学习方法,另一种则是针对少样本领域的多任务元学习方法。(1)基于多任务的细粒度实体分类的方法。本文设计了基于多任务学习的硬参数共享机制,通过整合多个现有数据集和自主创建的数据集,得到一个通用型模型。此模型借助实体类型的层级信息,构建了实体类型的嵌入式表达;并通过共享特征抽取层,隐式地增加了训练数据,提高了网络的学习能力;在任务层方面,增强了与任务相关的信息,使得共享层的输出能够更加贴合任务本身,进一步提升模型拟合能力。实验结果证明,不论是数据集还是多任务学习的方法,对于细粒度实体分类任务都有较强的提升效果,最佳的模型在原基准模型上有百分之五十的提升。(2)基于多任务的元学习细粒度实体分类的方法。本文设计了一种基于多任务的元学习实验,在新任务上进行训练测试,进而比较模型学会学习的能力。在此基础上本文提出了两种方法:一种是基于梯度下降的元学习算法,它具有较快拟合,且普适性广的特点;另一种是基于原型网络的元学习算法,通过对每个任务中每个实体类型建立原型表征,令模型学习任务之间的先验分布,并通过使用该先验分布的训练结果,使模型在新数据集上取得更出色的成绩。最后通过实验结果表明基于多任务的元学习模型的结果能在基准模型上提升将近百分之四十,进一步证明了上述两种方法的优越性,为少量样本中的细粒度实体分类问题提供了新思路。本文提出的两种方法消除了现有细粒度实体分类数据集之间的鸿沟,也在一定程度上解决了少样本领域中细粒度实体分类的问题。此外,本文提出的方法参加了TAC 2019年知识库构建大赛,并取得了国内第一的成绩,并将方法直接应用到了由中国工程院牵头的中国工程科技知识中心建设项目,为知识库构建发挥了重要的作用。

基于知识图谱表示学习的细粒度实体分类算法研究

这是一篇关于知识图谱,细粒度实体分类,表示学习的论文, 主要内容为实体的类型信息在知识图谱中非常重要,实体的类型信息粒度越细,其在各种知识图谱相关的任务(例如:实体链接、关系预测、问答系统等)中起到的作用就越大。然而,很多常见的知识图谱中存在着大量缺失类型的实体,实体分类的任务就是为这样的实体补全缺失的类型。作为大多数知识图谱相关任务的上游任务,知识图谱表示学习通常根据实体之间的关系将实体和关系表示为方便参与计算的低维向量。近年来,知识图谱表示学习在实体分类任务中有着相当的应用。然而这类方法大多难以处理新出现的实体而且其表现也严重依赖于实体之间关系的稠密程度。并且,当类型粒度较细时,上述方法难以取得良好的效果。对此,本文主要研究了针对新增实体以及关系稀疏实体的知识图谱表示学习方法,并且探索了知识图谱表示学习技术如何提升细粒度实体分类的效果,从而更好地补全图谱的类型信息。本文的主要研究内容为:(1)本文针对新增实体提出了一种基于多重注意力的知识图谱表示学习方法。该方法首先通过实体的文本摘要信息来获得实体的初步表示,随后使用多重注意力机制增强实体的表示。本文在多个数据集上的实验验证了该方法对于新增实体的表示能力。(2)本文提出了一个专门面向关系稀疏的实体进行细粒度分类的方法。该方法借鉴了传统表示学习的思想,提出了一个专门用于实体分类的优化目标。同时本文引入了非连续型属性来解决部分实体关系稀疏的问题。本文在两个真实数据集上进行实验,证实了所提方法对于关系稀疏实体的分类能力。(3)针对细粒度实体分类这个下游任务,本文提出了一种基于多重注意力机制的双视角表示学习方法。该方法引入了实体分类任务中独有的类型的文本摘要信息以及类型之间的关系网络信息。首先在双视角下分别表示实体的语义向量以及类型的语义向量,随后经由得分函数获得实体是各个类型的可能性得分。实验结果证明了该方法的有效性。

基于多任务的元学习方法在细粒度实体分类中的研究

基于稀疏标注的领域本体构建和细粒度实体分类方法研究

这是一篇关于领域本体构建,领域词抽取,语言学规则,细粒度实体分类,任务无关元学习的论文, 主要内容为大数据时代的到来,在信息获取方面为人们提供了更多便利,与此同时也带来了信息爆炸的问题。如何高效地挖掘有价值的信息,已经成为当前全世界研究的热点。因此,可以关联各种信息的知识图谱应运而生。由于领域本体构建和实体分类是知识图谱构建的两个重要子任务,而领域本体构建的基础是领域词抽取,本文主要针对领域词抽取和实体分类两个任务进行研究。首先,针对领域词抽取任务中标注语料稀缺的问题,本文提出了一种基于语言学规则和BERT嵌入的领域词抽取算法。该算法运用语言学规则从领域文本中分离出严格非领域词,并将其添加到原始的稀疏标注语料库中,对语料库进行扩充,然后通过基于BERT的词分类模型,实现领域词抽取,从而提升领域词抽取的准确度。其次,针对细粒度实体分类任务中标注语料稀缺的问题,本文首次将任务无关的元学习方法应用于细粒度实体分类任务中,构建了一个基于预训练BERT模型的任务无关细粒度实体分类算法,该算法首先采用BERT预训练模型对实例中的每个单词映射到低维的向量空间,并运用模型无关的元学习方法,构建了一个基于多任务的细粒度实体分类模型;接着在预测结果基础上添加正则项,减弱任务间的不平等性,进而提高模型对新任务的泛化能力。最后,分别在自定义数据集和公开数据集上对所提出的基于语言学规则的领域词抽取方法和基于任务无关的实体分类模型进行了实验对比分析,实验结果表明,本文提出的算法具有更好的性能。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕业设计工坊，原文地址：https://m.bishedaima.com/lunwen/56156.html