水稻表型组学知识图谱实体分类及关系抽取研究
这是一篇关于水稻表型组学,知识图谱,实体分类,集成学习,关系抽取的论文, 主要内容为随着计算机技术的不断创新与发展,新一代人工智能技术如自然语言处理、物联网、大数据等技术在农业领域得到了广泛地应用,不断推动着农业信息化迅速发展。但水稻表型组学领域信息数据具有分布广泛、关系复杂、专业性强等特点,如何对水稻表型组学数据进行整合及统一管理极具挑战性。为此,本文将知识图谱技术创新性地引入到水稻表型组学领域,通过知识图谱构建技术抽取水稻表型组学领域信息及其关系,并以图的形式直观地描述它们之间的关系,以便水稻表型组学数据后期管理及深入挖掘各实体之间的关系。本文主要基于水稻表型组学知识构建水稻表型组学领域知识图谱,利用图数据库Neo4j作为水稻表型组学实体和关系的存储方式,同时研究了该领域高效的实体分类及关系抽取方法,为水稻表型组学领域知识图谱构建及农业信息和智能化应用做了有益的探索。具体研究内容如下:(1)提出了一种基于Stacking集成学习的水稻表型组学实体分类器组合模型。通过对传统分类算法的分析发现,传统的分类算法已经无法满足水稻表型组学实体的高效分类,尤其是水稻表型组学数据具有数量庞大、关系复杂和专业性强的特点。针对传统分类算法的分类准确率低且算法改进空间不大的问题,本文研究了基于堆叠式两阶段集成学习的分类器组合模型,结合TF-IDF技术和LSI模型对水稻表型组学数据进行预处理,提出了一种基于Stacking集成学习的分类器组合模型。实验结果表明,基于Stacking集成学习的水稻表型组学实体分类器组合模型能显著地提高分类效率,且实体分类准确率高,相对传统分类器,准确率平均提高6.78%。(2)研究基于注意力机制水稻表型组学实体关系抽取的深度学习模型。传统关系抽取方法或训练效率低或抽取费时费力,严重影响着关系抽取的整体表现。深度学习算法的出现克服了上述传统关系抽取方法面临的问题。另外,注意力机制能够促使模型去关注重要的部分,增加有效样本的权重。本文对基于注意力机制的深度学习算法模型及相关算法进行研究,并把相应的成果应用到水稻表型组学文本的关系抽取中,使得高效完成水稻表型组学领域实体关系的抽取。(3)构建了水稻表型组学领域知识图谱。本文主要以“国家水稻数据中心”和“互动百科”网站数据作为主要数据来源,利用Scrapy爬虫框架从上述网站获取水稻表型组学信息。通过对水稻表型组学领域知识进行分析,对该领域内的实体和关系进行抽取及类型划分,构建了水稻表型组学知识库。其中,引入了集成学习的水稻表型组学领域实体分类器组合模型对水稻表型组学领域实体进行分类,以及深度学习模型进行关系抽取。最后,为解决关系数据库存储知识的缺陷问题,本文使用图数据库Neo4j以属性图形式储存水稻表型组学知识图谱数据,并且完成水稻表型组学知识图谱系统的开发,实现知识图谱技术在农业领域的应用。(4)水稻表型组学领域知识图谱系统的功能实现。通过需求分析和架构设计,使用Django框架完成了水稻表型组学领域知识图谱系统搭建,实现了实体识别、实体查询、关系查询、知识分类、知识可视化等功能。该系统能够对水稻表型组学知识进行补充和修缮,还能准确查询知识并可视化展示,通过实例验证了系统的可靠性和实用性。
基于图神经网络的食品安全知识图谱构建研究
这是一篇关于知识图谱,食品安全,实体分类,链接预测,图神经网络的论文, 主要内容为随着经济的发展,人们对于生活质量的要求逐渐从生存的需要走向了更高的物质标准与精神的需求。食品安全问题是重要的民生问题,一旦出现往往会引发广泛关注。由于食品生产产业链条长、种类繁多,实现食品生产和流通的全链条监管面临较大的挑战。同时,食品标准各异,对特定食品标准参数的查询和检索困难。伴随着科学技术的发展,知识图谱的出现为构建一个完善的食品安全标准检索系统提供了新的思路。这种知识结构将复杂无序的信息整合为一种更有逻辑的知识表示。本文基于食品安全领域相关国家标准,构建了食品安全知识图谱,并提出了相关的知识图谱补全方法,主要工作如下:1.通过提取食品安全标准文件的内容,从食品品类国家标准、食品添加剂国家标准和食品中农药残留最大限量三个数据源获取相关数据,经过数据清洗、格式化等一系列数据处理操作,将其构造为可以应用于知识图谱中的有效三元组,同时搭建食品安全知识图谱的本体层和模式架构,构建了一个面向食品安全标准内容的知识图谱,并设计了一个便于查询和展示的可视化查询系统。2.为了解决构建的知识图谱中出现的实体类型缺失的问题,本文提出了融合图结构信息和实体描述文本信息的图神经网络架构,并通过实验分析不同特征融合方法对实体分类效果的影响。实验表明,本文提出的方法相对于单独的关系图卷积网络模型,分类预测的准确率得到了较大的提高。3.为了解决不完备知识图谱三元组缺失的问题,本文提出了基于编码器-解码器的图神经网络链接预测模型,并结合对比实验分析了不同解码器设计对链接预测结果的影响。实验表明,本文的链接预测模型架构相较于单独的关系图卷积网络模型具有更好的性能,在多项评价指标上都有了明显的提高。食品安全知识图谱系统可以为食品质量管理、食品溯源和检测等多个食品安全领域提供更优的知识库和检索方式,为食品安全管理的信息化、智能化提供了一种新的解决方案。
面向开放世界的知识图谱补全研究
这是一篇关于开放世界知识图谱,胶囊网络,异构信息网,GCN,链接预测,实体分类,知识图谱补全的论文, 主要内容为知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系的预测效果较差。为此针对上述开放世界知识图谱补全中的问题,本文提出了一种面向开放世界知识图谱的胶囊网络模型Caps-OWKG。模型对原有知识图谱进行编码获得实体的结构性向量,又对实体的描述信息进行编码获得实体的描述性向量,将两种向量融合后得到新的表示向量,并经过胶囊网络处理后,获得三元组真实性的概率。Caps-OWKG通过新实体的描述信息作为桥梁与原始知识图谱建立联系,这种方法有效但还略显单一,没有更好的挖掘新实体与原始知识图谱的潜在关系。为此,本文构建了一个包括开放世界知识图谱中所有实体、关系和描述的异构信息网络,并提出了一种基于异构信息网络的知识图谱表示学习模型,利用图卷积神经网络对异构信息网中的节点进行编码,再利用两个不同的解码层完成新实体的分类和预测两个任务,实现对知识图谱的补全。
基于嵌入模型的知识图谱补全方法研究
这是一篇关于知识图谱嵌入,实体描述,关系类别,链接预测,实体分类,三元组分类的论文, 主要内容为随着大数据时代的到来,互联网数据出现了爆炸式增长,知识图谱的规模也变得越来越大,但是数据的增长却使得知识图谱的质量急剧下降,内部信息变的越来越不完善。因此,为了使现有知识图谱更加完善,需要不断地添加新的客观事实进行补全。早期的知识图谱补全工作基本采用人工方式来构建事实三元组并添加到知识图谱中,但是这种方式往往效率低下且对知识图谱的扩展具有很大的局限性,已经无法满足规模日益增大的知识图谱补全工作。因此,设计出一种自动知识图谱补全方法来对知识图谱进行补全具有重要研究和应用价值。最初,利用独热编码对知识图谱中的研究对象进行表示得到了发展,但是这是建立在所有对象相互独立的基础上,会破坏知识图谱内部的结构信息,无法充分利用实体间的语义信息。然而最近几年,基于翻译操作的知识图谱嵌入模型由于将关系表示为实体间的翻译操作而有效地挖据出三元组的结构信息,使得其表现出了强大的有效性和鲁棒性,在知识图谱补全工作中发挥了巨大的作用。但是目前的翻译嵌入模型面临着实体和关系表示能力不足、忽略丰富的附加信息以及负例三元组质量低等一系列问题。针对以上这些问题,本文提出了基于关系路径和实体描述的知识表示方法(Multiple-Path and Entity Description Embedding Model,简称MPED)、基于实体、关系嵌入和关系类别的知识表示方法(Category of Relation Embedied Knowledge Embedding Model,简称CREKE)和基于谱聚类的知识表示方法(Trans E-Spectral Clustering,简称Trans E-SC),并在一定程度上解决了上述问题。本文主要研究工作如下:1)为了弥补基于关系路径信息的知识表示学习方法在实体链接预测上的不足以及解决数据稀疏问题,本文提出了将多步关系路径信息与实体描述信息相结合的知识表示方法MPED,通过将实体描述信息引入基于关系路径的知识表示方法(Modeling Relation Paths for Representation Learning of Konwledge Bases,简称PTrans E)中,并建立实体与关系向量联合学习框架,使得在实体和关系向量都具有更加精确的表示。通过链接预测以及实体分类实验表明相对于只利用关系路径信息的模型以及其对比方法来讲,MPED能够显著提高实体与关系的向量表示的质量。2)对于大部分知识图谱表示学习方法只利用三元组的结构信息而忽略了丰富的关系类别信息这一问题,本文提出了将实体、关系向量表示与关系类别相结合的知识表示方法CREKE,该方法通过将多元高斯混合分布与关系类别分布相结合,为每一个关系类别学习出一个分布式表示,并将基于实体、关系的向量表示和关系类别的分布式表示形成联合学习框架,使用闭环策略进行学习。实体、关系的向量表示与关系类别的分布式表示相互促进,共同学习,使得关系向量表示中包含类别信息。通过链接预测和三元组分类实验验证了CREKE具有一定的有效性,关系类别信息对于知识图谱补全工作具有明显的积极作用。3)为了解决知识嵌入模型在训练过程中使用随机替换方式生成低质量负例三元组进而导致模型训练效率低这一问题,本文提出了一种基于谱聚类的负例三元组生成方式来提高负例三元组的质量,具体来说就是先使用谱聚类算法将所有实体向量进行聚类,使得相似实体处在同一实体簇中,当我们通过替换正例三元组的头、尾实体来生成负例三元组时,需要找到与待替换实体所在簇中相似度最高的实体进行替换,这样才可以得到高质量的负例三元组。我们将这种负例三元组生成方式与Trans E相结合提出了Trans-SC模型。通过链接预测和三元组分类实验,验证了Trans E-SC模型相对于很多基准模型,在多数情况下取得了较好的性能。
基于元学习的知识图谱实体分类方法的研究与实现
这是一篇关于知识图谱,实体分类,图神经网络,元学习的论文, 主要内容为过去数十年互联网的繁荣发展催生出了诸多大规模知识图谱,这些大规模的知识图谱往往包含由抽象概念组成的本体视图,以及由实体组成的实例视图,上述两个视图内都分别包含了海量的形式为(头实体/类别,关系,尾实体/关系)的三元组,而视图间也包含了从实例视图到本体视图的跨视图链接,用以标明每个实体所属的类别。知识图谱中的跨视图链接往往存在一些问题,如不完全性问题,仅有少量的实体拥有类别的标识;又如长尾分布问题,实体类别在低频次处数量多,高频次处数量少。上述问题的存在往往会导致知识图谱遗漏许多重要知识,影响其在下游任务中的有效性。知识图谱分类任务旨在预测实体缺失的类别信息,近年来受到了极大的关注。然而,前人的研究假设每个类别都有大量对应的实体,忽略了类别信息中存在的长尾问题,并且没有充分利用两个视图中的结构信息。针对上述问题,本文设计并实现了一种基于元学习的知识图谱实体分类方法,以解决小样本场景下的知识图谱实体分类问题。具体内容包含以下三点:(1)研究并实现一种基于图神经网络的知识图谱表示学习方法。受到因子分解机算法的启发,本文提出了一种全新的多关系图卷积网络算法,可以显式地建模不同类别关系之间的交互信息。(2)构建基于对比学习的训练规则。为了更加充分的利用小样本场景下的标记样本数据,本文提出了基于对比学习的训练方式,并针对类别间和类别内分别提出两个不同的对比学习规则。(3)构建基于元学习的知识图谱实体分类框架。知识图谱的本体视图以树结构形式构建出,其中蕴含了大量的层次结构信息。本文根据层次树构建出用于元训练阶段的三个信息提取规则,并在元测试阶段对新的分类任务实现快速微调。该框架以元学习中的模型无关的元学习算法为基础,可以解决小样本场景下的知识图谱实体分类问题。实验结果表明,本文提出的基于元学习的知识图谱实体分类方法可以有效地从知识图谱中提取类别相关的信息,以帮助解决小样本场景下的知识图谱实体分类问题,提升实体分类的准确性。
基于元学习的知识图谱实体分类方法的研究与实现
这是一篇关于知识图谱,实体分类,图神经网络,元学习的论文, 主要内容为过去数十年互联网的繁荣发展催生出了诸多大规模知识图谱,这些大规模的知识图谱往往包含由抽象概念组成的本体视图,以及由实体组成的实例视图,上述两个视图内都分别包含了海量的形式为(头实体/类别,关系,尾实体/关系)的三元组,而视图间也包含了从实例视图到本体视图的跨视图链接,用以标明每个实体所属的类别。知识图谱中的跨视图链接往往存在一些问题,如不完全性问题,仅有少量的实体拥有类别的标识;又如长尾分布问题,实体类别在低频次处数量多,高频次处数量少。上述问题的存在往往会导致知识图谱遗漏许多重要知识,影响其在下游任务中的有效性。知识图谱分类任务旨在预测实体缺失的类别信息,近年来受到了极大的关注。然而,前人的研究假设每个类别都有大量对应的实体,忽略了类别信息中存在的长尾问题,并且没有充分利用两个视图中的结构信息。针对上述问题,本文设计并实现了一种基于元学习的知识图谱实体分类方法,以解决小样本场景下的知识图谱实体分类问题。具体内容包含以下三点:(1)研究并实现一种基于图神经网络的知识图谱表示学习方法。受到因子分解机算法的启发,本文提出了一种全新的多关系图卷积网络算法,可以显式地建模不同类别关系之间的交互信息。(2)构建基于对比学习的训练规则。为了更加充分的利用小样本场景下的标记样本数据,本文提出了基于对比学习的训练方式,并针对类别间和类别内分别提出两个不同的对比学习规则。(3)构建基于元学习的知识图谱实体分类框架。知识图谱的本体视图以树结构形式构建出,其中蕴含了大量的层次结构信息。本文根据层次树构建出用于元训练阶段的三个信息提取规则,并在元测试阶段对新的分类任务实现快速微调。该框架以元学习中的模型无关的元学习算法为基础,可以解决小样本场景下的知识图谱实体分类问题。实验结果表明,本文提出的基于元学习的知识图谱实体分类方法可以有效地从知识图谱中提取类别相关的信息,以帮助解决小样本场景下的知识图谱实体分类问题,提升实体分类的准确性。
基于文本的知识图谱实体分类方法研究
这是一篇关于知识图谱,实体分类,图神经网络,实体感知,概念增强的论文, 主要内容为伴随着互联网的兴起和大数据时代的到来,互联网上的数据规模呈指数发展,这些数据中蕴含着海量的知识。为了有效利用这些知识,知识图谱应运而生。作为大数据时代最重要的知识表示形式之一,知识图谱本质上是一种大规模的语义网络,包含实体、概念以及属性值之间的各类语义关系。知识图谱实体分类是知识图谱构建的一项重要任务,其目标是建立实体和概念之间的类属关系,该关系的确定有助于智能搜索、智能问答、智能推荐等下游应用。知识图谱中的实体同时包含结构化描述和非结构化的文本描述。当前知识图谱实体分类方法主要根据实体的结构化描述特征来进行分类,但由于知识图谱的不完整性,必然会存在一些实体的结构化特征缺失,导致实体无法得到完整的分类,降低了实体分类效果。作为对当前分类方法的一个重要补充,本文研究基于非结构化文本描述的知识图谱实体分类问题。然而,当前基于文本的知识图谱实体分类方法仍存在许多不足,包括:(1)当前方法未能充分利用实体的文本描述信息;(2)当前方法未能充分利用概念的语义信息。本文对现有方法的不足进行了深入研究,并提出了针对性的解决方法。本文的主要研究内容及贡献概括如下:(1)针对当前方法未能充分利用实体的文本描述信息的问题,本文基于描述文本中的所有句子构建了一个异构图,其中单词和句子被视为不同类型的节点,而它们之间的语义关系被视为不同类型的边。在此基础上,提出了一种基于实体感知异构图神经网络的实体分类方法。该模型主要由三部分组成,即实体感知编码器、上下文编码器和概念解码器。具体来说,本文首先使用实体感知编码器对句子和实体名称进行联合编码,以初始化异构图中每个单词和句子的表示。其次,使用一个基于异构图注意力网络的上下文编码器来获得每个单词和句子的上下文节点表示。最后,使用一个基于多层感知器网络的概念解码器来获得每个实体的概念集合。(2)针对当前方法未能充分利用概念的语义信息的问题,本文基于描述文本和概念构建了一个异构图,其中描述文本和概念被视为不同类型的节点。在此基础上,提出了一种基于概念增强异构图神经网络的实体分类方法,同时考虑了概念的语义表示及其之间的共现关系和层级结构。该模型主要由四部分组成,即实体编码器、概念编码器、概念增强编码器和概念解码器。具体来说,本文首先实体编码器和概念编码器来分别对实体和概念的文本进行编码,以初始化异构图中每个实体和概念的表示。其次,使用一个基于异构图注意力网络的概念增强编码器来获得每个实体和概念的增强表示。最后,使用一个基于多层感知器网络的概念解码器来获得每个实体的概念集合。(3)由于目前并没有公开的基于文本的知识图谱实体分类数据集。本文基于英文知识图谱DBpedia,构建了一个数据集。在此基础上,对本文提出了两种方法进行了评估。总体实验结果证明了本文所提两种方法的有效性。同时,本文还通过消融实验和案例分析证明了各模块的有效性。
水稻表型组学知识图谱实体分类及关系抽取研究
这是一篇关于水稻表型组学,知识图谱,实体分类,集成学习,关系抽取的论文, 主要内容为随着计算机技术的不断创新与发展,新一代人工智能技术如自然语言处理、物联网、大数据等技术在农业领域得到了广泛地应用,不断推动着农业信息化迅速发展。但水稻表型组学领域信息数据具有分布广泛、关系复杂、专业性强等特点,如何对水稻表型组学数据进行整合及统一管理极具挑战性。为此,本文将知识图谱技术创新性地引入到水稻表型组学领域,通过知识图谱构建技术抽取水稻表型组学领域信息及其关系,并以图的形式直观地描述它们之间的关系,以便水稻表型组学数据后期管理及深入挖掘各实体之间的关系。本文主要基于水稻表型组学知识构建水稻表型组学领域知识图谱,利用图数据库Neo4j作为水稻表型组学实体和关系的存储方式,同时研究了该领域高效的实体分类及关系抽取方法,为水稻表型组学领域知识图谱构建及农业信息和智能化应用做了有益的探索。具体研究内容如下:(1)提出了一种基于Stacking集成学习的水稻表型组学实体分类器组合模型。通过对传统分类算法的分析发现,传统的分类算法已经无法满足水稻表型组学实体的高效分类,尤其是水稻表型组学数据具有数量庞大、关系复杂和专业性强的特点。针对传统分类算法的分类准确率低且算法改进空间不大的问题,本文研究了基于堆叠式两阶段集成学习的分类器组合模型,结合TF-IDF技术和LSI模型对水稻表型组学数据进行预处理,提出了一种基于Stacking集成学习的分类器组合模型。实验结果表明,基于Stacking集成学习的水稻表型组学实体分类器组合模型能显著地提高分类效率,且实体分类准确率高,相对传统分类器,准确率平均提高6.78%。(2)研究基于注意力机制水稻表型组学实体关系抽取的深度学习模型。传统关系抽取方法或训练效率低或抽取费时费力,严重影响着关系抽取的整体表现。深度学习算法的出现克服了上述传统关系抽取方法面临的问题。另外,注意力机制能够促使模型去关注重要的部分,增加有效样本的权重。本文对基于注意力机制的深度学习算法模型及相关算法进行研究,并把相应的成果应用到水稻表型组学文本的关系抽取中,使得高效完成水稻表型组学领域实体关系的抽取。(3)构建了水稻表型组学领域知识图谱。本文主要以“国家水稻数据中心”和“互动百科”网站数据作为主要数据来源,利用Scrapy爬虫框架从上述网站获取水稻表型组学信息。通过对水稻表型组学领域知识进行分析,对该领域内的实体和关系进行抽取及类型划分,构建了水稻表型组学知识库。其中,引入了集成学习的水稻表型组学领域实体分类器组合模型对水稻表型组学领域实体进行分类,以及深度学习模型进行关系抽取。最后,为解决关系数据库存储知识的缺陷问题,本文使用图数据库Neo4j以属性图形式储存水稻表型组学知识图谱数据,并且完成水稻表型组学知识图谱系统的开发,实现知识图谱技术在农业领域的应用。(4)水稻表型组学领域知识图谱系统的功能实现。通过需求分析和架构设计,使用Django框架完成了水稻表型组学领域知识图谱系统搭建,实现了实体识别、实体查询、关系查询、知识分类、知识可视化等功能。该系统能够对水稻表型组学知识进行补充和修缮,还能准确查询知识并可视化展示,通过实例验证了系统的可靠性和实用性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://m.bishedaima.com/lunwen/49242.html