基于深度学习的知识图谱补全方法研究
这是一篇关于知识图谱完善,知识表示学习,关系路径,卷积神经网络的论文, 主要内容为知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。随着该领域研究的深入,知识图谱得到了越来越广泛的应用,在越来越多的人工智能应用场景中发挥着重要作用。然而,随着应用的发展,知识图谱本身存在的完善程度不足的问题也越来越不容忽视。尽管知识图谱中存在着数量庞大的结构化的实体和关系以及它们所蕴含的关于现实世界或抽象概念的事实,但是知识图谱中仍然存在着数据稀疏的问题。用自然语言处理的方法从海量的互联网数据中抽取知识对其进行填充,同时根据知识图谱本身存储的信息进行推理与融合是对知识图谱进行补全的两种有效方式。本文在简略介绍知识图谱的发展历史及其应用的基础上,详细介绍了用于知识图谱补全工作的知识表示学习算法的研究现状及经典成果,并在此基础上提出了一种新颖的知识表示学习算法。该方法将包含着丰富语义信息的关系路径和对实体的文本描述信息整合到表示学习的过程中。关系路径对知识图谱中的直接关系是一种有效的增强方式,而文本描述信息则可以增加实体的嵌入表示中所蕴含的语义信息。同时,本文还探索了知识图谱补全过程的重要步骤—链路预测工作的不同方式,通过卷积神经网络捕获实体和关系之间包括线性交互在内的更多更复杂的交互,对待补全的事实的可靠程度进行更加有效的判断。我们在标准数据集上对新提出的模型进行了验证。实验结果表明,相比于基准模型,新模型取得了显著的提高,说明关系路径和文本描述信息能够对知识图谱嵌入工作起到很好的辅助作用,卷积神经网络可以捕获三元组中实体和关系之间更为复杂的交互。
大型中文医疗知识图谱的构建与完善
这是一篇关于医疗知识图谱,命名实体识别,知识图谱完善,噪声检测,知识图谱验证的论文, 主要内容为医疗知识图谱是医疗数据和知识的有机融合,是智能医疗应用系统的基石。现有中文医疗知识图谱主要存在两方面问题:一是数据源单一,大多是来源单个医疗网站,且缺乏临床数据,没有考虑到医疗知识图谱的临床使用需求;二是质量还有待提升,需对知识图谱中的缺失和错误等噪声数据进行完善。针对上述两方面的问题,本文构建了一个大型的中文医疗知识图谱,并且对该知识图谱进行完善和补充,致力于实现一个完整、全面、准确的医疗知识图谱。论文的主要工作如下:(1)为解决医疗数据来源单一的问题,本文提出了基于多数据源医疗数据的知识图谱构建方法。首先,本文采集了五方面的医疗数据,分别是:医院病历数据、医疗网站获取的原始数据、百度百科的别名信息、开源的新冠知识图谱以及ICD-10编码对应表。在知识抽取方面,对比选择Bert-Bi LSTM-CRF模型来进行命名实体识别。对医院病历数据方面,通过上万份的医疗人员专业标注、数据训练以及模型预测的过程提取出实体和关系,通过计算模型的查准率和查全率,确定模型预测效果可达到70%左右,预测出四类实体,分别是疾病、临床症状、检查项以及检查结果。其次,多个数据源的医疗数据进行融合后集成为知识图谱,并使用Neo4j对知识进行存储,初步构建了包含三万个节点以及十万余条关系的大型医疗知识图谱,在图谱中有着八类实体节点、七种关系以及多种属性。(2)为了解决医疗知识图谱存在的噪声问题,本文提出了知识图谱的完善方法。首先,本文识别了四类中文医疗知识图谱存在的数据错误:空节点值、ICD属性多值、多余符号以及数据内容错误,并针对这四种错误类型提出了相应的检测和纠正方法。尤其是针对数据内容错误,本文提出了基于Word2vec相似度和外部医疗网站Page Rank的噪声检测和解决方案,对于知识图谱的错误检测使用基于外部网页的解决方式,使用Page Rank计算医疗网站排名,并且使用Word2vec相似度检测方法辅助,结合网页排名和相似度值确定数据的置信度,根据置信度判断是否为错误知识。其次,本文识别了两类中文医疗知识图谱数据缺失问题:主节点疾病信息的缺失和节点的属性值多数为空。针对这两类缺失问题,本文提出了基于外部网站Page Rank的自动化补充方法,通过医疗网站的排名对缺失数据进行查找补全。本文所提出的错误检测方法纠正了四百余条错误,知识补全方法补充了四千余缺失实体以及近两万的缺失关系。(3)最后,本文主要从覆盖率和准确率对中文医疗知识图谱进行验证。覆盖率的验证是通过对随机抽取的实体和关系进行查询,以可查询数量与总数的比值作为覆盖率。准确率是通过随机选择实体、属性对知识图谱数据的正确性进行验证。简洁程度是衡量知识图谱的简洁性和可理解性的程度指标。本文所构建的中文医疗知识图谱实体覆盖率为85%,关系覆盖率为74%,综合覆盖率达到了76.43%;准确率为75.95%。综上所述,本文提出了一套完整的中文医疗知识图谱构建和完善的方法。所构建的中文医疗知识图谱包含四万余个节点和十二万余条关系,为下游医疗领域相关应用开发提供了良好的数据基础。
大规模知识图谱完善关键算法研究
这是一篇关于知识图谱完善,路径排序算法,知识表示学习,关系路径的论文, 主要内容为近年来,随着语义万维网数据的不断激增,以图结构作为表示框架的知识图谱成为了当前学术界、工业界的研究热点。知识图谱包含了丰富的结构化信息,存储事实在千万级别以上,覆盖了许多真实的实体与关系,为许多人工智能技术提供了可靠的信息来源和底层支撑,极大的智能化了许多现实应用。然而与现实世界包含的无穷尽的知识相比,知识图谱的完善程度仍然是远远不够的。利用自然语言处理的相关技术,从大量的非结构化和半结构化数据中抽取结构化信息,实现对知识图谱的扩充是行之有效的方法。但是之前的抽取过程需要大量的专家知识设定相关的启发式规则,并且需要大量的人为参与来保证抽取信息质量。近年来,随着人工智能领域特别是机器学习方向的蓬勃发展,研究者们期望利用机器学习算法在现有的存贮事实基础上,进行知识的推理与融合,完成机器自动化扩展知识图谱规模的目标。大规模知识图谱完善任务是自然语言处理领域非常热门的研究方向,同时也是本文的研究目标。本文详细介绍了基于统计关系学习的两大类知识图谱完善算法:基于图特征的路径排序算法;基于隐式特征的知识表示学习算法。路径排序算法利用随机游走的特性可以很好筛选出公共关系路径作为显式特征;知识表示学习在表示学习框架的基础上更加适应知识图谱的内含语义和规模需求。在两者的基础之上,本文提出了一种新颖的关系路径嵌入模型:将包含丰富语义信息的关系路径整合到知识表示学习模型中,通过利用关系与可信赖关系路径的语义相似性,将已有的关系投影和关系约束扩展到新颖的路径投影和路径约束。路径投影使得实体可以同时在不同类型的隐式空间内进行低维的表示学习;路径约束增加了模型在隐式空间里对相似嵌入信息的决策能力。两种新颖的创新可以很轻松的整合到其他的知识表示学习的框架中,获得更优的算法性能。我们在三种公共数据集上对我们提出的关系路径嵌入模型进行了两种标准的任务评测:链路预测和三元组分类。实验结果表明我们的模型要显著优于基准的知识表示学习模型,同时也表明我们的模型可以很好的捕获到关系路径的语义信息。
基于深度学习的知识图谱补全方法研究
这是一篇关于知识图谱完善,知识表示学习,关系路径,卷积神经网络的论文, 主要内容为知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。随着该领域研究的深入,知识图谱得到了越来越广泛的应用,在越来越多的人工智能应用场景中发挥着重要作用。然而,随着应用的发展,知识图谱本身存在的完善程度不足的问题也越来越不容忽视。尽管知识图谱中存在着数量庞大的结构化的实体和关系以及它们所蕴含的关于现实世界或抽象概念的事实,但是知识图谱中仍然存在着数据稀疏的问题。用自然语言处理的方法从海量的互联网数据中抽取知识对其进行填充,同时根据知识图谱本身存储的信息进行推理与融合是对知识图谱进行补全的两种有效方式。本文在简略介绍知识图谱的发展历史及其应用的基础上,详细介绍了用于知识图谱补全工作的知识表示学习算法的研究现状及经典成果,并在此基础上提出了一种新颖的知识表示学习算法。该方法将包含着丰富语义信息的关系路径和对实体的文本描述信息整合到表示学习的过程中。关系路径对知识图谱中的直接关系是一种有效的增强方式,而文本描述信息则可以增加实体的嵌入表示中所蕴含的语义信息。同时,本文还探索了知识图谱补全过程的重要步骤—链路预测工作的不同方式,通过卷积神经网络捕获实体和关系之间包括线性交互在内的更多更复杂的交互,对待补全的事实的可靠程度进行更加有效的判断。我们在标准数据集上对新提出的模型进行了验证。实验结果表明,相比于基准模型,新模型取得了显著的提高,说明关系路径和文本描述信息能够对知识图谱嵌入工作起到很好的辅助作用,卷积神经网络可以捕获三元组中实体和关系之间更为复杂的交互。
基于知识图谱的非结构化关联规则抽取研究及应用
这是一篇关于知识图谱完善,关联规则,文本聚类,文本模式建模的论文, 主要内容为知识图谱用一种结构化的方式存储现实世界存在的知识,由于其知识易于被计算机处理,因此在自然语言处理的许多任务中它都起着极其重要的作用。虽然从绝对数量上来看,现有知识图谱已经包含了海量的三元组事实,但是与真实世界中存在的知识相比它远远不够,因此如何完善知识图谱成为目前的研究热点。本文提出了一种基于非结构化文本增强关联规则的知识推理方法(Natural Language Enhanced Association Rules Mining,NEARM)。使用该规则可以将自然文本中包含的三元组事实推理出来用以完善知识图谱。本文的工作有:1.为了从非结构化的文本中抽取三元组事实,本文使用密度峰值算法对关系文本聚类,其中涉及到的句子相似度计算使用改进的LSWMD算法。为了提高算法效率,本文还利用基于K-BoD的文本聚类算法对其进行改进。2.为了将类簇建模为一个统一的表达方式放入到非结构化关联规则中,本文提出了改进的BoD(BoD-GS,基于高斯分布的文本模式建模)和BoD-TDGS(基于二维高斯分布的文本模式建模)来建模关系文本。实验结果表明,较于BoD-GS,BoD-TDGS更为准确合理。3.研究上述模型得到的文本类簇,可以发现在正常的自然语言表述中,符合这些表达模式的文本所包含的主语和宾语倾向于拥有类似的属性值。将这些规律进行建模可以辅助从更多的文本中抽取三元组事实。在关联规则挖掘算法的启发下,本文提出并研究了非结构化文本增强的关联规则挖掘,将自然语言文本引入到关联规则中。得到的关联规则充分利用文本信息与知识图谱中的知识,可以直接应用于非结构化文本,并进行三元组事实抽取。4.为了模拟非结构化关联规则完善知识图谱的过程,本文搭建了一个基于非结构化关联规则的知识抽取原型系统完成仿真实验验证。5.最后,将非结构化关联规则应用到关系分类及三元组推理两个任务上,实验结果表明了NEARM算法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工坊 ,原文地址:https://m.bishedaima.com/lunwen/56240.html