基于深度学习的实体共指消解研究
这是一篇关于神经网络,共指消解,全局推理,联合模型,知识库的论文, 主要内容为信息技术的不断发展,各个行业会产生海量的文本数据。与此同时,使用自然语言处理相关技术挖掘数据间的联系,潜在的语义关系愈发重要且充满挑战。共指消解任务是自然语言处理领域的重要研究内容,广泛应用于自动问答,文本摘要,阅读理解,知识图谱等领域,具有重要的学术研究价值和商业使用前景。目前,在深度学习框架下的共指消解研究正在成为主流的研究方法,主要集中在如何使用基于句中的词嵌入信息有效识别实体和实体之间的共指关系。解决共指消解问题仅考虑词级别的信息有局限性,还需考虑文档中上下文的信息以及句子间的逻辑关系。因此本文为提高共指消解模型精度,从以下两个方面对共指消解展开了研究。(1)融合神经网络与全局推理的实体共指消解。针对文本内实体信息复杂及指代信息具有不明确性且对于文档中上下文全局特征考虑不周的问题,为探索更有效的共指消解研究方法,提出融合神经网络与全局推理的实体共指消解算法。首先利用神经网络模型抽取出文档中的实体和其前指词,其次结合句子的上下文信息进行全局推理,将此推理结果加入到神经网络模型中,从而提高实体共指消解的精确度。全局推理是对共指链进行文档级的全局优化与推理,可以结合句子间内在联系进行推理,同时挖掘实体的上下文语义信息。模型在Onto Notes5.0数据集上进行的实体共指消解实验结果,证明了该方法的有效性。随后又通过使用Bert-base预训练模型替换端到端共指消解模型中联合词向量的方法进行实验,该结果又验证了本文方法在共指消解任务上的有效性。该方法能有效地提高共指消解性能和更好地理解文本语义信息,最终模型性能在CONLL评测标准下F1值达到74.76%。比较本模型与近几年其他的共指消解模型实验结果,验证了本方法的有效性。(2)融合知识库信息的命名实体识别与共指消解联合模型。命名实体识别与共指消解都取决于实体的相邻文本信息的学习,目前二者在单个独立任务方面取得了最先进的结果,实际上二者也保持了高度的联系。为了提高实体共指消解模型精度,我们考虑一个基于知识库的命名实体识别与共指消解联合模型。该联合模型是基于跨度的端到端的网络架构,以全局推理优化后的共指消解算法模型为基础,使用维基数据作为外部知识库,融合了背景知识库中的实体表示,将命名实体识别任务与共指消解任务联合起来,实验证明该方法有效提升了联合模型中的任务精度。并且设置消融实验,以探讨全局推理与知识库模块以及注意力机制对模型性能的影响。将F1值作为评价指标使用,实验结果表明,本文的方法具有较好的共指效果。
面向中医骨科问诊的疾病知识图谱构建技术研究
这是一篇关于知识图谱,中医电子病历,Bi-LSTM,CNN,共指消解的论文, 主要内容为互联网和人工智能在各个领域的普及以及人们的健康医疗意识与日俱增,整个社会对医疗信息的需求也随之增加。“智慧医疗”将是未来医疗行业的发展趋势,不仅能为大众提供海量医疗信息,更能解决当前医疗资源不均、就诊手续繁杂等问题。医学领域的知识图谱是实现智慧医疗的基石,让医疗信息资源的交换更方便,为高效便捷的医疗服务提供数据支持。本文通过收集、处理昆明市中医院骨科的电子病历以及来自互联网上的相关知识,对中医骨科问诊平台知识图谱的构建进行研究,研究内容主要有:其一、实体关系提取,获得构建知识图谱所必要的“实体-关系-实体”三元组作为基础数据。针对中医电子病历的特点,使用基于实体关系标注策略的实体关系联合提取方法,根据相关专家指导下制定的标注策略先对电子病历进行处理和标注,使用基于Bi-LSTM(双向长短时记忆网络)深度学习模型进行训练学习以更准确的提取实体关系,克服了传统方法方法误差较大等问题。在获得了实体关系之后,再通过互联网采集比对,对获得的实体关系进行完善和补充,实验结果表明该方法有较高的召回率和F1值。其二、针对获得的实体关系中,存在着“多词一义”的重复现象,即多个疾病名称都指同一种疾病,需要进行共指消解来整合这些实体关系。本文使用一种基于CNN(卷积神经网络模型)的知识融合方法,使用该模型对两个疾病对应的症状进行相似度的计算,判断二者是否重复以进行知识融合,解决医疗短文本特征稀疏难以判别语义信息是否相似的问题,实验取得了较好的准确率和召回率。本文对中医骨科知识图谱构建的研究,重点是对中医电子病历的实体关系提取以及对“多词一义”现象共指消解的知识融合进行研究探索,并且对中医骨科问诊平台的构建进行相关设计以及实现了上述的实体关系提取和知识融合方法。
面向知识图谱的共指消解方法研究
这是一篇关于知识图谱,知识融合,共指消解,实体链接,决策树的论文, 主要内容为随着互联网技术的发展,人们正式步入了大数据时代,人们所采集的数据量已达到ZB级规模。为了使得查询数据更精准简单,知识图谱技术被应用于越来越多的搜索引擎上。知识图谱是描述现实世界中地点、人物、城市、电影等事物以及事物间联系的关系网络。利用知识图谱,搜索引擎可挖掘事物之间的内在联系,更准确地查找用户所需的信息。目前知识图谱中的数据主要从Wikipedia等知识百科中自动采集,导致知识图谱呈现出噪声数据多且数据规模大的特征,这些特征使得用户难以快速获取满意的查询结果。针对以上特征,人们需要对采集后的知识进行知识融合,如何精准的对已有数据进行知识融合是优化知识图谱技术亟待解决的问题。知识融合包含两个部分:其一是实体链接,实体链接技术又包含实体消歧和共指消解,通过他们来判断知识库中名字相同的实体是不是表示同一个含义,或者名字不同的实体是否能够表示同一个含义。其二是知识合并。在知识融合环节如何实现精准的实体链接是现阶段最主要的挑战,本文针对知识图谱噪声数据多、数据规模大的特征,以及汉语共指消解与英文共指消解存在差异性的问题展开研究。分别从知识图谱构建技术、共指消解算法分析两个层面对面向知识图谱的共指消解技术展开研究,基于决策树提出了一个面向娱乐新闻报道领域的汉语共指消解算法,旨在提供快速精准的新型共指消解算法。本文首先使用八爪鱼采集器自主采集实验语料,在训练分类器的阶段加入新的特征:上下文语义特征、汉语简称特征,同时对原有的距离特征进行改进,采用分句距离算法进行特征计算,经过反复实验发现加入的特征对分类准确度的提高有着不错的效果。共指消解阶段利用上述分类器可以更加准确的找到待消解项,进行共指消解。综上所述,本文针对知识图谱的两个特征,提出快速准确的共指消解算法,保证用户可以快速准确地连接到正确的实体,为下一代搜索引擎提供行之有效的解决方案。随着知识图谱的不断普及,本文的研究成果将应用于商业、金融、生命科学等诸多领域,为商业决策、金融分析、生物制药等应用提供有效的数据查询支持,具有重大的社会意义。
面向知识图谱的共指消解研究
这是一篇关于共指消解,深度自注意力变换网络,深度学习,端到端模型,注意力机制的论文, 主要内容为近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到一起的技术。共指消解方法包括基于规则、基于机器学习、基于深度学习的方法。目前共指消解方法存在以下问题:首先,大多数传统的共指消解模型采用句子本身的语法规则、句法结构或者是分类聚类方法,并没有应用文章中的深层语义;其次是传统的共指消解方法无法顾及到文档中上下文的全局知识和全局特征,会出现断章取义的情况;最后大多数共指消解模型只能应用于某一领域,泛化能力不强;除此之外,本文也尝试性的应用多种深度学习模型解决共指消解问题。针对以上问题,论文结合深度学习理论和自然语言处理技术,采用了基于端到端的共指消解方法,不仅能够最大限度的利用文章中的语义知识和先验知识,解决全局知识、全局特征囊括不足等问题,而且改进了共指消解的泛化能力,使模型效果提升,并且分析可改进的方法,提出四种优化方案,即加入全局特征、代词特征、加入动态词向量以及性能优化,分别从特征和计算成本上对模型进行优化。模型充分考虑文档中的局部特征和全局特征,构建精细、准确的共指链,通过参数讨论、多组实验探讨了特征添加以及计算性能优化对模型的影响。随后,通过改变模型结构,论文又提出基于transformer的端到端的共指消解模型,该模型将端到端的共指消解模型span的编码部分替换成transformer进行实验,通过实验证实该模型相比基线模型和目前的较为经典的共指消解模型,在效率和性能上均有所提高。
基于命名领域知识图谱的实体消歧方法研究与应用
这是一篇关于知识图谱,共指消解,词嵌入,神经网络的论文, 主要内容为近年来随着个人计算机数量与移动个人终端数量不断攀升,每时每刻都有大量的数据产生。为了更好的处理与利用这些数据,Google公司首先提出了知识图谱的概念,并开发出了自己的知识图谱系统。在知识图谱的构建中需要引入大量的数据,来自不同数据源的数据具有多源异构性。在不同领域中相同的命名实体常有不同的表述,故其形成的领域知识图谱子图之间的实体具有不一致性。为了减少在领域知识图谱中的实体节点冗余与冲突,本文在端到端指代消解模型的基础上进行改进。由于经典模型的词嵌入模型构建的词向量为静态词向量,故对指代消解任务中一词多义等任务的效果较差,本文期望引入动态向量提升模型性能。在引入外部语境信息与从内部加入动态信息两个角度提出了新的端到端指代消解模型。并设计实现了可视化系统方便对模型的性能评估进而对模型进行改进。主要工作内容如下:(1)提出引入先验向量的端到端指代消解模型,模型基于经典的端到端指代消解模型进行改进。使用Bert词嵌入模型构建每个词的语境向量,根据其与候选共指对特征向量的相似度构建先验向量,从外部引入动态的语境信息提升模型对候选共指对的判断能力。在公开数据集Onto Notes 5.0上进行实验,共指消解的任务中本模型在基线模型的基础上平均准确率提高了2.5%,平均召回率提高了0.5%。(2)在上述模型的基础上,在内部引入动态词向量提升模型提取指称的能力。使用适合提取span特征的Span Bert高性能编码器替代Glo Ve模型将动态信息引入span的特征向量构建,提升模型提取指称的能力。在此基础上使用Bi-GRU模型对动态词向量进一步提取上下文信息再构建span的特征向量。其他深度学习组件不做更改,最后同样在公开数据集上验证算法模型,在原模型的基础上平均准确率提高了1.7%,平均召回率提高了2.2%。(3)设计实现了一个端到端共指消解模型的可视化系统,使得用户可以直观的判断自己的模型性能。而且用户可以通过系统标注文本数据,将其输入系统测试模型对不同的共指消解任务的完成度,针对性的改善迭代网络模型。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/56279.html