基于知识图谱的中文多跳问答技术研究
这是一篇关于中文知识图谱问答,实体识别,实体链接,语义路径匹配的论文, 主要内容为互联网的发展带来了数据爆炸式增长。如何利用这些数据,抽取其中的知识来建立自动问答系统,已成为最近学术领域的一个研究热点。知识图谱可以有效地把互联网杂乱无章的知识连接起来方便查询和推理,它是开发人工智能应用的基础设施,现在自动问答的研究很多都是用知识图谱作为主要知识来源。随着越来越多优质知识图谱的建立,自动问答技术的知识图谱得以不断扩大。深度神经网络最近几十年来在很多领域取得成功,在知识图谱问答领域有很多基于深度学习的成功案例。现在主流的知识图谱问答基本都采用深度学习方法,流程主要包括实体识别,实体链接,属性识别和查询语句生成等步骤。然而随着中文知识图谱问答数据集的问题变得越来越复杂,问题涉及到的垂直领域也越来越多,简单的实体识别模型和属性识别依然捉襟见肘,基于上面的问题,本文从以下方面展开了具体研究:(1)针对实体提及识别问题,本文使用基于领域实体词典的分词模型和基于深度学习的实体识别模型相结合的方法进行实体指称识别,能更有效的识别出领域问题中的实体提及。(2)对于实体链接问题,本文尽可能全面地召回了知识图谱中的候选实体,然后挖掘出候选实体提及、候选实体的一些特征,进一步利用这些特征训练一个逻辑回归模型,用模型对每个候选实体打分,据此选择分数排名前n的候选实体。(3)针对复杂多跳问题,本文首先根据数据集的统计分析,提出了一些问题的模板,然后使用模板训练了三个问题分类模型,进一步根据问题的分类生成候选查询路径。此方法可以大幅减少生成的查询路径条数,在提升效率的同时也提升了模型的准确度。(4)针对路径匹配问题,为了解决候选查询路径和问题的表达差异,本文构建基于预训练模型的路径注意力孪生网络,基于预训练模型对问句进行语义编码,然后利用两个共享权重的Bi LSTM网络和路径注意力机制分别得到问句和路径的语义向量,计算出二者的匹配程度,选择最佳的一条查询路径去知识图谱中检索获得答案。
面向知识图谱自动构建的开放式信息抽取方法的研究与实现
这是一篇关于信息抽取,实体链接,预训练语言模型,知识图谱,自然语言处理的论文, 主要内容为作为一种应用型技术,知识图谱已经在诸如金融、电商、司法等领域被广泛地使用。相比于一般意义上的知识图谱,本课题研究的开放知识图谱并不需要预先定义关系类型,从而有着更强的领域适应性和迁移能力。在数据爆炸式增长的互联网时代,网络上的文本数据含有大量的高价值信息,这为知识图谱的自动构建提供了数据基础。本课题的目标是研究从自然语言文本中提取结构化信息的方法,它包括信息抽取算法和信息的归一化算法两个部分,以实现从公开数据中构建知识图谱。最终基于上述算法,本课题设计实现了一个开放知识图谱的构建及可视化查询展示系统。本课题的研究内容主要有以下三个部分:(1)本课题针对目前信息抽取的研究中对句子语法特征表示上的缺陷,提出了一种基于深度学习的开放式信息抽取方法,它使用图表示学习模型TransD学习词语间的依存关系表示,再将学习到的依存关系表示用于开放式信息抽取。实验结果表明该方法在三个公开的中英文数据集上优于目前的主流方法。(2)本课题从构建知识图谱的实际需要出发,提出了开放式抽取的归一化方法,它包括一种基于注意力机制的实体链接算法和一种基于文本相似度聚类的关系归一化方法。在实验中实体链接算法在三个公开的中英文数据集和真实数据上有很好的性能表现,而关系归一化方法在真实数据上也有较好的表现。(3)基于上述算法,本课题构建了一个开放知识图谱并设计实现了可视化查询展示系统。该系统可以自动地从互联网的新闻媒体上爬取新闻文本,并从新闻中进行实体和关系的抽取,并利用抽取到的结构化信息构建知识图谱。用户则可以按照关键词对实体进行搜索,系统则根据实体的基本信息和关系网络等数据绘制实体画像进行展示。
安全测试方案生成系统设计与实现
这是一篇关于知识图谱,知识抽取,实体链接,方案生成的论文, 主要内容为目前,网络安全测试主要依赖于测试人员对测试对象特性的理解以及测试人员的测试经验,生成对应的测试方案。但是,对于复杂的网络安全测试知识体系,仅仅依靠专家的经验,很难给出全面的测试方案。对此,本文设计实现了网络安全领域测试方案生成系统,以思维导图的形式输出网络安全测试方案,并对方案进行分析,辅助测试人员更好地完成测试任务。本文利用自然语言处理技术,对客户提供的网络安全测试相关数据进行知识抽取,获取网络安全测试相关的实体、属性和关系等知识,进而构建网络安全测试领域知识图谱。基于构建好的网络安全测试领域知识图谱,结合实体链接技术、图谱关联查询技术、simhash算法和余弦相似度算法等技术和算法,实现了测试方案自动生成及智能分析的功能。本系统共包含五个模块。知识抽取模块实现对数据的导入和知识的抽取;图谱管理模块可以对导入的图谱数据进行修改、新增和删除,实现人工更新和完善图谱;可视化分析模块实现对图谱数据的可视化展示,直观的展现实体间的联系;方案生成模块根据给定的测试主题,实现对应方案的生成和下载;智能分析模块实现对测试方案和测试活动的智能分析。本文系统采用Java语言基于Spring Boot框架,结合Neo4j图数据库进行开发,保证了开发效率和质量。同时,本文选取了具有代表性的网络安全测试规范数据验证了系统的可靠性,能够帮助安全测试人员摆脱人脑的思维限制,生成更加全面的测试方案。并且本文系统在实际项目中得到了具体应用,获得了专家的一致好评。
基于开放世界知识图谱的问答技术研究与实现
这是一篇关于知识图谱,实体链接,注意力机制,知识扩容的论文, 主要内容为面对信息爆炸的时代,用于信息搜索的智能问答技术发展迅速。用户通过问答系统,从海量信息中检索出准确信息。传统问答算法利用浅层语义,获得简单问题的答案,但无法获得更深的语义层次,难以给出更加准确的信息。以知识图谱为基础的问答系统,结合知识图谱中的语义信息和知识结构,能够检索出更加准确的答案。但是,目前的研究多是在一个理想的状态下进行研究的,即用户所输入的问题,能够在知识图谱中通过推理全部得到答案。在实际应用中,知识库中的信息并不全面,故需要对知识库进行扩容。通过对海量文本信息进行清理、整合出所缺少的知识,将其扩充到知识库中。实体链接是进行知识库扩容的重要步骤,用来筛选出所缺失的知识。目前,实体链接模型大多缺乏文档与知识图谱之间的信息交互,实体链接的效果欠佳,无法准确进行实体匹配。为解决上述问题,本文展开相关研究,设计了基于注意力机制的实体链接模型,实现了文档与知识图谱的双向信息交互。本文的主要工作和贡献如下。本文提出了基于多角度双向注意力机制的实体链接模型。针对传统模型仅考虑输入文本与知识库之间的单向交互,通过得到的输入文档中实体指称上下文的每个单词的重要性,进行实体链接判断,这种模式可能导致信息缺失的问题。为解决上述问题本模型,首先,对实体指称与候选实体之间的特征进行双向交互,实现信息的双向“流动”。其次,为保证语义特征的全面性,本文从多个角度出发进行双向交互的特征计算,包含文本表面语义特征和文本上下文特征,从而获得全面的特征信息。最后,构建实体链接模型。实验结果表明,本文所提出的实体链接模型在多个公开数据集上的Micro1得分有显著提高,同时该模型具备极高的泛化能力。本文基于以上成果,构建知识问答模型,实现该知识问答系统的知识扩容功能,满足知识问答系统需求,验证了算法的有效性。本文基于上述研究成果,构建了基于电影领域的知识问答系统,以豆瓣电影数据为基础定义实体和关系类型,实现各功能模块。该知识问答系统的构建帮助大众便捷获取所需要的电影信息,具有极强的应用价值。
面向开放领域的知识图谱问答系统研究
这是一篇关于知识图谱,问答系统,指称识别,实体链接,关系预测的论文, 主要内容为目前,已有搜索引擎借助大数据和人工智能等技术,能够根据人们的搜索需求在互联网海量数据中快速定位到所需信息,以满足人们日常信息检索需求。然而,搜索引擎返回结果通常是与查询相关的文档链接,无法根据查询问题直接返回答案,尤其是面对知识型问题时。为此,本文在已有知识图谱、自然语言处理和深度学习等技术的基础之上,研究开放领域知识图谱问答系统的构建方法,目的是使系统能够根据用户提出的百科类知识问题,直接返回简短明确的答案。本文主要贡献如下:1、提出一种基于指称识别和实体链接的实体预测模型,用于识别问句中的候选实体。针对指称识别,提出BERT-Bi LSTM-CRF(BBC)序列标注和Elastic Search(ES)精确检索方法。BBC序列标注是通过BERT、双向长短期记忆网络(Bi LSTM)学习问句的隐藏语义特征,利用条件随机场(CRF)预测问句的标签序列,并从中识别得到候选指称。ES精确检索是将问句进行分词,将筛选后的词语在ES数据库中精确匹配到对应的候选指称。针对实体链接,提出特征计算和特征排序方法,用于将候选指称链接到知识图谱上,得到与之相关的候选实体。特征计算是学习问句与实体之间的语义特征和统计特征,语义特征包括问句与实体信息间的语义相似度,统计特征包括指称重要度、实体流行度和字符匹配度。特征排序是利用逻辑回归(LR)算法对实体特征建模,排序后得到候选实体。实验结果表明,指称识别综合召回率为0.961,实体链接Top-5、Top-3、Top-1预测准确率分别为0.846、0.834、0.815,为兼顾考虑问答准确率和计算效率,最终选择Top-3预测实体作为问句的候选实体。2、提出一种基于语义相似度和表示学习的关系预测模型,用于识别问句中的候选关系。语义相似度是利用多级排序(Word2Vec、BERT)算法计算问句与关系间的语义相似度,通过LR排序后得到候选关系。表示学习是利用BERT问句编码和Rotat E知识图谱编码模型来学习问句和关系间的图谱信息,通过评分函数排序后得到候选关系。实验结果表明,语义相似度模型要优于表示学习模型,Top-1关系预测准确率分别为0.792和0.774,因此最终选择语义相似度模型来预测问句的候选关系。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/47995.html