基于图结构的问答系统方法研究与系统实现
这是一篇关于农业知识图谱,问答系统,预训练语言模型,多跳问答,图神经网络的论文, 主要内容为随着互联网技术的应用与发展,搜索引擎已经成为人们日常生活中的一种用于查找未知问题的工具。传统的搜索引擎根据问题文本中的关键词作为匹配依据,返回与其相关的一组网页作为搜索结果。以农业领域为例,需要了解不同类别农作物的种植方法、所需的光照、水分、土壤以及病害、虫害等一系列较为繁复的专业信息,使用传统搜索引擎进行信息检索需要消耗大量的时间和精力从海量无组织的数据中进行收集和整理,会给用户造成不小的信息收集负担。2012年,谷歌提出以三元组为基本组成构建的知识图谱雏形,通过将现实世界中的各种真实存在的事物以三元组的形式构建其中关系,奠定了新一代搜索引擎的基础。农业领域作为国家发展过程中的重要组成部分,依托知识图谱建立问答系统能够有效为生产过程中的各类问题提供参考答案,节约信息查询所需的时间。不仅如此,知识图谱具有较强的可扩展性,随着领域的发展则会新增更多的领域知识,再通过新事物与旧事物之间存在的关联则能继续基于三元组结构进行延伸,形成更为饱满的知识结构。除此之外,现实中还存在需要进行多次推理才能得到答案的问题,对问题上下文文本中线索进行图结构化处理能够有效推理出相应答案。本文以图结构为基础,针对农业领域问答和多跳推理问答进行研究与设计,使其能够实现不同场景下的特定需求,为用户提供更加便捷,高效的信息检索服务。本文的主要工作以及创新点归纳如下:(1)针对基于农业知识图谱的问答系统缺乏结构化数据导致无法构建知识图谱的问题,提出使用网络爬虫与两步数据预处理的方法来收集农业百科知识。该方法根据农业领域不同农作物、种植物与养殖品的细分类别进行分类收集,根据不同的农业实体类别包括的不同属性进行知识关联,完成各个实体与属性描述的结构化三元组构建与存储。(2)针对已有的农业知识图谱构建问答系统这一问题,提出使用命名实体识别与多标签文本分类方法结合的方式对问题进行解析,进而实现问题在结构化数据库中的查询。该方法在构建农业知识图谱的过程中对知识图谱中的实体进行存储,确定现有的知识图谱查询范围,首先对问题文本中是否包含查询范围内的实体进行判断,如果包含查询范围内的实体则进行下一步多标签文本分类判断问题中要求查询的实体的属性。由于考虑到同一问题文本中会对多个属性进行提问,本文首先根据已有的实体属性进行提问方式进行数据集构建,通过实体与提问方式连接的方式构建了单标签与多标签的问题文本。然后,利用常规神经网络模型在基于规则构建的农业问题文本数据集进行训练,以便让模型能够准确识别问题中所提及的属性类别。最后,结合命名实体识别与问题文本属性类别判断的结果将文本解析为用于图数据库查询的语句在数据库中进行查找并返回相应的答案。经实验证明,该问答系统能够回答所收集的农业领域数据中的各类属性问题。(3)针对在单跳推理问答中仅使用单一的段落或文本中的内容对问题进行推理存在局限性这一问题,本文提出使用图结构为问题和上下文段落进行关联建模,再基于预训练语言模型对建模文本进行编码后用图神经网络进行训练使其能够推理多跳问题的答案。图结构推理这一方法类似于人脑对问题的推理流程。首先,该方法不仅能够将问题文本中的实体与给定的上下文段落进行关联,还能将问题文本中的实体关联到外部的维基百科数据库来提供查找答案的线索支撑。完成图结构的多跳推理建模后,使用具有较强性能且消耗算力小的ELECTRA预训练语言模型以及经过优化的图注意力机制网络实现图结构表示的编码与推理训练,实现多跳问答的推理。
基于知识图谱嵌入和候选答案生成的多跳问答方法研究
这是一篇关于自然语言处理,多跳问答,知识图谱问答,知识图谱嵌入,链接预测的论文, 主要内容为问答系统对自然语言问句进行精准的回复,可以帮用户快速地获取问题答案,在信息爆炸性增长的今天具有重要意义。知识图谱问答是自然语言处理领域研究的热点,其中知识图谱以三元组的形式存储现实世界中的知识,以实体节点映射现实世界的事物或概念。知识图谱问答以知识图谱为数据源,按跳数可分为单跳问题和多跳问题,单跳和多跳问题分别用知识图谱中的一个和多个三元组作答。当前知识图谱问答研究仍存在一些困难。第一,大型知识图谱往往存在关系缺失而导致知识图谱不完整的问题,这给多跳问答提出了挑战。第二,在知识图谱多跳问答中,传统方法往往先找到问题中的主题实体,然后从知识图谱中找到主题实体的几跳邻居作为候选答案。然而随着跳数的增加,引入的实体节点可能呈指数上升趋势且引入了大量无关实体。本研究针对以上两个挑战,提出了基于候选答案生成和知识图谱嵌入的CAG-KBQA(Candidate Answer Generation Knowledge Base Question Answering)模型,主要做了以下工作:(1)采用知识图谱嵌入的方法,在知识表示训练过程中为每个实体及关系学习到一个低维向量表示,并将输入的自然语言问句编码到同一向量空间,把搜索答案实体的过程转换为预测三元组的存在是否合理的链接预测;(2)选定问句主题实体所在知识图谱附近几跳邻居实体节点作为子图,然后使用预训练语言模型估计子图中每个实体对于给定问句的重要性,选取更相关的实体作为候选答案,从而减少候选实体的数量并提高相关性。在中文和英文知识图谱多跳数据集上进行了实验,在NLPCC 2016 KBQA单跳问答数据集上取得了89.54的F1分值,在NLPCC-MH多跳数据集上取得了69.15的F1分值,相较对比模型方法取得了最好的F1得分。在英文多跳数据集Web Question SP上进行了实验,验证了CAG-KBQA模型在不完整知识图谱上处理关系缺失的有效性。
基于知识图谱嵌入的多跳问答研究
这是一篇关于多跳问答,知识图谱嵌入,复杂问答,预训练模型,长短期记忆网络的论文, 主要内容为知识图谱多跳问答是一种以知识图谱为数据源来回答复杂问题的研究领域。在推理过程中,经常会因为知识图谱的不完整性使得推理得到错误答案或者通过错误的推理路径得到正确答案。基于知识图谱嵌入的多跳问答方法将自然语言问题文本和知识图谱嵌入到语义空间中,采用得分函数进行相似度计算以获得问题的答案,能够有效的解决知识图谱的不完整性问题。然而,问题与知识图谱的嵌入面临着语义表示不准确、嵌入的语义空间不一致等挑战。本文针对上述挑战,基于知识图谱嵌入的方法给出了相应的解决方案,主要工作如下:(1)针对问题嵌入中忽略了问题文本的不同词对于语义贡献不同的问题,提出了一种在问题文本嵌入中根据不同词对问题语义贡献的大小加权的TIP方法。该方法通过惩罚通用词提升稀缺词权重的方式去平衡问题语义的嵌入,即问题文本中拥有越大TIP权重的词语义贡献值越大。在公开的Web QSP数据集中对问题文本的TIP值进行统计实验,结果表明了在问题文本嵌入过程中区分不同的词语义贡献值的重要性。(2)针对数据集中问题文本语义嵌入不准确的问题,采用长短期记忆网络获取词嵌入的上下文信息,通过TIP加权词的表示以差异化嵌入语义,提出一种有效的多跳问答enhance QE模型。该模型在Meta QA 1-hop、2-hop以及3-hop数据集KGhalf设置中Hit@1指标分别为84.4%、92.0%以及71.5%,超过了Graft Net、Pull Net、KV-Mem以及embed KGQA等经典的基线模型。(3)针对数据集问题文本嵌入空间与知识图谱嵌入空间不一致的问题,提出一种利用知识图谱三元组中的关系信息去拉近问题嵌入与知识图谱嵌入的语义空间距离的TIPNet模型。该模型将TIP模块集成到对候选答案的过滤中,设计了一种区分词语义贡献的答案筛选模块。在主流的评测指标Hit@1中,Web QSP数据集的KGfull设置达到了71.1%,KG-half设置达到了56.0%,分别超过了对比模型中KG-full设置效果最好的Pull Net3个百分点以及KG-half设置效果最好的embed KGQA2.8百分点。CWQ数据集的KG-full设置达到了37.4%,KG-half设置达到了33.2%,提升了答案推理的准确性。
基于知识图谱嵌入的多跳问答研究
这是一篇关于多跳问答,知识图谱嵌入,复杂问答,预训练模型,长短期记忆网络的论文, 主要内容为知识图谱多跳问答是一种以知识图谱为数据源来回答复杂问题的研究领域。在推理过程中,经常会因为知识图谱的不完整性使得推理得到错误答案或者通过错误的推理路径得到正确答案。基于知识图谱嵌入的多跳问答方法将自然语言问题文本和知识图谱嵌入到语义空间中,采用得分函数进行相似度计算以获得问题的答案,能够有效的解决知识图谱的不完整性问题。然而,问题与知识图谱的嵌入面临着语义表示不准确、嵌入的语义空间不一致等挑战。本文针对上述挑战,基于知识图谱嵌入的方法给出了相应的解决方案,主要工作如下:(1)针对问题嵌入中忽略了问题文本的不同词对于语义贡献不同的问题,提出了一种在问题文本嵌入中根据不同词对问题语义贡献的大小加权的TIP方法。该方法通过惩罚通用词提升稀缺词权重的方式去平衡问题语义的嵌入,即问题文本中拥有越大TIP权重的词语义贡献值越大。在公开的Web QSP数据集中对问题文本的TIP值进行统计实验,结果表明了在问题文本嵌入过程中区分不同的词语义贡献值的重要性。(2)针对数据集中问题文本语义嵌入不准确的问题,采用长短期记忆网络获取词嵌入的上下文信息,通过TIP加权词的表示以差异化嵌入语义,提出一种有效的多跳问答enhance QE模型。该模型在Meta QA 1-hop、2-hop以及3-hop数据集KGhalf设置中Hit@1指标分别为84.4%、92.0%以及71.5%,超过了Graft Net、Pull Net、KV-Mem以及embed KGQA等经典的基线模型。(3)针对数据集问题文本嵌入空间与知识图谱嵌入空间不一致的问题,提出一种利用知识图谱三元组中的关系信息去拉近问题嵌入与知识图谱嵌入的语义空间距离的TIPNet模型。该模型将TIP模块集成到对候选答案的过滤中,设计了一种区分词语义贡献的答案筛选模块。在主流的评测指标Hit@1中,Web QSP数据集的KGfull设置达到了71.1%,KG-half设置达到了56.0%,分别超过了对比模型中KG-full设置效果最好的Pull Net3个百分点以及KG-half设置效果最好的embed KGQA2.8百分点。CWQ数据集的KG-full设置达到了37.4%,KG-half设置达到了33.2%,提升了答案推理的准确性。
基于知识图谱嵌入和候选答案生成的多跳问答方法研究
这是一篇关于自然语言处理,多跳问答,知识图谱问答,知识图谱嵌入,链接预测的论文, 主要内容为问答系统对自然语言问句进行精准的回复,可以帮用户快速地获取问题答案,在信息爆炸性增长的今天具有重要意义。知识图谱问答是自然语言处理领域研究的热点,其中知识图谱以三元组的形式存储现实世界中的知识,以实体节点映射现实世界的事物或概念。知识图谱问答以知识图谱为数据源,按跳数可分为单跳问题和多跳问题,单跳和多跳问题分别用知识图谱中的一个和多个三元组作答。当前知识图谱问答研究仍存在一些困难。第一,大型知识图谱往往存在关系缺失而导致知识图谱不完整的问题,这给多跳问答提出了挑战。第二,在知识图谱多跳问答中,传统方法往往先找到问题中的主题实体,然后从知识图谱中找到主题实体的几跳邻居作为候选答案。然而随着跳数的增加,引入的实体节点可能呈指数上升趋势且引入了大量无关实体。本研究针对以上两个挑战,提出了基于候选答案生成和知识图谱嵌入的CAG-KBQA(Candidate Answer Generation Knowledge Base Question Answering)模型,主要做了以下工作:(1)采用知识图谱嵌入的方法,在知识表示训练过程中为每个实体及关系学习到一个低维向量表示,并将输入的自然语言问句编码到同一向量空间,把搜索答案实体的过程转换为预测三元组的存在是否合理的链接预测;(2)选定问句主题实体所在知识图谱附近几跳邻居实体节点作为子图,然后使用预训练语言模型估计子图中每个实体对于给定问句的重要性,选取更相关的实体作为候选答案,从而减少候选实体的数量并提高相关性。在中文和英文知识图谱多跳数据集上进行了实验,在NLPCC 2016 KBQA单跳问答数据集上取得了89.54的F1分值,在NLPCC-MH多跳数据集上取得了69.15的F1分值,相较对比模型方法取得了最好的F1得分。在英文多跳数据集Web Question SP上进行了实验,验证了CAG-KBQA模型在不完整知识图谱上处理关系缺失的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工厂 ,原文地址:https://m.bishedaima.com/lunwen/54543.html