基于知识图谱的简单问答算法的研究与实现
这是一篇关于知识图谱,神经网络,管道框架,问答的论文, 主要内容为知识图谱是从大量事实中提取出来的。它大致分为两类,一类是从维基百科等知识库中提取的实体及其之间的联系;另一类是从大量页面中抽取的具有实体关系的三元组,这样的三元组内容更加丰富,也使得噪音较多。随着这些知识图谱的出现,人们开始利用有效的方法来获取知识图谱中的大量有价值的内容。为此,人们提出了许多查询语言。但是,这些语言中的语法不易被人们理解,因此,提出了许多基于知识图谱的问题回答算法。在人工智能领域里,基于知识图谱的问答将知识图谱作为回答人类问题的关键要素。这是一种良好的解决问题的办法,对人工智能发展起到了推进作用。基于知识图谱的问答任务有两条主要的研究路线:第一种是语义解析方法,就是将问题映射到其逻辑形式上,然后转换为结构化查询;另一种是基于神经网络的方法,这类方法同样也有两个分支,即为管道框架和端到端框架。本文主要研究的是处理单关系问题的管道框架。与端到端框架不同,管道框架的每个模块之间紧密连接,中间应用了许多深度学习框架。该框架需要各个模块均得到最优的结果,才能保证最终结果优于其他算法。管道框架的整体结构如下:(1)用于识别问题中实体提及的实体检测模块;(2)用于在知识图谱中生成问题指向的实体候选的实体链接模块;(3)用于测量问题与关系候选之间语义相似性的关系检测模块。在实体检测模块中,给定一个问题,实体检测的目标是识别提及范围中的连续标记,该标记涉及的是问题中的主题实体。本文使用的是最常用的BiGRU-CRF模型来进行标记实体。并用特殊符号进行实体替换,将问题转换为问题模式。在实体链接模块中,本文在传统的字符串匹配算法的基础上,添加了多标签分类模型,得到本文中新算法——基于问题模式分类的实体链接算法。在关系检测模块中,本文提出了一种检测模型——基于注意力的问题模式关系匹配模型进行关系检测,该模型涉及两个级别的关系编码,分别是单词级别和关系级别。本文在SimpleQuestions数据集上进行的验证实验。实验结果(80.80%)表明,与以往的方法相比,本文实现的管道框架是可行有效的。对于实体检测模块,本文使用了四种模型,结果(97.41%)表明BiGRU-CRF模型能够获得较高的准确率。对于实体链接模块,本文提出基于问题模式分类的实体链接算法同样是有效的,很大程度上优于基于传统字符串匹配的方法,并且具备普遍性。对实体检测模块,本文采用的基于注意力的问题模式关系匹配模型准确率同样较高。
基于多模态的商品属性抽取技术研究
这是一篇关于属性抽取,深度学习,多模态,问答的论文, 主要内容为商品属性是对商品的客观描述,是电商系统中的基础特征之一,被广泛应用于电商的各个场景中。商品属性抽取作为商品属性获取的主要手段,对商品属性的补充有着极其重要的作用,提升商品属性抽取模型的精度和召回率可以节约大量人力成本,提高电子商务平台服务水平。常规的商品属性抽取方法通常基于文本在少量属性上进行,无法扩充到大规模的商品属性抽取,且没有充分利用商品图片等额外信息。基于此,论文提出基于问答的多模态商品属性抽取方法,解决了大规模属性抽取问题,有效的提取了商品图片信息,提高了模型效果。具体来说,主要包含以下两个内容:·采用基于问答的商品属性抽取框架。传统的基于序列标注的方法由于是一个多分类模型,所以无法应用于大规模商品属性抽取中。而基于问答的商品属性抽取框架将商品标题和图片当做上下文,将属性名称当做问题,模型通过在上下文中标注当前问题的答案来获得对应的属性值,将传统的基于序列标注的多分类问题转化为了二分类问题,从而可以通过并行实现大规模属性抽取,同时属性信息提供了先验知识,提高了模型效果。·提出基于属性感知的视觉注意力和过滤门机制。商品图片同时包含有用信息和噪声,通过合理的方法有效的提取图片信息可以提升模型的效果。本文提出的基于属性感知的视觉注意力可以实现对于同一个标题和同一张图片,由于不同的属性的加入,让模型关注到与当前属性抽取最相关的部分,而过滤门机制则控制了图片信息的加入比例,进一步消除图片带来的噪声。
问答系统中的答案源搜索与选择方法研究
这是一篇关于问答,答案源搜索,答案源选择,密度优先,信息交互的论文, 主要内容为问答(Question Answering,简称QA)是自然语言处理领域中一个非常热门的研究方向。问答系统中涉及到的技术颇多,其中最主要的部分便是答案源的搜索与选择。答案源的搜索旨在从大规模数据集中筛选可能包含问句答案的文本集合,一般使用传统的无监督方法。答案源选择则是在已有候选文本集合下,通过深度学习方法选择或抽取能够回答用户问题的答案。本文面向问答系统中的答案源搜索和选择任务,分别做了如下三个部分研究:(1)基于密度优先策略的答案源搜索方法研究现有的答案源搜索方法通常都是基于词共现,未曾考虑问题关键词分布的情况,本文发现存在关键词多且密的片段成为优质候选答案的可能性较高,基于此我们提出了基于密度优先策略的答案源搜索方法,其求解原理是利用问题关键词在文本中的最大分布密度来衡量问题和文档的相关度,其设计动因来源于实际数据的观测结果,即在正确答案源中,问题关键词的分布往往较为密集。同样,在该研究中我们也对比了传统方法和深度学习方法在不同句子粒度上的性能表现,为在实际运用中二者之间的权衡给予了一定的参考标准。(2)基于多粒度交互融合的答案源选择方法研究目前,大量的深度学习方法已被成功运用于答案源选择任务中,其中,基于交互的模型取得了显著成果。基于交互的方法核心问题在于交互矩阵(匹配矩阵)的构建,现有答案源选择方法在构建交互矩阵时仅考虑一种类型的语言特征,即单词级别或句子语义级别的特征。相比之下,本文发现多种类型的语言特征的共同使用有助于增强局部相关性表示。因此,本文提出了一种多粒度交互融合方法,该方法同时获取相同粒度以及不同粒度的语言单元之间的交互信息。在此基础上,本文融合了不同的交互信息,并按照先前的工作将卷积神经网络应用于交互矩阵,以解码全局问题与答案源的相关性。(3)问答系统原型实现结合前文答案源搜索和选择方法的研究,本文使用中文维基百科数据,通过储存与检索架构ES,基于前端Vue、Bootstrap和后端Tornado框架搭建了检索式的问答系统原型。用户输入相关问题,系统便可结合本文提出的密度优先策略和多粒度交互融合的方法,从中文维基百科数据中搜索与选择,并最终返回最有可能包含用户问题答案的句子或段落。本文从整体到局部,针对问答系统中的答案源搜索和选择任务中发现的现象和问题,提出了相应的解决思路和实现策略,两者在各自任务的实验上均达到了前沿的性能。同时本文由局部回归整体,整合以上两种算法,基于中文的百科数据构建了检索式的问答系统原型。
基于开放知识图谱的金属材料领域问答系统研究
这是一篇关于开放知识图谱,问答,问题三元组,WordNet,Microsoft Concept Graph的论文, 主要内容为目前,问答已经被应用于很多特定的领域,比如医药领域和地理领域等。随着开放知识图谱中实体和关系的不断丰富,开放知识图谱可以为领域问答提供更丰富的信息。然而,基于开放知识图谱的领域信息查询仍面临一些挑战,其中的数据未指明其所属的领域,而且用户的自然语言查询和知识图谱中的数据在结构上不一致。本文提出了一种基于开放知识图谱的特定领域问答研究方法,该方法设计了一系列逻辑规则将用户问题的语义解析结果转化为问题三元组;再根据WordNet和Microsoft Concept Graph对问题三元组中的概念进行多语义角度的扩展;基于概念的语义扩展结果实现问题三元组的语义扩展;再将扩展后的问题三元组和开放知识图谱中的领域数据建立匹配关系。本课题所做的主要贡献如下:1)设计逻辑规则将问题转化为结构化表示。使用自然语言处理工具Stanford Parser和Stanford CoreNLP对用户问题进行解析,再根据所设计的规则将解析结果整合为三元组表示,从而实现问题的结构化表示。2)设计语义查询扩展策略和扩展结果过滤策略以进行查询扩展。基于WordNet和Microsoft Concept Graph对问题三元组中的概念进行同义词、上义词或下义词等扩展。对每种语义角度的扩展结果,基于相似度计算方法设计不同的过滤策略。3)基于语义标记信息进行匹配结果验证。除了相似度数值,本文还使用了语义标记信息对问题中概念的匹配结果进行筛选。相似度数值和语义标记信息的结合使用可以进一步提高概念匹配的准确率。4)针对失败的匹配提出了一种基于本体结构的查询松弛策略。问题三元组中的概念可以和指定类型的领域数据重新进行匹配。此外,判断概念和领域数据之间是否可以建立匹配关系的相似度阈值可以降低。本文提出的查询松弛策略可以使问题和领域本体之间建立尽可能多的匹配关系。
面向电力PDF文档中表格的知识图谱构建技术研究
这是一篇关于知识图谱,构建,表数据,问答的论文, 主要内容为电力行业是我国的重要产业支柱,其行业标准通常以PDF文档形式保存。电力行业标准PDF中包含大量表格数据,但是,这些表格布局应用的主要目的是向人们展示更加直观的信息。表格中的数据不易被计算机处理,以致其数据价值难以发挥。传统基于字符串模糊匹配的查询方式,不仅无法满足用户的个性化需求,搜索结果往往包含很多的无关信息。因此,本文重点研究面向电力标准表格数据的知识图谱构建方法。从PDF文档内的表格抽取数据并转换为结构化的RDF知识图谱,在此基础上,构建基于信息检索的方法实现电力知识问答框架,简化管理与查询流程。本文主要工作内容包括以下两个方面:(2)提出了一种基于信息检索的电力知识图谱问答方法并构建问答底层框架。以本文构建的电力知识图谱作为知识库,搭建了电力知识智能问答底层框架。首先通过词性标注与依存句法分析识别出自然语言问句中的主题实体并连接电力知识图谱,然后通过候选路径模板生成候选答案集合,最后利用基于表示的BERT预训练模型得到候选答案与自然语言问句之间的语义相似度,并结合文本相似度进行路径评分,以得分最高的候选路径指向的尾实体作为正确答案。同时,构建了一个电力问答数据集合,包含3378组问题与答案,通过在此数据集上实验验证了电力(1)提出了一种自底向上的面向电力标准PDF文档中表格数据的领域知识图谱构建方法。该方法首先利用Tabula表格处理技术从PDF文档中抽取表格。然后运用单元格规则语言对所有表格进行规范化处理,再进一步转换为三元组数据。最后,根据电力行业标准文档构建电力领域本体,通过表解释任务将表格数据映射到本体类,进一步丰富表数据的背景知识。通过在国家电力行业标准数据集上进行实验,该方法获得了电力行业标准相关的RDF知识图谱,包含13400个三元组数据,以及20个相关的基本概念类。知识问答框架的有效性。本文的研究工作,对于从表格数据抽取知识,具有一定的理论意义;根据实际数据获得的电力知识图谱,覆盖了电力标准中的大部分结构化知识,对于实现电力相关行业的智能化升级具有一定的实践价值。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码小屋 ,原文地址:https://m.bishedaima.com/lunwen/47320.html