基于知识图谱的自动问答系统
这是一篇关于问答系统,知识图谱,实体识别,实体消歧,依存句法,语义相似度的论文, 主要内容为基于知识图谱的问答系统是实现知识问答和自动化问答的重要途径。伴随着知识图谱的不断发展和壮大,其准确率和覆盖面也变得越来越高,因此在很多领域都被重视起来。本文对基于知识图谱的自动问答系统中所涉及到的实体链接和问句与知识图谱信息匹配进行了研究。问答系统中的实体链接首先要识别出问句中的实体字符串作为实体提及,然后在知识图谱中通过实体映射找出实体提及对应的所有候选实体,最后对这些被找出的候选实体进行实体消歧,进而完成问句的主题实体链接。本文针对实体链接中的难点——实体消歧提出了一种基于多特征的实体消歧模型。本文在问句与知识图谱信息匹配模块引入了依存句法来对问句进行语义表示,并且针对不同的语义表示进行建模,通过比较来选取出最优的问句语义表示,从而提升系统的整体性能。本文还搭建了一个基于问句多分类的中文知识图谱问答演示系统,已经上线并且可以提供问答服务。本文的主要内容分为如下几个方面:(1)研究基于多特征策略的实体链接。本文针对由于知识图谱中实体自身描述信息含量少而导致的低质量实体链接的问题,提出了一种基于多特征的实体链接方法。实体链接主要分为实体识别和实体消歧,由于知识图谱中含有实体解释的信息非常少,导致实体链接部分最难处理的就是实体消歧。本文提出的方法就是充分提取问句与实体的自身特征,以及利用实体在知识图谱中的边和节点信息,来进行实体消歧。并在CCKS2019-CKBQA公开的测试集上面进行实验,在实体链接部分的准确率高于当时参赛第一名,体现了本文所提方法的优异性能。(2)研究问句与知识图谱信息的最优匹配。关于知识图谱问答的研究表明,如果能够对问句进行更好的解析和理解,知识图谱问答系统的性能会得到不错地提升。本文提出了一种基于依存句法的问句解析方法,通过加强问句的语义表达,来提高问句与知识图谱信息匹配模型。首先考虑问句的依存句法树中关键字之间的最短依存路径,对句法树中的路径上节点间的依存关系进行编码。其次对于整棵句法树的表达,本文提出了两种编码策略。最终结合基于最短依存路径的向量表示和基于整棵句法树的向量表示,进一步改进了问句与知识图谱信息匹配模型的性能。最终在一个广泛使用的基准数据集上进行了大量的实验。实验结果表明,与其他匹配模型相比,本文提出的基于依存句法的匹配模型能够更好地解析问句,并且取得更好的效果。(3)构建基于问句多分类的中文知识图谱问答系统。本文结合前两点的研究,针对当前中文知识图谱问答关于复杂问句的性能不好的问题,实现了一个基于问句多分类的知识图谱问答系统。系统包含实体识别、实体链接、以及问句与知识图谱信息匹配的功能。系统还能够对简单问句与复杂问句进行分类处理,并且对于分类后的问句,采用了不同的解决方法去完成问答。除此之外,系统内部的各模块功能也经过测试与调试,目前该系统已经开始上线,供用户进行知识图谱问答。
基于触发词和依存句法的金融关系抽取方法研究
这是一篇关于金融关系抽取,相似度特征,依存句法,异构图卷积神经网络,知识图谱的论文, 主要内容为随着互联网的普及和发展,当今正处在一个信息爆炸的时代,文本数据作为信息的主要记录载体呈指数爆炸增长,铺天盖地的繁杂信息影响了知识的获取,因此如何从非结构化的信息中提取出有用的结构化信息显得尤为迫切和需要。关系抽取任务作为信息抽取中的关键,实现从非结构化的文本中抽取出“头实体-关系-尾实体”三元组知识,用于知识图谱的构建和辅助信息的检索,为未来专业领域的业务应用提供了知识支撑。随着金融科技化与数字化发展,金融知识愈发宝贵,知识利用的需求愈发迫切,因此金融领域的关系抽取的实现十分重要。本研究从金融文本特点分析和金融本体的构建出发,针对性的提出了融合外部知识语义相似度特征的关系抽取方法,结合关系触发词表创新设计了无监督的语义匹配任务以及相似特征的提取方法,在聚类和可视化应用上提升了金融领域编码的效果,在少样本场景下的金融关系抽取的效果提升显著。为了解决金融关系抽取中关系重叠的问题,本研究采用句法结构建模的方式,设计了基于硬软结合的依存句法树剪枝策略,有效去除了长句中的冗余信息,并首次提出将实体类型和句法类型融入异构图卷积神经网络(HGCN)中,有效融合了结构、语义等多维度信息,该关系抽取算法在金融领域数据集上提升了约一个百分点F1值。本研究将算法研究转化为应用成果,实现金融关系抽取算法系统设计、金融知识图谱的构建流程及其智能问答应用功能设计,进一步探索了金融应用价值。
基于深度学习的方面级情感分析研究与应用
这是一篇关于方面级情感分析,图卷积网络,注意力机制,依存句法的论文, 主要内容为随着全社会的数字化转型,人们在日常生活中越来越依赖社交网络、电商网站、短视频影音软件等互联网平台。在这些互联网平台上留存着丰富的用户评论信息,挖掘这些信息对市场营销、舆情分析、以及辅助决策具有重要价值。文本情感分析作为NLP领域的一个子任务,研究人员对其的研究由来已久,但传统的粗粒度分析方式已不能满足人们日益增长的分析需求,细粒度的方面级情感分析是近几年研究的重点。本文针对方面级情感分析中该如何建立方面词与上下文的联系以及如何挖掘深层次句法信息的两大问题,提出了相应的解决方案,主要工作如下:(1)针对现有文本情感分析方法因使用单一注意力机制而无法很好地获取方面词与上下文各种关联的问题,本文提出了一种基于多交互注意力图卷积的方面级情感分析模型。首先,该模型在特征提取层使用一个Bi-GRU来获取方面词以及上下文的隐藏特征向量;然后,在图卷积层中利用句法依存树来获取上下文中的句法结构信息,并且利用多交互注意力机制来分别提取方面词和上下文的语义特征、句法特征;最后,使用一个门控机制将语义特征和句法特征进行融合,判断方面词情感极性。为验证模型的有效性,本文在SemEval以及Twitter等一系列公开数据集上进行实验。实验结果表明,该模型在方面级情感分析上的效果有明显提升。(2)针对模型中无法充分利用句法依赖信息,缺乏发掘深层次句法信息能力的问题,提出了一种基于预训练模型BERT和强化依赖图卷积的方面级情感分析模型。该模型使用预训练模型BERT作为词嵌入层模型,以解决一次多义问题。同时基于依存句法树,将文本词语间的依赖关系、依赖类型和依赖距离都纳入考量,从而使模型能够充分利用所有的依赖信息,准确的掌握文本语句中的各种句法结构。并且模型中还加入了一个关注特定方面的注意力层来关注与方面有关的上下文信息。根据在多个公开数据集上的对比实验结果显示该模型优于大多数最新的有效模型。(3)基于本文研究的模型,设计实现了一个面向酒店评论的方面级情感分析系统,对酒店评论文本的方面词进行情感极性判断,为酒店业者根据消费者需求反馈,改善服务质量提供帮助。
基于情感词典与点间互信息算法的情感倾向分析研究
这是一篇关于情感词典,模式匹配,依存句法,N-Gram特征,点互信息,新情感词抽取的论文, 主要内容为随着互联网的广泛应用和网络用户的指数型增长,互联网平台创造了大量可作为文本情感分析的语料数据,如果这些语料数据能获得充分挖掘与利用,相关产业将会获得巨大效益。如何有效获取这些语料并精准分析其情感倾向,再基于这些语料数据作相关领域的研究,从而为相关领域的发展提供数据支持和精准帮扶,是目前自然语言处理学科的一个重要研究点。情感分析,被定义为分析人对特定事件或事件的衍生物所做出的主观、或客观的情感表达,通常以文字、视频、语音和表情等载体的展示。情感分析技术被广泛应用于推荐系统、社会舆情分析、影视评价等方面。情感分析包括情感信息抽取和情感倾向性分析。本文对情感词典的管理、新情感词的抽取与情感倾向分类进行了深入研究,提出基于情感词典和SO-PMI算法的文本情感倾向分析。本文的主要研究包括:(1)提出基于有限状态机原理的模式匹配优化算法。情感词典的有效管理可以节省内存空间和提高系统的运行速率。本文基于有限状态机模式匹配算法,对结点的存储结构和模式匹配过程等方面进行优化,改善了模式查找时的运行时间。设置不同变量,并通过与AC_BM、AC双数组和AC_BMH等多模式匹配算法对比,实验结果表明,优化后的算法可以有效管理情感词,同时也提高了模式匹配效率。(2)提出基于句法依存关系和N-Gram算法的提取候选情感词的分析方法。本文基于句法依存关系,以词的依存关系规则和N-Gram为特征,抽取候选情感词单元。然后计算候选情感词与基准情感词典的PMI值,确定候选情感词极性。最后将新提取的已知情感极性词纳入到总情感词库中,增加情感词典的覆盖率。根据评估指标结果可知,由依存句法提取的特征获取候选情感词的平均准确率达83%。(3)提出基于模式匹配和情感词典为主、基于情感词典和互信息算法为辅的情感倾向分类研究。首先根据现有的情感词典库,基于模式匹配算法,提取已知情感词,再根据情感词典中的情感词的极性确定已知情感词词性;然后,针对语料中未包含于情感词典中的词,本文基于句法依存关系和N-Gram算法为特征的方法提取候选情感词,用于不断获取新情感词;最后,结合两种分类方法,获得整个句子的情感倾向。实验结果表明,本文方法获得句子的情感倾向性的准确率达84.37%,比基于传统情感词典高7.23%,比基于SVM分类的方法高6.05%。
基于知识图谱的自动问答系统
这是一篇关于问答系统,知识图谱,实体识别,实体消歧,依存句法,语义相似度的论文, 主要内容为基于知识图谱的问答系统是实现知识问答和自动化问答的重要途径。伴随着知识图谱的不断发展和壮大,其准确率和覆盖面也变得越来越高,因此在很多领域都被重视起来。本文对基于知识图谱的自动问答系统中所涉及到的实体链接和问句与知识图谱信息匹配进行了研究。问答系统中的实体链接首先要识别出问句中的实体字符串作为实体提及,然后在知识图谱中通过实体映射找出实体提及对应的所有候选实体,最后对这些被找出的候选实体进行实体消歧,进而完成问句的主题实体链接。本文针对实体链接中的难点——实体消歧提出了一种基于多特征的实体消歧模型。本文在问句与知识图谱信息匹配模块引入了依存句法来对问句进行语义表示,并且针对不同的语义表示进行建模,通过比较来选取出最优的问句语义表示,从而提升系统的整体性能。本文还搭建了一个基于问句多分类的中文知识图谱问答演示系统,已经上线并且可以提供问答服务。本文的主要内容分为如下几个方面:(1)研究基于多特征策略的实体链接。本文针对由于知识图谱中实体自身描述信息含量少而导致的低质量实体链接的问题,提出了一种基于多特征的实体链接方法。实体链接主要分为实体识别和实体消歧,由于知识图谱中含有实体解释的信息非常少,导致实体链接部分最难处理的就是实体消歧。本文提出的方法就是充分提取问句与实体的自身特征,以及利用实体在知识图谱中的边和节点信息,来进行实体消歧。并在CCKS2019-CKBQA公开的测试集上面进行实验,在实体链接部分的准确率高于当时参赛第一名,体现了本文所提方法的优异性能。(2)研究问句与知识图谱信息的最优匹配。关于知识图谱问答的研究表明,如果能够对问句进行更好的解析和理解,知识图谱问答系统的性能会得到不错地提升。本文提出了一种基于依存句法的问句解析方法,通过加强问句的语义表达,来提高问句与知识图谱信息匹配模型。首先考虑问句的依存句法树中关键字之间的最短依存路径,对句法树中的路径上节点间的依存关系进行编码。其次对于整棵句法树的表达,本文提出了两种编码策略。最终结合基于最短依存路径的向量表示和基于整棵句法树的向量表示,进一步改进了问句与知识图谱信息匹配模型的性能。最终在一个广泛使用的基准数据集上进行了大量的实验。实验结果表明,与其他匹配模型相比,本文提出的基于依存句法的匹配模型能够更好地解析问句,并且取得更好的效果。(3)构建基于问句多分类的中文知识图谱问答系统。本文结合前两点的研究,针对当前中文知识图谱问答关于复杂问句的性能不好的问题,实现了一个基于问句多分类的知识图谱问答系统。系统包含实体识别、实体链接、以及问句与知识图谱信息匹配的功能。系统还能够对简单问句与复杂问句进行分类处理,并且对于分类后的问句,采用了不同的解决方法去完成问答。除此之外,系统内部的各模块功能也经过测试与调试,目前该系统已经开始上线,供用户进行知识图谱问答。
面向金融领域的篇章级实体关系抽取研究
这是一篇关于篇章级实体关系抽取,图神经网络,融合多粒度上下文向量,依存句法的论文, 主要内容为实体关系抽取是自然语言处理研究中一项重要的子课题。实体抽取是指从非结构化的文本中抽取有特定意义的相关实体,并将其分配到预先指定的类别中(本文重点关注人名机构名)。关系抽取则关注文本中出现的两个实体之间的语义关系,将抽取得到的实体对分类到预先定义的关系类别中。实体关系抽取在知识图谱构建,信息检索,文本摘要等下游任务中有着重要应用。实体关系抽取最初大多采用基于规则的方法以及基于特征的统计学习方法,这些方法大多需要大量人工设计规则和提取特征。随着深度学习技术的兴起与发展,基于各种深度学习网络的实体关系抽取方法成为主流,本文的研究内容即研究采用深度学习的方法。随着近年来市场经济快速发展,数字化金融文档呈现出爆炸式增长,例如股票市场的金融公告,通过研究分析这些金融文档自动化挖掘信息并构建金融知识库具有重要意义。因此本文将研究面向金融领域的数据进行实体关系抽取。此外,根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,研究篇章级别的实体关系抽取具有非常重要的研究与应用价值。目前,实体关系抽取大多研究句子级的抽取方法,忽略了关系对应的两个实体可能跨句子的复杂情况,为了解决这一问题,本文着重研究如何在抽取过程中融合篇章级信息。在基于流水线的方法中,主要通过构建包含实体节点,实体提及节点,句子节点的图结构,并用图注意力网络进行训练来融合篇章级的信息。在基于联合抽取的方法中,通过将任务转化为序列标注任务,将关系类别融入到统一的标注体系中,并在编码句子过程中动态融合多粒度上下文信息的向量。针对上述方法,分别开展了实验进行验证。基于深度学习的方法需要大量的有标注数据,但在实际应用情况中,数据对于关系类别可能存在长尾分布,部分关系类别的数据较少,经过统计,本研究所采用的数据集就存在该问题。因此本文针对该种情况进行了研究,通过爬取网络上的未标注数据,结合已有的数据,使用弱监督学习的相关方法,例如借助依存句法和相关规则来自动获取有标签数据,以及采用伪标签的方法来提升模型性能。此外,针对在关系抽取分类时数据存在的正负样例不均衡问题,本文也针对该问题进行了实验,最终采取了将优化目标中加入F1评价指标,借此来缓解该问题
基于依存句法分析的企业税法实体关系抽取方法研究
这是一篇关于依存句法,关系抽取,语料库构建,自动问答的论文, 主要内容为随着人工智能技术的不断发展,人机对话系统的构建成了研究领域里的一大热点,人机对话的实现离不开计算机对于文本信息(以下简称“文本”)的处理和理解,从现有的研究来看,计算机对于文本的理解还不够智能化。计算机要实现对文本的智能化处理,需要同时对句法和语义进行分析,遇到歧义时,还要结合上下文的语境进行处理,本文的研究亦是基于上述原则展开的。本文研究重点在于命名实体识别和实体关系抽取,为了取得较好的结果,需要将语法规则和语义分析结合在一起。命名实体的识别,通过知识图谱进行总结和梳理,以一种可视化的形式展现出来,同时在最大程度上确保了命名实体的全面性,方便及时查漏补缺。实体关系抽取,要从语法和语义两个方面入手,为了获取较好的语法规则,本文选用了依存句法对其进行分析。该种方法可以用来处理长难句和歧义句,且可以更好地展现出句子的核心和层次性。同时,实体关系的抽取离不开实体关系词的语义映射,这就需要对实体关系进行语义上的分类,而不单单只停留在语法层面。有了语法层面的规则分析以及语义层面的实体关系分类,就可以更好地理解一句话的真实意图,从而达到对于文本信息的处理和识别。本文研究的领域为企业税法,因此研究的目标则为公司税法领域内所涉及到的相关命名实体以及实体关系,本文参考了六本该领域的专业书籍,同时通过百度词条、百度问答、知乎等平台来搜寻企业所涉及的相关税法,对其中所涉及到的命名实体进行总结、划分和归类。在构建实体关系体系时,针对每一种实体关系,也建立了一个与之相对应的词表。使用“Mind Manager(思维导图)-幕布”作为工具,生成该领域中所涉及到的命名实体及实体间关系,然后以图形的方式将它们表现出来。同时,抽取其中所涉及到的命名实体关系,抽取主要是对句法规则进行总结,对新增的句子进行解析,得出相应的分词,在经过分词、词性标注以及句法分析等步骤后,每个句子都会有一个相对应的句法树,每个句法树都可以用相对应的标签来表示。本文选择企业税法领域作为研究对象,与其重要性是密不可分的。税收来源于民众,而服务于民众。无论是从国家或是政府的财政收入还是社会的经济发展状况来看,税收都起到了举足轻重的作用。而税收的依据就是税法,基于此,笔者认为研究企业税法的社会价值十分重要。同时,现阶段,整个社会进入了一个全民创业期。对于创业者来说,他们急需学习相关的企业税法知识,而本文所做的有关于“企业税法”方面的研究将为他们提供一个了解该领域知识的平台。此外,本文在企业税法实体关系抽取研究的基础上,结合当前的研究热点,将研究内容与自动问答系统结合在一起,使得研究结果能够运用到实践中,也让该研究具有了更多的实际价值。综上所述,本文利用依存句法分析技术和语义分类,将其应用于企业税法领域中,试图实现自动抽取命名实体和实体关系的目的,并以此为基础,提出了一套构建该领域的自动问答系统的构想,希望借助该研究,将其运用到实际的自动问答系统之中。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://m.bishedaima.com/lunwen/49210.html