基于知识图谱的复杂数学命题表示及关系抽取
这是一篇关于知识图谱,关系抽取,初等数学命题,Stanford Parser,句法结构的论文, 主要内容为随着人工智能领域的飞速发展,目前人们已经可以借助自然语言处理技术从文本中提取结构化信息,一些国内外学者开始研究从数学文本中提取知识并通过知识谱图的图推理功能实现类人答题系统。其中关于初等数学命题的关系抽取和知识表示成为重要研究方向之一。本课题研究的初等数学文本以数学命题为重点,目标是能够对初等数学命题进行基本的关系抽取,正确抽取初等数学试题中的各种关系。本文主要在通过知识图谱表示初等数学知识的基础上,借助Stanford Parser从句法结构的角度对复杂命题句式进行自然语言处理。本文首先介绍了目前基于知识图谱的关系抽取方法在数学命题的应用,提出了通过霍恩子句对复杂命题化简的方法。然后提出了基于命题三元组属性的改进方法,得到用于表示命题的三元组。对于含有嵌套命题结构的试题,使用Stanford Parser句法解析器进行句法分析,得到复杂语句中相应的依赖结构,并根据解析得到的句法解析树自上而下地逐层处理嵌套信息,最后得到一般初等数学命题的关系抽取方法。本文从初等数学试题自建库中分别选取了含有数学命题的试题1000题以及含有嵌套命题结构的试题1000题进行实验,最终分别得到了97.3%和78.87%的关系抽取准确率,且对比传统方法和新兴的Han LP模型均有更好的效果。
知识驱动的自然语言理解系统
这是一篇关于自然语言理解,跨语言迁移,标签语义空间,常识知识,句法结构的论文, 主要内容为对话系统是一种贴近人类群体之间的一种交互方式,用户可以通过输入自然语言的方式来获取自身所需要的各种信息或者服务,已经在实践中得到了十分广泛的应用。本文研究任务型对话系统中的自然语言理解系统,也是整个对话系统的核心基础能力体现。自然语言理解系统负责解析并理解用户输入的自然语言查询,将人类语言结构化为机器语言。自然语言理解能力的准确率高低,极大地影响着整个任务型对话系统的实际性能。最早的自然语言理解系统是纯规则实现的,通过领域专家自我总结的专家知识来设计,因此识别准确率非常低,系统的泛化能力很脆弱,只能小规模的适用于部分比较简单的场景,用户体验不佳。随着时代的发展和技术的进步,以深度学习方法为代表,基于数据驱动的神经网络模型的出现极大地提升了自然语言理解系统的识别准确率,也降低了实际应用的门槛,推动了相关技术领域的研究进展。尽管当前深度学习的方法取得了很大的性能突破,但依然存在着很多挑战,例如数据依赖问题,冷启动问题以及模型泛化性。这些问题的本质原因是当前的深度学习方法过度依赖于数据,缺乏对知识的表示和推理能力。因此,本课题针对于现有的自然语言理解系统存在的以上问题,提出了基于知识驱动的自然语言理解系统。本文研究的知识驱动的自然语言理解系统是在深度学习的基础上,融合数据学习和知识表示与推理的学习范式,解决深度学习方法存在的不可解释性和标注数据严重依赖问题,提高神经网络模型在低资源场景下的识别能力,尤其是识别在语料库中出现频率较低的稀有词汇和OOV(out-of-vocab)词汇,增强模型的可控性和推理泛化能力。本文共定义四种知识的组织形式,包括来自于跨语言的共享语言知识,标签语义知识,大规模常识知识图谱以及语言句法知识,试图从不同的维度去探讨知识利用对于神经网络模型学习能力的促进作用。本文的主要工作和贡献如下:1)基于对抗学习的跨语言迁移自然语言理解模型:基于深度神经网络的联合自然语言理解模型在大规模语料集上可以取得非常不错的效果。然而对于一些低资源的语言,现有的深度模型常常表现不佳。本文希望借助于已有的高资源语种的数据,来学习数据内部蕴含的语言学知识,进而迁移到低资源的语言,来缓解数据缺乏的难题。本文利用对抗学习的方法分离语言之间的共享特征和私有特征,然后仅仅迁移不同语种之间的相同的语言知识,来最大化迁移的效果。2)建模标签语义空间的自适应自然语言理解模型:基于深度神经网络的联合自然语言理解模型只考虑了对上下文的理解,而忽略了对标签语义空间的建模。在现实场景中,槽的定义本身是有语义描述的,例如电影名和开始时间,人类在理解语言之间会首先参考这些槽的定义,之后再去识别其中的关联信息。因此,本文借助于建模标签语义空间这种附加知识的方法来达到自适应的理解,即使在标注体系改变或者领域迁移的场景下也能保证较好的性能。本文希望通过此种方式来缓解对于数据的过分依赖问题,使得系统具有一定的鲁棒性。3)基于常识知识的推理式自然语言理解模型:人类在理解语言的时候往往会参考很多的背景常识知识,尽管现有的预训练上下文表征以一种自监督的方式可以捕获语言学知识,但缺乏可解释性,OOV(out-of-vocab)单词会大大降低基于神经网络模型的性能,尤其是在低资源情况下。本文提出了一种新颖的知识增强的槽填充模型,以融合输入文本的上下文表示和大规模的词汇背景知识,同时使用多级图注意力来显式地建模词汇关系。4)基于句法结构知识的自然语言理解模型:槽填充和意图检测是自然语言理解的两个主要任务。在大多数现有工作中,这两个任务被构建为具有多任务学习的联合模型,而忽略了先前的结构化语言知识。在本文中,我们提出了一种新颖的句法联合模型,该模型将图卷积网络应用于句法依存树上,来建模语法结构知识,以共同学习槽填充和意图检测,利用多头注意力将句法表示与上下文单词表示融合,作为自然语言理解任务的补充表示。
知识驱动的自然语言理解系统
这是一篇关于自然语言理解,跨语言迁移,标签语义空间,常识知识,句法结构的论文, 主要内容为对话系统是一种贴近人类群体之间的一种交互方式,用户可以通过输入自然语言的方式来获取自身所需要的各种信息或者服务,已经在实践中得到了十分广泛的应用。本文研究任务型对话系统中的自然语言理解系统,也是整个对话系统的核心基础能力体现。自然语言理解系统负责解析并理解用户输入的自然语言查询,将人类语言结构化为机器语言。自然语言理解能力的准确率高低,极大地影响着整个任务型对话系统的实际性能。最早的自然语言理解系统是纯规则实现的,通过领域专家自我总结的专家知识来设计,因此识别准确率非常低,系统的泛化能力很脆弱,只能小规模的适用于部分比较简单的场景,用户体验不佳。随着时代的发展和技术的进步,以深度学习方法为代表,基于数据驱动的神经网络模型的出现极大地提升了自然语言理解系统的识别准确率,也降低了实际应用的门槛,推动了相关技术领域的研究进展。尽管当前深度学习的方法取得了很大的性能突破,但依然存在着很多挑战,例如数据依赖问题,冷启动问题以及模型泛化性。这些问题的本质原因是当前的深度学习方法过度依赖于数据,缺乏对知识的表示和推理能力。因此,本课题针对于现有的自然语言理解系统存在的以上问题,提出了基于知识驱动的自然语言理解系统。本文研究的知识驱动的自然语言理解系统是在深度学习的基础上,融合数据学习和知识表示与推理的学习范式,解决深度学习方法存在的不可解释性和标注数据严重依赖问题,提高神经网络模型在低资源场景下的识别能力,尤其是识别在语料库中出现频率较低的稀有词汇和OOV(out-of-vocab)词汇,增强模型的可控性和推理泛化能力。本文共定义四种知识的组织形式,包括来自于跨语言的共享语言知识,标签语义知识,大规模常识知识图谱以及语言句法知识,试图从不同的维度去探讨知识利用对于神经网络模型学习能力的促进作用。本文的主要工作和贡献如下:1)基于对抗学习的跨语言迁移自然语言理解模型:基于深度神经网络的联合自然语言理解模型在大规模语料集上可以取得非常不错的效果。然而对于一些低资源的语言,现有的深度模型常常表现不佳。本文希望借助于已有的高资源语种的数据,来学习数据内部蕴含的语言学知识,进而迁移到低资源的语言,来缓解数据缺乏的难题。本文利用对抗学习的方法分离语言之间的共享特征和私有特征,然后仅仅迁移不同语种之间的相同的语言知识,来最大化迁移的效果。2)建模标签语义空间的自适应自然语言理解模型:基于深度神经网络的联合自然语言理解模型只考虑了对上下文的理解,而忽略了对标签语义空间的建模。在现实场景中,槽的定义本身是有语义描述的,例如电影名和开始时间,人类在理解语言之间会首先参考这些槽的定义,之后再去识别其中的关联信息。因此,本文借助于建模标签语义空间这种附加知识的方法来达到自适应的理解,即使在标注体系改变或者领域迁移的场景下也能保证较好的性能。本文希望通过此种方式来缓解对于数据的过分依赖问题,使得系统具有一定的鲁棒性。3)基于常识知识的推理式自然语言理解模型:人类在理解语言的时候往往会参考很多的背景常识知识,尽管现有的预训练上下文表征以一种自监督的方式可以捕获语言学知识,但缺乏可解释性,OOV(out-of-vocab)单词会大大降低基于神经网络模型的性能,尤其是在低资源情况下。本文提出了一种新颖的知识增强的槽填充模型,以融合输入文本的上下文表示和大规模的词汇背景知识,同时使用多级图注意力来显式地建模词汇关系。4)基于句法结构知识的自然语言理解模型:槽填充和意图检测是自然语言理解的两个主要任务。在大多数现有工作中,这两个任务被构建为具有多任务学习的联合模型,而忽略了先前的结构化语言知识。在本文中,我们提出了一种新颖的句法联合模型,该模型将图卷积网络应用于句法依存树上,来建模语法结构知识,以共同学习槽填充和意图检测,利用多头注意力将句法表示与上下文单词表示融合,作为自然语言理解任务的补充表示。
基于知识图谱的复杂数学命题表示及关系抽取
这是一篇关于知识图谱,关系抽取,初等数学命题,Stanford Parser,句法结构的论文, 主要内容为随着人工智能领域的飞速发展,目前人们已经可以借助自然语言处理技术从文本中提取结构化信息,一些国内外学者开始研究从数学文本中提取知识并通过知识谱图的图推理功能实现类人答题系统。其中关于初等数学命题的关系抽取和知识表示成为重要研究方向之一。本课题研究的初等数学文本以数学命题为重点,目标是能够对初等数学命题进行基本的关系抽取,正确抽取初等数学试题中的各种关系。本文主要在通过知识图谱表示初等数学知识的基础上,借助Stanford Parser从句法结构的角度对复杂命题句式进行自然语言处理。本文首先介绍了目前基于知识图谱的关系抽取方法在数学命题的应用,提出了通过霍恩子句对复杂命题化简的方法。然后提出了基于命题三元组属性的改进方法,得到用于表示命题的三元组。对于含有嵌套命题结构的试题,使用Stanford Parser句法解析器进行句法分析,得到复杂语句中相应的依赖结构,并根据解析得到的句法解析树自上而下地逐层处理嵌套信息,最后得到一般初等数学命题的关系抽取方法。本文从初等数学试题自建库中分别选取了含有数学命题的试题1000题以及含有嵌套命题结构的试题1000题进行实验,最终分别得到了97.3%和78.87%的关系抽取准确率,且对比传统方法和新兴的Han LP模型均有更好的效果。
基于领域知识图谱的智能问答技术
这是一篇关于知识图谱,智能问答,关键词分离,句法结构,扩展算法的论文, 主要内容为本论文选题来源于国家重点研发计划课题“公共文化资源智能共建共享与管理平台构建与示范应用(2019YFC1521405)”。在知识问答领域,人们开始寻求更智能的知识获取方式。目前的基于知识图谱的智能问答使用单层网络进行意图识别,识别深层语义的能力有待进一步加强。同时,随着用户数据量的增多和新问题的产生,需要解决的问题类型越来越多,智能问答系统需要随着时间更迭不断拓展。因此,一方面如何更好地识别用户的深层语义,另一方面,如何使智能问答系统动态扩展问题类型,成为智能问答领域亟待解决的两个问题。针对以上问题,论文在研究用户意图识别及动态扩展的基础上,研究了基于关键词分离的双层用户意图识别技术和自适应扩展方法,实现了深层次用户意图识别和智能问答系统动态自适应扩展的功能。最后,以学科课程领域为例,对系统进行了设计及实现,验证了论文提出的方法的可行性和有效性。论文的主要研究工作包括:1.设计了基于知识图谱的可自适应扩展的智能问答助手的构建流程和系统架构。基于知识图谱的智能问答助手分为四个模块,分别为“问题处理模块”、“答案处理模块”、“自适应扩展模块”和“数据处理模块”,可以在满足基本需求的前提下进行自适应扩展。2.设计并建立了用户典型问题案例库,作为智能问答答案的检索规则库。寻求了知识图谱和用户问题类型之间的联系,并将课程大纲作为数据来源,设计了本体模型,使用neo4j作为数据存储介质,搭建了知识图谱。3.提出了基于关键词分离的双层用户意图识别模型,解决了用户意图识别过程中,使用单层网络不能识别深层次用户意图的问题。分析了关键词特征在用户语句中的重要性,然后基于此进行了两层用户意图识别,第一层用户意图识别得到的是关键词和问题句式;第二层意图识别得到的是问题类型。综合这两层用户意图,最终得到用户的所有意图。4.提出了智能问答助手扩展的方法,实现了在智能问答助手构建初期用户反馈数据不足时智能问答助手仍能自适应扩展的需求。针对句法结构可以有效识别句子特征的特点,将分离了关键词的句法结构作为用户语句的替代,并使用层次聚类算法,对用户语句进行自动聚类。通过此算法,分别使用不同的阈值,得到层次聚类算法最好效果时的阈值。5.在以上研究的基础上,以pycharm作为开发工具,以neo4j作为数据存储介质,以python作为开发语言,设计并构建了学科课程智能问答助手,最终对系统进行了测试,验证了本文研究方法的正确性和有效性。本文有图25幅、表14个、参考文献64篇。
油气勘探领域实体关系抽取方法的研究与实现
这是一篇关于油气勘探领域,实体关系抽取,句法结构,卷积神经网络,辅助信息的论文, 主要内容为实体关系抽取是信息抽取的核心任务之一,其目标是从文本中识别实体并抽取出实体间的语义关系。实体关系抽取是构建知识库、知识图谱的重要步骤,在智能问答、基于关系的搜索引擎和机器翻译中应用广泛。然而,相较于通用领域,油气勘探领域的实体关系抽取面临着缺少训练数据的挑战。人工标注训练数据代价昂贵并且目前已有的标注方法无法自动化标注大量高质量的训练数据。另一方面,油气勘探领域实体和关系种类多样,难以预定义全部的实体和关系类型。针对油气勘探领域实际情况与现有研究的不足,本文主要开展了以下两个方面的研究:(1)为了解决油气勘探领域实体和关系类型复杂且缺乏大规模训练语料的问题,本文提出了一种基于句法结构的开放实体关系联合抽取模型CSSEM(Chinese Syntactic Structure Extraction Model)。CSSEM利用句法信息并基于少量的标注语料自动学习实体和关系抽取模式。在此基础上,给出了一种基于抽取模式的实体识别方法。最后,结合实体识别方法和关系抽取模式直接从非结构化文本中开放式地抽取实体和关系。基于准确率、召回率、F值、AUC等评价标准,CSSEM与其它模型在新闻、生物、勘探领域的数据集上进行了实验比较,结果表明CSSEM取得了较好的效果。(2)为了利用文本中的辅助信息来进一步提高实体关系抽取的质量,提出了一种利用辅助信息的基于卷积神经网络的中文抽取模型CREBAI(Chinese Relation Extraction Based on Auxiliary Information),该模型使用卷积神经网络对来自文本的句子进行编码,并利用从训练数据中挖掘的附加辅助信息来改进关系抽取的性能。此外,在CSSEM模型抽取模式的基础上,提出了一种基于模式自动标注数据的算法ATDBOPs(Annotating Training Data Based on Patterns),该算法为CREBAI模型提供了训练语料。CREBAI与其它5种模型在2种基准数据集上进行了实验比较,实验结果验证了CREBAI利用辅助信息进一步提高了油气勘探领域关系抽取的性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/56281.html