领域实体上下位关系自动获取研究
这是一篇关于复杂句,依存分析,领域命名实体,上下位关系,模式匹配的论文, 主要内容为近年来,信息抽取、知识图谱和知识库的构建等研究成为热门,实体识别和实体上下位关系抽取是这些研究的基础。但是目前针对特定领域的知识图谱还不多,本文针对旅游领域知识图谱的构建做出了以下几方面的工作:(1)基于非结构化文本的领域命名实体上下位关系自动获取由于复杂句中实体上下位关系难以抽取,本文提出了一种基于依存分析自动获取实体特征和上下位关系特征的新型混合方法,并根据获取的领域命名实体构建了旅游领域词典。首先,利用条件随机场模型获取候选领域命名实体;其次,利用模式匹配获取具有上下位关系的候选句;再次,通过将依存分析和语义角色特征与条件随机场相结合来识别具有上下位关系的实体对;最后,分析简单句中的上下位关系和子句间的并列关系获取复杂句中的上下位关系实体对。实验结果表明,本文提出的方法在减少人工标记的基础上,实验结果相对基准方法有了一定的提高。(2)基于Wikipedia半结构化文本的领域命名实体上下位关系自动获取针对维基百科中旅游领域词条的结构特点,本文提出利用结构特点自动获取特定结构的领域命名实体和层次结构。首先,我们利用维基百科的结构特点抽取候选领域命名实体,并利用条件随机场抽取剩余实体;其次,利用维基百科的层次结构构建层次结构;然后,使用模式对层次结构中的实体对进行验证,并利用模式匹配以获取的候选实体对来补充层次结构;最后,使用特征和支持向量机相结合获取剩余语料中的领域命名实体上下位关系对,并添加到层次结构中对其进行补充。(3)设计并实现领域命名实体上下位关系自动获取原型系统本文针对理论分析和实际应用两方面进行相关研究,设计并实现了领域命名实体上下位关系自动获取系统。
大规模知识图谱的分类体系构建和知识推理研究
这是一篇关于知识图谱,分类体系,上下位关系,分布式计算,知识推理的论文, 主要内容为随着互联网数据的激增,知识图谱已经成为知识组织、管理和应用的有力工具。其中,分类体系作为骨架支撑起到了至关重要的作用,已经在语义搜索、智能问答等领域取得了重大进展。互联网中产生的越来越多的非结构化文本数据,为分类体系构建任务提供了丰富数据基础,但是也使得传统的分类体系构建方法在处理大规模数据时面临着效率低和准确性不高的问题。因此,更快速、更准确地完成分类体系构建任务的方法备受关注。本文从构成分类体系(Taxonomy)的基础元素—上下位关系出发,探究如何高效且准确地完成分类体系构建任务,进一步提高分类体系的可用性,使其更好地服务于知识图谱领域相关任务。本文的主要内容如下:(1)提出了一种并行上下位关系抽取方法。现有从文本中获取上下位关系的方法往往在面对大规模的非结构化文本数据时,呈现出低效的特点,甚至无法满足预期效果。其次,在抽取的过程中忽略了上下位关系的严格层级关系,导致大量错误结果。为了解决上述的问题,以分布式内存计算框架为基础,探究基于Spark的上下位关系抽取任务在大规模数据上的加速效果。同时为进一步提高抽取结果的准确性,对错误结果进行了分析,针对未正确识别的逆上下位关系进行纠正,以提高抽取的准确率。为了验证提出的方法是否可行有效,选择了中文维基百科数据进行实验,测试了所提方法的准确性和运行时间。(2)提出了一种上下位关系推理方法。针对现有关系表示学习方法不能深层次表示出上下位关系中特有的语义信息,本文通过对上下位关系的层级性和传递性进行超球体语义建模,提出一种基于知识图谱嵌入的上下位关系推理方法。通过对分类体系中的上下位关系进行语义特征学习,深层次表示上位词与下位词之间的差异,并利用表示后的结果进行语义推理,进一步提高分类体系的健壮性。在链接预测任务和三元组分类任务中验证了本文方法对于上下位关系的语义表示效果。综上所述,本文所提出的上下位关系抽取和推理方法能够在大规模分类体系构建任务中取得较好地效果,并且在实验中证明了所提出的方法的有效性和可行性。
大规模知识图谱的分类体系构建和知识推理研究
这是一篇关于知识图谱,分类体系,上下位关系,分布式计算,知识推理的论文, 主要内容为随着互联网数据的激增,知识图谱已经成为知识组织、管理和应用的有力工具。其中,分类体系作为骨架支撑起到了至关重要的作用,已经在语义搜索、智能问答等领域取得了重大进展。互联网中产生的越来越多的非结构化文本数据,为分类体系构建任务提供了丰富数据基础,但是也使得传统的分类体系构建方法在处理大规模数据时面临着效率低和准确性不高的问题。因此,更快速、更准确地完成分类体系构建任务的方法备受关注。本文从构成分类体系(Taxonomy)的基础元素—上下位关系出发,探究如何高效且准确地完成分类体系构建任务,进一步提高分类体系的可用性,使其更好地服务于知识图谱领域相关任务。本文的主要内容如下:(1)提出了一种并行上下位关系抽取方法。现有从文本中获取上下位关系的方法往往在面对大规模的非结构化文本数据时,呈现出低效的特点,甚至无法满足预期效果。其次,在抽取的过程中忽略了上下位关系的严格层级关系,导致大量错误结果。为了解决上述的问题,以分布式内存计算框架为基础,探究基于Spark的上下位关系抽取任务在大规模数据上的加速效果。同时为进一步提高抽取结果的准确性,对错误结果进行了分析,针对未正确识别的逆上下位关系进行纠正,以提高抽取的准确率。为了验证提出的方法是否可行有效,选择了中文维基百科数据进行实验,测试了所提方法的准确性和运行时间。(2)提出了一种上下位关系推理方法。针对现有关系表示学习方法不能深层次表示出上下位关系中特有的语义信息,本文通过对上下位关系的层级性和传递性进行超球体语义建模,提出一种基于知识图谱嵌入的上下位关系推理方法。通过对分类体系中的上下位关系进行语义特征学习,深层次表示上位词与下位词之间的差异,并利用表示后的结果进行语义推理,进一步提高分类体系的健壮性。在链接预测任务和三元组分类任务中验证了本文方法对于上下位关系的语义表示效果。综上所述,本文所提出的上下位关系抽取和推理方法能够在大规模分类体系构建任务中取得较好地效果,并且在实验中证明了所提出的方法的有效性和可行性。
大规模知识图谱的分类体系构建和知识推理研究
这是一篇关于知识图谱,分类体系,上下位关系,分布式计算,知识推理的论文, 主要内容为随着互联网数据的激增,知识图谱已经成为知识组织、管理和应用的有力工具。其中,分类体系作为骨架支撑起到了至关重要的作用,已经在语义搜索、智能问答等领域取得了重大进展。互联网中产生的越来越多的非结构化文本数据,为分类体系构建任务提供了丰富数据基础,但是也使得传统的分类体系构建方法在处理大规模数据时面临着效率低和准确性不高的问题。因此,更快速、更准确地完成分类体系构建任务的方法备受关注。本文从构成分类体系(Taxonomy)的基础元素—上下位关系出发,探究如何高效且准确地完成分类体系构建任务,进一步提高分类体系的可用性,使其更好地服务于知识图谱领域相关任务。本文的主要内容如下:(1)提出了一种并行上下位关系抽取方法。现有从文本中获取上下位关系的方法往往在面对大规模的非结构化文本数据时,呈现出低效的特点,甚至无法满足预期效果。其次,在抽取的过程中忽略了上下位关系的严格层级关系,导致大量错误结果。为了解决上述的问题,以分布式内存计算框架为基础,探究基于Spark的上下位关系抽取任务在大规模数据上的加速效果。同时为进一步提高抽取结果的准确性,对错误结果进行了分析,针对未正确识别的逆上下位关系进行纠正,以提高抽取的准确率。为了验证提出的方法是否可行有效,选择了中文维基百科数据进行实验,测试了所提方法的准确性和运行时间。(2)提出了一种上下位关系推理方法。针对现有关系表示学习方法不能深层次表示出上下位关系中特有的语义信息,本文通过对上下位关系的层级性和传递性进行超球体语义建模,提出一种基于知识图谱嵌入的上下位关系推理方法。通过对分类体系中的上下位关系进行语义特征学习,深层次表示上位词与下位词之间的差异,并利用表示后的结果进行语义推理,进一步提高分类体系的健壮性。在链接预测任务和三元组分类任务中验证了本文方法对于上下位关系的语义表示效果。综上所述,本文所提出的上下位关系抽取和推理方法能够在大规模分类体系构建任务中取得较好地效果,并且在实验中证明了所提出的方法的有效性和可行性。
汉语词语上下位关系分类研究
这是一篇关于上下位关系,词模式,依存模式,词表面特征,多特征融合的论文, 主要内容为汉语词语上下位关系识别是知识图谱技术的研究热点,对知识库与知识谱图构建具有重要的意义、本文重点研究汉语词语上下位关系分类问题。首先,本文设计了一套上下位关系数据标注规范,并构建了包含17,813对实例的汉语上下位关系数据集。进而,本文提出了一种基于词模式嵌入的上下位关系分类方法,以有效利用词语对的上下文信息。最后,基于上下位关系分类的最新研究成果,本文提出一种多特征融合的分类方法,以有效利用词语对的依存路径信息。本文的主要研究内容如下:(1)上下位关系标注规范与数据集构建基于前人工作,本文设计了一个简单、明确的上下位关系数据标注规范。综合考虑词语在汉语词典与语料情境的多种含义,该规范明确定义了汉语上下位关系。在规范的指导下,本文结合《同义词词林》(扩展版)与HowNet构建了具有上下位关系的正例,利用部分整体词、并列下位词等方法构建了负例。最终,本文构建了规模较大的汉语上下位关系数据集。(2)基于词模式嵌入的上下位关系分类为了能够获取词语对在句子中的上下文信息,本文使用基于模式的方法将上下文信息转化为稀疏向量。本文提出了词模式的概念,提高了模式匹配度,使稀疏的模式向量稠密化。词嵌入表达了词语的语义信息,与词模式表达的上下文信息互补,所以本文进一步尝试将词模式方法与词嵌入的方法融合。在基于最大熵模型的实验中,词模式的效果得到了充分地验证。在综合词嵌入与词模式的分类模型中,本文提出的词模式嵌入方法为实验结果带来了有效的提升。(3)多特征融合的上下位关系分类为了能够更好地利用词语对共现句子中的上下文信息,尤其是依存句法结构信息,我们使用LSTM对句法路径进行深入编码。同时,在构建汉语上下位数据集时,我们发现某些上下位词语对具有相似的词表面特征,因此将其作为特征融入模型。最终,我们提出了一种有效结合词嵌入、依存模式与词表面特征的多特征融合模型。实验结果表明,多特征融合模型在上下位关系分类的表现优于其他模型。综上所述,本文设计了汉语上下位关系数据标注规范,并构建了规模较大的汉语上下位关系数据集。在提出词模式的基础上,本文结合词嵌入表示来提高汉语上下位关系分类任务的准确率。最后,利用依存路径与词表面特征进一步提升关系分类的准确率。本论文的研究成果获得了初步的提升,我们希望这些研究成果能够为自然语言处理和知识图谱领域的其他任务起到促进作用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/56292.html