大型RDF图的摘要方法研究
这是一篇关于RDF图,知识图谱,RDF图摘要,节点特征,SPARQL查询的论文, 主要内容为随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,导致很难从全局上对RDF图进行探索。每个大型的RDF图通常包含不同的数据,这也加剧了用户的查询困难。为了避免用户信息过载且在有限空间内呈现所需信息,就需要进行RDF图摘要(RDF graph summarization)。RDF图摘要是通过自动生成一个内容简洁且包含关键数据的子图以代替完整的RDF图,它被广泛用于图查询、图结构浏览、图模式发现、图推理等。当前,RDF图摘要是语义网及知识图谱领域的研究热点。虽然RDF图摘要研究已取得了一些成果,但大型RDF图的异构特性导致其摘要方法研究仍然面临着诸多的挑战。如何从海量数据中提取出关键的、具有代表性的数据仍然是RDF图摘要面临的问题。现有摘要方法普遍采用单一方法进行摘要的策略,导致其得出的摘要不具备RDF图的多方面特征,例如从图结构、节点重要性等,从而无法满足各领域的数据重用需求。针对上述不足,本文主要提出了基于用户查询偏好、节点中心性及节点特征的RDF图摘要方法,主要的贡献如下:(1)根据RDF图的SPARQL查询历史偏好,本文提出基于用户查询及节点重要性的RDF图摘要方法。该方法兼顾了RDF图的整体与局部特征。摘要模型通过提取出感兴趣的语义数据,满足用户的个性化SPARQL查询需求。(i)本文基于该摘要模型提出了两种摘要算法:Summary KG和Query Sum KB,并进行实验分析。实验表明算法生成的RDF图摘要提高了用户的查询效率并满足其个性化查询需求,并从一定程度上反映RDF图结构信息。(ii)本文通过在大型RDF图数据DBpedia,YAGO以及Freebase进行实验验证,其结果表明所提出的这两种算法在生成摘要的时间及查询准确度方面的有效性。(2)本文提出了基于节点特征及中心性的方法来摘要RDF图结构,并且把RDF图中的节点关系划分为同特征(same-CS)关系与同型(same-Type)关系。(i)本文基于这两种节点关系提出具备单一特征关系的Sum W算法和同时具备两种特征关系的Sum S算法。(ii)本文通过进一步地计算节点的频繁度与连接系数得出RDF图中中心度高的节点与属性边,并由此提出基于节点特征及中心性的Summary FL摘要算法。(iii)本文使用现有的大型数据AGROVOC,DBpedia,Wikidata以及Linkgeodata进行实验,并把本文提出的算法与其他摘要算法进行实验对比。实验结果表明上述算法能保证摘要的准确性和有效性。综上所述,本文提出了基于用户SPARQL查询及节点重要性、RDF图节点特征及中心性的大型RDF图摘要方法。通过实验表明,本文提出的算法能够保留RDF图结构特征,并能帮助用户提高SPARQL查询效率及快速完成RDF图数据浏览。
基于SHACL的知识图谱增量式验证
这是一篇关于RDF图,图验证,增量验证,SHACL的论文, 主要内容为随着知识图谱的不断发展,RDF图数据规模也急剧扩大,越来越多的RDF数据的应用对RDF图数据的质量提出了更高的要求,基于RDF图数据的应用和数据库也产生了对图数据质量进行验证的要求,它们希望RDF图数据具有一定的正确性和完整性。同时RDF图数据的质量保证有利于RDF图数据的管理。知识图谱验证问题成为图数据管理中被较少研究但十分重要的问题。对现有的图数据验证方案进行了详细的调研,总结了现有的研究方向和主要的验证方案。主要有两种知识图谱验证方法,分别是Sh Ex(Shape Expressions)和SHACL(Shapes Constraint Language),两者的作用都是验证知识图谱是否满足形状中定义的约束,同时总结了二者之间存在的区别。基于其中的SHACL对知识图谱增量式验证问题进行深入研究。基于SHACL的语义特点,提出了一种基于逆拓扑排序的非递归模式的RDF图数据的验证方案。本文区分约束类型,并且基于逆拓扑排序算法调整模式中形状的验证顺序,且为了便于访问已有的验证结果,提出一种辅助结构来存储模式中形状与图中节点的验证结果,有效的提高了RDF图数据的验证效率。在基准数据集和真实数据集上,提出的验证方案比传统验证方案减少约26%的验证时间。对一个已经满足某种模式的RDF图来说,如果图被更新,那么更新后的RDF图还应该满足这种模式,因此更新后的RDF图需要被验证。完整的重新验证更新后的RDF图是一种可以保证结果正确但低效的方式。本文提出一种基于非递归模式的RDF图更新增量验证算法,该算法可以正确且高效地处理更新验证地问题。此外本文还针对递归模式提出了基于非否递归模式的图数据更新增量验证方法。在基准数据集和真实数据集上,本文提出的增量算法与完整验证的方法比较,在验证时间上具有量级的差距。
大规模RDF图上的多元化查询方法研究
这是一篇关于RDF图,多元化语义查询,子图匹配,类星型结构的论文, 主要内容为随着人工智能的发展及其对知识需求的急剧增加,知识图谱应运而生。大部分知识图谱使用RDF描述资源,RDF图上的SPARQL BGP查询是对各类知识图谱进行描述、挖掘及分析的重要技术。RDF图上的SPARQL BGP查询等价于子图匹配问题,而由于子图匹配问题已被证实为NP问题,因此,如何在大规模RDF图上进行高效的SPARQL BGP查询是一个极具挑战的问题。本文针对不同查询约束的语义查询设计了大规模RDF图上的多元化查询方法。首先,当执行谓语常量约束的SPARQL查询时,使用本文类星型结构的分布式存储与基于谓语常量的标签树索引方式,执行查询图预处理和类星型结构匹配过程,通过减少查询迭代次数以及索引高效的剪枝过滤效果加快检索速度,并利用E-MJOC算法基于类星型结构选择性确定各查询子图匹配及连接顺序进行查询优化,通过减少中间结果的产生降低连接代价进而提升查询效率。其次,当执行混合常量约束的SPARQL查询时,本文设计了节点分区索引和基于布隆过滤器的编码树索引,在进行查询图预处理和类星型结构匹配时,根据RDF数据图中割点信息和节点分区索引缩小计算范围避免了无关存储节点不必要的计算,再通过基于布隆过滤器的编码树索引进行有效剪枝过滤,减少待匹配中间候选集合,降低匹配代价。最后通过MS-MJOC算法生成相应的匹配及连接查询计划对得到的中间结果基于公共点进行连接,通过减少大量连接操作而提升整体查询效率。最后,采用了不同的RDF数据集进行实验对比,实验结果表明,本文SPC的存储与索引方式以及对查询本身进行优化的方法对谓语常量约束的语义查询起到促进作用。另一方面,本文的SMC在进行混合常量约束的语义查询时的查询效果较SDec和S2X更好。
基于SHACL的知识图谱增量式验证
这是一篇关于RDF图,图验证,增量验证,SHACL的论文, 主要内容为随着知识图谱的不断发展,RDF图数据规模也急剧扩大,越来越多的RDF数据的应用对RDF图数据的质量提出了更高的要求,基于RDF图数据的应用和数据库也产生了对图数据质量进行验证的要求,它们希望RDF图数据具有一定的正确性和完整性。同时RDF图数据的质量保证有利于RDF图数据的管理。知识图谱验证问题成为图数据管理中被较少研究但十分重要的问题。对现有的图数据验证方案进行了详细的调研,总结了现有的研究方向和主要的验证方案。主要有两种知识图谱验证方法,分别是Sh Ex(Shape Expressions)和SHACL(Shapes Constraint Language),两者的作用都是验证知识图谱是否满足形状中定义的约束,同时总结了二者之间存在的区别。基于其中的SHACL对知识图谱增量式验证问题进行深入研究。基于SHACL的语义特点,提出了一种基于逆拓扑排序的非递归模式的RDF图数据的验证方案。本文区分约束类型,并且基于逆拓扑排序算法调整模式中形状的验证顺序,且为了便于访问已有的验证结果,提出一种辅助结构来存储模式中形状与图中节点的验证结果,有效的提高了RDF图数据的验证效率。在基准数据集和真实数据集上,提出的验证方案比传统验证方案减少约26%的验证时间。对一个已经满足某种模式的RDF图来说,如果图被更新,那么更新后的RDF图还应该满足这种模式,因此更新后的RDF图需要被验证。完整的重新验证更新后的RDF图是一种可以保证结果正确但低效的方式。本文提出一种基于非递归模式的RDF图更新增量验证算法,该算法可以正确且高效地处理更新验证地问题。此外本文还针对递归模式提出了基于非否递归模式的图数据更新增量验证方法。在基准数据集和真实数据集上,本文提出的增量算法与完整验证的方法比较,在验证时间上具有量级的差距。
基于SHACL的知识图谱增量式验证
这是一篇关于RDF图,图验证,增量验证,SHACL的论文, 主要内容为随着知识图谱的不断发展,RDF图数据规模也急剧扩大,越来越多的RDF数据的应用对RDF图数据的质量提出了更高的要求,基于RDF图数据的应用和数据库也产生了对图数据质量进行验证的要求,它们希望RDF图数据具有一定的正确性和完整性。同时RDF图数据的质量保证有利于RDF图数据的管理。知识图谱验证问题成为图数据管理中被较少研究但十分重要的问题。对现有的图数据验证方案进行了详细的调研,总结了现有的研究方向和主要的验证方案。主要有两种知识图谱验证方法,分别是Sh Ex(Shape Expressions)和SHACL(Shapes Constraint Language),两者的作用都是验证知识图谱是否满足形状中定义的约束,同时总结了二者之间存在的区别。基于其中的SHACL对知识图谱增量式验证问题进行深入研究。基于SHACL的语义特点,提出了一种基于逆拓扑排序的非递归模式的RDF图数据的验证方案。本文区分约束类型,并且基于逆拓扑排序算法调整模式中形状的验证顺序,且为了便于访问已有的验证结果,提出一种辅助结构来存储模式中形状与图中节点的验证结果,有效的提高了RDF图数据的验证效率。在基准数据集和真实数据集上,提出的验证方案比传统验证方案减少约26%的验证时间。对一个已经满足某种模式的RDF图来说,如果图被更新,那么更新后的RDF图还应该满足这种模式,因此更新后的RDF图需要被验证。完整的重新验证更新后的RDF图是一种可以保证结果正确但低效的方式。本文提出一种基于非递归模式的RDF图更新增量验证算法,该算法可以正确且高效地处理更新验证地问题。此外本文还针对递归模式提出了基于非否递归模式的图数据更新增量验证方法。在基准数据集和真实数据集上,本文提出的增量算法与完整验证的方法比较,在验证时间上具有量级的差距。
大规模RDF图上的多元化查询方法研究
这是一篇关于RDF图,多元化语义查询,子图匹配,类星型结构的论文, 主要内容为随着人工智能的发展及其对知识需求的急剧增加,知识图谱应运而生。大部分知识图谱使用RDF描述资源,RDF图上的SPARQL BGP查询是对各类知识图谱进行描述、挖掘及分析的重要技术。RDF图上的SPARQL BGP查询等价于子图匹配问题,而由于子图匹配问题已被证实为NP问题,因此,如何在大规模RDF图上进行高效的SPARQL BGP查询是一个极具挑战的问题。本文针对不同查询约束的语义查询设计了大规模RDF图上的多元化查询方法。首先,当执行谓语常量约束的SPARQL查询时,使用本文类星型结构的分布式存储与基于谓语常量的标签树索引方式,执行查询图预处理和类星型结构匹配过程,通过减少查询迭代次数以及索引高效的剪枝过滤效果加快检索速度,并利用E-MJOC算法基于类星型结构选择性确定各查询子图匹配及连接顺序进行查询优化,通过减少中间结果的产生降低连接代价进而提升查询效率。其次,当执行混合常量约束的SPARQL查询时,本文设计了节点分区索引和基于布隆过滤器的编码树索引,在进行查询图预处理和类星型结构匹配时,根据RDF数据图中割点信息和节点分区索引缩小计算范围避免了无关存储节点不必要的计算,再通过基于布隆过滤器的编码树索引进行有效剪枝过滤,减少待匹配中间候选集合,降低匹配代价。最后通过MS-MJOC算法生成相应的匹配及连接查询计划对得到的中间结果基于公共点进行连接,通过减少大量连接操作而提升整体查询效率。最后,采用了不同的RDF数据集进行实验对比,实验结果表明,本文SPC的存储与索引方式以及对查询本身进行优化的方法对谓语常量约束的语义查询起到促进作用。另一方面,本文的SMC在进行混合常量约束的语义查询时的查询效果较SDec和S2X更好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码导航 ,原文地址:https://m.bishedaima.com/lunwen/56282.html