分布式环境下的多子图匹配技术研究
这是一篇关于分布式系统,子图匹配,多查询优化,局部敏感哈希的论文, 主要内容为图(Graph)是一种历史悠久的抽象结构,最初产生于图论,现如今在互联网时代重新焕发了活力,在社交网络、电子商务、知识图谱、城市道路、生物信息等不同领域中均有应用。正是因为图数据的日益流行,近十几年内出现了许多新型的图数据库。在图数据库的众多图处理算法中,子图匹配是一种重要的基础算法,其目的是在数据图中寻找到所有与查询图结构一样的子图。与传统关系型数据库一样,图数据库中也存在多查询问题,即系统接收到多个查询图,然后需要对这多个查询图执行子图匹配。但由于多子图匹配问题本身的复杂性较高、查询数量较多,并且数据规模不断增大,所以现有的单机系统已经无法有效地处理海量数据的多子图匹配查询问题。为了能够高效地处理海量数据的多子图匹配查询问题,本文利用分布式系统实现了一种新的多子图匹配优化方法。该方法从数据划分、查询图内部、查询图间三个方面进行优化,主要贡献如下:(1)研究并设计了一种基于局部敏感哈希的数据划分方法。该划分方法根据不同数据点的邻居点集合之间的相似性,评估数据点的相似性,从而将相似的数据顶点划分到同一台机器中,以减少任务处理时的数据通信量。(2)研究并设计了一种基于局部敏感哈希的任务合并方法。该方法可以将多个相似的任务合并成一个较大的任务,从而避免相似任务在独立执行时重复计算公共部分。除此之外,任务合并还可以减少任务数量,能够在一定程度上减少额外的任务调度开销。(3)研究并设计了一种基于局部敏感哈希的查询分组方法。该方法可以对输入的多个查询图进行分组,从而将相似的查询图分到同一组中,减少多个查询图之间的重复计算。本文在真实数据集、人造数据集上进行了大量实验,以评估本文方法的性能。实验结果表明,本文方法具有良好的可扩展性,各个优化技术均能够产生明显优化效果。并且,在处理多个查询图时,本文方法相比于其它算法,查询处理速度要快10倍以上,充分证明了本文方法处理多查询问题的有效性。
面向属性图的模式优化及子图匹配方法研究
这是一篇关于属性图,属性图模式,组合规则,模式优化,子图匹配的论文, 主要内容为知识图谱作为人工智能的重要分支技术,以符号形式描述了物理世界中概念、实体及其相互关系,实体间通过关系相互连接,构成网状的知识结构,广泛应用于推荐系统、知识问答、社会网络分析等各领域。属性图是知识图谱的一种常见表示、存储形式,其节点附带属性无需额外创建节点,同时其更易遍历,能够广泛适用于多种业务场景下的数据表达。属性图模式是对属性图中概念及其相互之间关系的形式化表达,其是建立在数据层之上的逻辑表示。随着属性图规模的增大及应用的普及,给人们带来丰富信息的同时也给数据检索带来了巨大挑战。目前大量的研究主要关注属性图本身,即侧重于如何利用属性图数据本身及模式约束来提高查询效率。实际上,属性图模式中具有丰富的概念语义关系,属性图模式的优劣直接影响属性图数据的规模、及其之上的查询性能等,然而目前对于通过属性图模式优化提高属性图上的查询效率的研究相对较少。此外,子图匹配作为属性图中常见的查询问题,一直是图数据管理的研究热点之一。目前在子图匹配的大量研究中,根据查询图生成索引结构,按照设定的匹配顺序进行递归枚举以获得最终的匹配结果,但是目前的算法中普遍忽略了查询图中节点之间边对候选集的影响,导致枚举过程中存在大量的冗余操作,进而影响查询效率。为解决上述问题,本文针对属性图模式优化及子图匹配问题进行研究。从逻辑层面考虑,提出了基于组合规则的属性图模式优化方法;从数据层面考虑,提出了邻域关系标签树编码索引的子图匹配方法。主要研究工作及创新点如下:(1)针对属性图模式优化问题,本文提出基于组合规则的属性图模式优化方法,通过考虑模式中丰富的语义关系,结合实际中的查询,提取属性图模式中具有某些特性、辨识度较高的关系,并在此基础上设计相应的模式优化规则,然后将所提的规则应用到属性图中,在保证原有语义信息不丢失的情况下,间接优化属性图,进而提高查询性能。(2)针对属性图上的子图匹配问题,本文提出邻域关系标签树编码索引的子图匹配方法。首先构造综合考虑节点信息的邻域关系标签树编码索引;其次根据索引为查询图中每个节点生成候选集,构建辅助数据结构,并提出基于共同邻居和唯一候选节点剪枝规则来精细辅助数据结构;然后基于候选节点确定匹配顺序;最后提出基于等价节点的动态枚举算法完成子图匹配。(3)在多个真实数据集以及模拟数据集上进行大量实验,将本文提出的方法与现有先进算法进行对比。实验结果验证,本文所提方法的正确性、有效性。
标签图的精确子图匹配算法研究
这是一篇关于子图匹配,无重复标签图,有重复标签图,k2-MDD,变量排序的论文, 主要内容为标签图作为一种重要的数据表示模型,广泛应用于生物化学、社交网络、知识图谱等领域,子图匹配作为图数据管理的一个重要操作,引起了研究者的普遍关注。本文针对标签图的子图匹配问题进行研究,分别给出了无重复标签图的子图匹配算法k2-MDD-SubM和有重复标签图的子图匹配算法LCCPSubM。本文的主要工作如下:(1)针对无重复标签图,引入k2-MDD对其进行高效紧凑的表示以减小查询规模,同时结合符号计算的逻辑运算,给出一种子图匹配算法k2-MDD-SubM,该算法将原始的子图匹配问题转化为基于k2-MDD的布尔函数逻辑运算。以Graemlin和PPI数据集为例进行实验,对于Graemlin数据集,实验结果表明k2-MDD-SubM所需存储的结点数仅为RI算法的35.83%,当模式图大小一定时,随着模式图密度的逐渐减小,算法的查询时间逐渐减少,且当模式图与目标图相同时,其查询效率优于RI算法。验证了k2-MDD-SubM算法存储和查询性能的优越性;对于PPI数据集,实验结果表明k2-MDD-SubM所需存储的结点数仅为RI算法的57.19%,同样随着模式图密度的减小,查询时间逐渐减少,进一步验证了算法性能的有效性。(2)针对有重复标签图,设计一种新的静态变量排序策略,该排序策略为了尽可能地减少搜索空间和回溯次数,依次考虑顶点局部聚类系数、标签概率等启发式规则,同时结合顶点标签等简单的约束过滤条件,保证匹配结果的正确性以及对不满足匹配的分支进行修剪,从而给出一种子图匹配算法LCCPSubM。以AIDS和NASA两个真实数据集为例进行实验,在AIDS数据集下,分别从匹配数量、搜索空间、匹配时间和总时间四个方面对比分析LCCPSubM和RI算法的性能,实验结果表明,在匹配数量相同的情况下,LCCPSubM算法的搜索空间较RI算法具有明显的减小,匹配时间和总时间也优于RI算法,验证了该变量排序策略的有效性和算法的高效性。在NASA数据集下,实验结果表明,LCCPSubM的搜索空间大小较RI算法同样具有明显减小,进一步验证了LCCPSubM算法中变量排序策略的有效性。
面向属性图的模式优化及子图匹配方法研究
这是一篇关于属性图,属性图模式,组合规则,模式优化,子图匹配的论文, 主要内容为知识图谱作为人工智能的重要分支技术,以符号形式描述了物理世界中概念、实体及其相互关系,实体间通过关系相互连接,构成网状的知识结构,广泛应用于推荐系统、知识问答、社会网络分析等各领域。属性图是知识图谱的一种常见表示、存储形式,其节点附带属性无需额外创建节点,同时其更易遍历,能够广泛适用于多种业务场景下的数据表达。属性图模式是对属性图中概念及其相互之间关系的形式化表达,其是建立在数据层之上的逻辑表示。随着属性图规模的增大及应用的普及,给人们带来丰富信息的同时也给数据检索带来了巨大挑战。目前大量的研究主要关注属性图本身,即侧重于如何利用属性图数据本身及模式约束来提高查询效率。实际上,属性图模式中具有丰富的概念语义关系,属性图模式的优劣直接影响属性图数据的规模、及其之上的查询性能等,然而目前对于通过属性图模式优化提高属性图上的查询效率的研究相对较少。此外,子图匹配作为属性图中常见的查询问题,一直是图数据管理的研究热点之一。目前在子图匹配的大量研究中,根据查询图生成索引结构,按照设定的匹配顺序进行递归枚举以获得最终的匹配结果,但是目前的算法中普遍忽略了查询图中节点之间边对候选集的影响,导致枚举过程中存在大量的冗余操作,进而影响查询效率。为解决上述问题,本文针对属性图模式优化及子图匹配问题进行研究。从逻辑层面考虑,提出了基于组合规则的属性图模式优化方法;从数据层面考虑,提出了邻域关系标签树编码索引的子图匹配方法。主要研究工作及创新点如下:(1)针对属性图模式优化问题,本文提出基于组合规则的属性图模式优化方法,通过考虑模式中丰富的语义关系,结合实际中的查询,提取属性图模式中具有某些特性、辨识度较高的关系,并在此基础上设计相应的模式优化规则,然后将所提的规则应用到属性图中,在保证原有语义信息不丢失的情况下,间接优化属性图,进而提高查询性能。(2)针对属性图上的子图匹配问题,本文提出邻域关系标签树编码索引的子图匹配方法。首先构造综合考虑节点信息的邻域关系标签树编码索引;其次根据索引为查询图中每个节点生成候选集,构建辅助数据结构,并提出基于共同邻居和唯一候选节点剪枝规则来精细辅助数据结构;然后基于候选节点确定匹配顺序;最后提出基于等价节点的动态枚举算法完成子图匹配。(3)在多个真实数据集以及模拟数据集上进行大量实验,将本文提出的方法与现有先进算法进行对比。实验结果验证,本文所提方法的正确性、有效性。
面向多源知识图谱的样例查询研究
这是一篇关于知识图谱,样例查询,关键字查询,子图匹配,相关性,结果融合的论文, 主要内容为随着知识的爆炸式增加和不同领域知识图谱的推出,面向知识图谱的查询已成为近来搜索引擎领域的研究热点。然而,由于不同领域的知识图谱大多独立存在且所涵盖的知识有限,仅基于单个知识图谱的查询结果已经不能满足用户的查询需求。本文提出面向多个知识图谱的样例查询问题,通过候选结果融合以及相关性衡量方法的改进,在保证时间效率的基础上,提高查询结果的质量以及用户满意度。已有的研究工作大多都是面向单个知识图谱的查询,已有的图查询技术不能应用于多个图上的查询操作,而且已有的相关性衡量方法是基于传统数据图的,没有考虑知识与数据的差异性。针对这些问题,本文主要从以下三个部分开展研究:第一部分,研究面向多个知识图谱的样例查询处理模型。使用用户友好的关键字查询技术,首先结构化用户输入查询关键字作为查询样例。然后,在每个知识图谱上确定用户查询样例,使用子图同构的方法,根据查询样例在每个知识图谱上找到前K个高相关性的子图。最后,选取与查询样例不完全匹配的候选结果进行融合操作。算法通过查询系统集合不同知识图谱,避免了知识图谱的全局模式集成,且更具灵活性。通过实验验证了方法可保证查询效率且具有较高的可用性。第二部分,研究基于知识的查询结果相关性衡量方法。为了进一步确定用户查询意图,在已有的基于距离和结构的样例查询的结果相关性衡量方法基础上,本文加入了知识流行程度作为一个补充的相关性衡量因素。使用事件的发生时间作为衡量知识流行程度的标准,认为越近发生的事情,越是流行的知识。通过实验验证了改进的结果相关性衡量方法有效地提高了查询结果的质量和用户的满意程度。第三部分,研究基于分组标记的候选结果融合算法。面向多个知识图谱的样例查询中,满足查询需求的结果可能来自于单个知识图谱,也可能是多个知识图谱上的候选子结果的融合结果。为了解决候选结果融合时,由于候选结果过多而增加的时间代价问题,本文提出了优化算法,为候选结果按照特征分组标记,从而按组融合,减少了节点匹配代价,缩短了响应时间。通过实验验证本文提出方法可有效地提高查询效率。
金融新闻中的关联实体挖掘研究
这是一篇关于知识图谱,子图匹配,股票预测,关联实体挖掘的论文, 主要内容为金融市场是一个资本和生产要素的配置场所,是一个国家的政治、经济、文化信息的集散地,金融市场吸引着媒体和大量人民群众的关注。媒体每天不断的发布大量金融市场的新闻,人们通过媒体发布的新闻密切的关注着金融市场,同时新闻也会影响人们对金融资产标的看法,新闻对金融市场会产生影响已经是人们公认的事情。从海量的新闻中挖掘有用的信息,定位这些新闻对金融资产标的影响,对于金融市场的运作、社会资本的配置都至关重要。过去学者研究股票市场都基于一个假设,就是已知受新闻影响的股票实体。但是由于这个假设,这些方法不可避免的忽视了不含股票实体的新闻,而很多不含股票实体的新闻同样会对金融市场产生重大的影响。本文针对金融新闻中非特定关联实体挖掘的问题,构建了基于新闻主题抽取的新闻实体图,并构建了多源异构的金融知识图谱,提出了基于语义路径的子图匹配算法,通过匹配新闻实体图与金融知识图谱,最终识别出金融新闻所对应的关联实体集合,从语义的层面匹配出受到影响的股票实体,从而可以全面分析各种包含或者不包含金融实体的新闻。本文的主要研究工作及成果概况如下。本文以结构化数据为起点,半结构化数据和非结构化数据为补充,通过知识抽取、实体消歧、知识存储等步骤,构建了多源异构的股票市场知识图谱,涵盖了大部分股票市场的实体。本文通过主题模型分析,从金融新闻中抽取相关性最高的主题,利用这些主题构建了新闻图,并提出了基于语义路径的子图匹配算法,从知识图谱中寻找和新闻图相匹配的子图,所匹配的子图顶点就是和金融新闻相关联的实体集合。本文根据子图匹配的结果,设计实验,第一个实验对比了本文算法和SVM、决策树、全连接网络、朴素贝叶斯以及RCNN分类方法的分类性能,实验结果显示本文算法相比其他对比方法有着更好的综合性能。第二个实验模拟真实投资策略进行回测,在新闻发生的第二天买入受影响的股票并在持有一天后卖出,本文的算法在相同时间段的收益超过对比方法,同时本文算法相对大盘取得了28.82%超额收益。实验验证了基于语义路径的子图匹配算法的有效性,同时证明了算法在实际投资中的可行性。
金融新闻中的关联实体挖掘研究
这是一篇关于知识图谱,子图匹配,股票预测,关联实体挖掘的论文, 主要内容为金融市场是一个资本和生产要素的配置场所,是一个国家的政治、经济、文化信息的集散地,金融市场吸引着媒体和大量人民群众的关注。媒体每天不断的发布大量金融市场的新闻,人们通过媒体发布的新闻密切的关注着金融市场,同时新闻也会影响人们对金融资产标的看法,新闻对金融市场会产生影响已经是人们公认的事情。从海量的新闻中挖掘有用的信息,定位这些新闻对金融资产标的影响,对于金融市场的运作、社会资本的配置都至关重要。过去学者研究股票市场都基于一个假设,就是已知受新闻影响的股票实体。但是由于这个假设,这些方法不可避免的忽视了不含股票实体的新闻,而很多不含股票实体的新闻同样会对金融市场产生重大的影响。本文针对金融新闻中非特定关联实体挖掘的问题,构建了基于新闻主题抽取的新闻实体图,并构建了多源异构的金融知识图谱,提出了基于语义路径的子图匹配算法,通过匹配新闻实体图与金融知识图谱,最终识别出金融新闻所对应的关联实体集合,从语义的层面匹配出受到影响的股票实体,从而可以全面分析各种包含或者不包含金融实体的新闻。本文的主要研究工作及成果概况如下。本文以结构化数据为起点,半结构化数据和非结构化数据为补充,通过知识抽取、实体消歧、知识存储等步骤,构建了多源异构的股票市场知识图谱,涵盖了大部分股票市场的实体。本文通过主题模型分析,从金融新闻中抽取相关性最高的主题,利用这些主题构建了新闻图,并提出了基于语义路径的子图匹配算法,从知识图谱中寻找和新闻图相匹配的子图,所匹配的子图顶点就是和金融新闻相关联的实体集合。本文根据子图匹配的结果,设计实验,第一个实验对比了本文算法和SVM、决策树、全连接网络、朴素贝叶斯以及RCNN分类方法的分类性能,实验结果显示本文算法相比其他对比方法有着更好的综合性能。第二个实验模拟真实投资策略进行回测,在新闻发生的第二天买入受影响的股票并在持有一天后卖出,本文的算法在相同时间段的收益超过对比方法,同时本文算法相对大盘取得了28.82%超额收益。实验验证了基于语义路径的子图匹配算法的有效性,同时证明了算法在实际投资中的可行性。
面向本体标签知识图谱的样例查询方法研究
这是一篇关于知识图谱,本体标签,单样例查询,子图匹配,多样例查询,组合排序的论文, 主要内容为随着数据的爆发式增长,知识图谱作为一种语义网络,广泛应用于推荐系统、知识问答、社交网络分析等领域。在大数据时代,随着互联网的迅速普及,来自互联网中的海量数据,给人们带来宝贵数据财富的同时也给数据检索带来了巨大挑战。因此,如何对具有丰富语义信息的知识图谱进行高效的查询以获得用户感兴趣的结果引起了学术界以及工业界的广泛研讨,具有重要的研究价值与意义。早期针对知识图谱的查询主要是基于RDF三元组数据实现的,将RDF三元组存储到关系型数据库中,并利用结构化查询语言找到满足查询条件的结果。然而这对于非领域专家的用户而言,表达自己的查询意图和查询兴趣是非常困难的。基于图查询的方法使用户摆脱了学习复杂查询语言的困扰,只需要用户提供满足自己查询条件的图结构即可,其核心思想是子图匹配,通过图匹配在知识图谱中找到同构的子图作为答案。基于图结构的样例查询不会严格要求查询条件特征,将用户的查询视为用户感兴趣的数据示例,方便用户表达查询意图。传统知识图谱上的样例查询方法大多数是基于节点标签或边标签进行子图匹配。在具有丰富语义信息的知识图谱中,节点标签只能标识实体的名称及属性信息,并且相同的边标签可能连接着多种不同类型的实体。因此,基于传统知识图谱的样例查询会导致查询结果语义相关性低,返回的查询结果不能很好地体现用户查询意图。为了解决上述问题,本文提出将实体所属的类型与子类型作为节点的本体标签引入知识图谱中,并对本体标签知识图谱的样例查询方法进行深入研究,提出了面向本体标签知识图谱的样例查询方法。主要研究工作及创新点如下:(1)为了解决传统知识图谱上样例查询结果语义相关性低的问题,本文提出引入实体的本体标签集合即实体的所属类型以及子类型,作为对实体节点的语义描述。在目标数据集进行子图匹配的过程中,既考虑实体节点的本体标签相似性,又考虑边标签同构,以检索出语义相关性更高的答案。(2)针对用户输入单个查询图的情况,提出本体标签知识图谱上的单样例查询方法。第一阶段为过滤候选节点阶段,首先提出有效的双向索引和本体标签树索引提前缩小搜索空间,确定查询节点的候选范围。其次提出本体标签相似度计算公式,将候选节点按照本体标签相似度得分进行降序排序,形成有序的候选节点集合,便于优先验证相关性高的候选节点。第二阶段为验证阶段,首先通过边标签同构算法形成有序的匹配对集合,其次利用有效的候选结果组合排序算法直接组合形成前k个相关性最高的答案。(3)针对用户输入多个查询图的情况,提出本体标签知识图谱上的多样例查询方法。首先,利用本体-边标签索引缩小搜索空间,避免在整个知识图谱中进行搜索,提高查询效率。其次,为了优先返回紧凑程度更高的答案,根据用户查询样例集构建连通的匹配模式,为匹配验证做准备。再次,根据匹配模式在缩小的搜索空间中采用节点向量与索引结合的方式验证候选节点,进一步精确候选空间。最后在候选空间中评估匹配模式片段的候选基数,选择候选基数最少的结构进行扩展匹配以减少同构匹配次数,形成答案集返回给用户。(4)在多个真实数据集上进行多次实验验证,同现有的样例查询相关算法进行比较。实验结果表明,本文所提出的方法在查询效率、查询结果相关性、查询结果有效性、查询结果紧凑程度等方面都具有较好的表现。
面向属性图的模式优化及子图匹配方法研究
这是一篇关于属性图,属性图模式,组合规则,模式优化,子图匹配的论文, 主要内容为知识图谱作为人工智能的重要分支技术,以符号形式描述了物理世界中概念、实体及其相互关系,实体间通过关系相互连接,构成网状的知识结构,广泛应用于推荐系统、知识问答、社会网络分析等各领域。属性图是知识图谱的一种常见表示、存储形式,其节点附带属性无需额外创建节点,同时其更易遍历,能够广泛适用于多种业务场景下的数据表达。属性图模式是对属性图中概念及其相互之间关系的形式化表达,其是建立在数据层之上的逻辑表示。随着属性图规模的增大及应用的普及,给人们带来丰富信息的同时也给数据检索带来了巨大挑战。目前大量的研究主要关注属性图本身,即侧重于如何利用属性图数据本身及模式约束来提高查询效率。实际上,属性图模式中具有丰富的概念语义关系,属性图模式的优劣直接影响属性图数据的规模、及其之上的查询性能等,然而目前对于通过属性图模式优化提高属性图上的查询效率的研究相对较少。此外,子图匹配作为属性图中常见的查询问题,一直是图数据管理的研究热点之一。目前在子图匹配的大量研究中,根据查询图生成索引结构,按照设定的匹配顺序进行递归枚举以获得最终的匹配结果,但是目前的算法中普遍忽略了查询图中节点之间边对候选集的影响,导致枚举过程中存在大量的冗余操作,进而影响查询效率。为解决上述问题,本文针对属性图模式优化及子图匹配问题进行研究。从逻辑层面考虑,提出了基于组合规则的属性图模式优化方法;从数据层面考虑,提出了邻域关系标签树编码索引的子图匹配方法。主要研究工作及创新点如下:(1)针对属性图模式优化问题,本文提出基于组合规则的属性图模式优化方法,通过考虑模式中丰富的语义关系,结合实际中的查询,提取属性图模式中具有某些特性、辨识度较高的关系,并在此基础上设计相应的模式优化规则,然后将所提的规则应用到属性图中,在保证原有语义信息不丢失的情况下,间接优化属性图,进而提高查询性能。(2)针对属性图上的子图匹配问题,本文提出邻域关系标签树编码索引的子图匹配方法。首先构造综合考虑节点信息的邻域关系标签树编码索引;其次根据索引为查询图中每个节点生成候选集,构建辅助数据结构,并提出基于共同邻居和唯一候选节点剪枝规则来精细辅助数据结构;然后基于候选节点确定匹配顺序;最后提出基于等价节点的动态枚举算法完成子图匹配。(3)在多个真实数据集以及模拟数据集上进行大量实验,将本文提出的方法与现有先进算法进行对比。实验结果验证,本文所提方法的正确性、有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/56272.html