金融新闻中的关联实体挖掘研究
这是一篇关于知识图谱,子图匹配,股票预测,关联实体挖掘的论文, 主要内容为金融市场是一个资本和生产要素的配置场所,是一个国家的政治、经济、文化信息的集散地,金融市场吸引着媒体和大量人民群众的关注。媒体每天不断的发布大量金融市场的新闻,人们通过媒体发布的新闻密切的关注着金融市场,同时新闻也会影响人们对金融资产标的看法,新闻对金融市场会产生影响已经是人们公认的事情。从海量的新闻中挖掘有用的信息,定位这些新闻对金融资产标的影响,对于金融市场的运作、社会资本的配置都至关重要。过去学者研究股票市场都基于一个假设,就是已知受新闻影响的股票实体。但是由于这个假设,这些方法不可避免的忽视了不含股票实体的新闻,而很多不含股票实体的新闻同样会对金融市场产生重大的影响。本文针对金融新闻中非特定关联实体挖掘的问题,构建了基于新闻主题抽取的新闻实体图,并构建了多源异构的金融知识图谱,提出了基于语义路径的子图匹配算法,通过匹配新闻实体图与金融知识图谱,最终识别出金融新闻所对应的关联实体集合,从语义的层面匹配出受到影响的股票实体,从而可以全面分析各种包含或者不包含金融实体的新闻。本文的主要研究工作及成果概况如下。本文以结构化数据为起点,半结构化数据和非结构化数据为补充,通过知识抽取、实体消歧、知识存储等步骤,构建了多源异构的股票市场知识图谱,涵盖了大部分股票市场的实体。本文通过主题模型分析,从金融新闻中抽取相关性最高的主题,利用这些主题构建了新闻图,并提出了基于语义路径的子图匹配算法,从知识图谱中寻找和新闻图相匹配的子图,所匹配的子图顶点就是和金融新闻相关联的实体集合。本文根据子图匹配的结果,设计实验,第一个实验对比了本文算法和SVM、决策树、全连接网络、朴素贝叶斯以及RCNN分类方法的分类性能,实验结果显示本文算法相比其他对比方法有着更好的综合性能。第二个实验模拟真实投资策略进行回测,在新闻发生的第二天买入受影响的股票并在持有一天后卖出,本文的算法在相同时间段的收益超过对比方法,同时本文算法相对大盘取得了28.82%超额收益。实验验证了基于语义路径的子图匹配算法的有效性,同时证明了算法在实际投资中的可行性。
面向本体标签知识图谱的样例查询方法研究
这是一篇关于知识图谱,本体标签,单样例查询,子图匹配,多样例查询,组合排序的论文, 主要内容为随着数据的爆发式增长,知识图谱作为一种语义网络,广泛应用于推荐系统、知识问答、社交网络分析等领域。在大数据时代,随着互联网的迅速普及,来自互联网中的海量数据,给人们带来宝贵数据财富的同时也给数据检索带来了巨大挑战。因此,如何对具有丰富语义信息的知识图谱进行高效的查询以获得用户感兴趣的结果引起了学术界以及工业界的广泛研讨,具有重要的研究价值与意义。早期针对知识图谱的查询主要是基于RDF三元组数据实现的,将RDF三元组存储到关系型数据库中,并利用结构化查询语言找到满足查询条件的结果。然而这对于非领域专家的用户而言,表达自己的查询意图和查询兴趣是非常困难的。基于图查询的方法使用户摆脱了学习复杂查询语言的困扰,只需要用户提供满足自己查询条件的图结构即可,其核心思想是子图匹配,通过图匹配在知识图谱中找到同构的子图作为答案。基于图结构的样例查询不会严格要求查询条件特征,将用户的查询视为用户感兴趣的数据示例,方便用户表达查询意图。传统知识图谱上的样例查询方法大多数是基于节点标签或边标签进行子图匹配。在具有丰富语义信息的知识图谱中,节点标签只能标识实体的名称及属性信息,并且相同的边标签可能连接着多种不同类型的实体。因此,基于传统知识图谱的样例查询会导致查询结果语义相关性低,返回的查询结果不能很好地体现用户查询意图。为了解决上述问题,本文提出将实体所属的类型与子类型作为节点的本体标签引入知识图谱中,并对本体标签知识图谱的样例查询方法进行深入研究,提出了面向本体标签知识图谱的样例查询方法。主要研究工作及创新点如下:(1)为了解决传统知识图谱上样例查询结果语义相关性低的问题,本文提出引入实体的本体标签集合即实体的所属类型以及子类型,作为对实体节点的语义描述。在目标数据集进行子图匹配的过程中,既考虑实体节点的本体标签相似性,又考虑边标签同构,以检索出语义相关性更高的答案。(2)针对用户输入单个查询图的情况,提出本体标签知识图谱上的单样例查询方法。第一阶段为过滤候选节点阶段,首先提出有效的双向索引和本体标签树索引提前缩小搜索空间,确定查询节点的候选范围。其次提出本体标签相似度计算公式,将候选节点按照本体标签相似度得分进行降序排序,形成有序的候选节点集合,便于优先验证相关性高的候选节点。第二阶段为验证阶段,首先通过边标签同构算法形成有序的匹配对集合,其次利用有效的候选结果组合排序算法直接组合形成前k个相关性最高的答案。(3)针对用户输入多个查询图的情况,提出本体标签知识图谱上的多样例查询方法。首先,利用本体-边标签索引缩小搜索空间,避免在整个知识图谱中进行搜索,提高查询效率。其次,为了优先返回紧凑程度更高的答案,根据用户查询样例集构建连通的匹配模式,为匹配验证做准备。再次,根据匹配模式在缩小的搜索空间中采用节点向量与索引结合的方式验证候选节点,进一步精确候选空间。最后在候选空间中评估匹配模式片段的候选基数,选择候选基数最少的结构进行扩展匹配以减少同构匹配次数,形成答案集返回给用户。(4)在多个真实数据集上进行多次实验验证,同现有的样例查询相关算法进行比较。实验结果表明,本文所提出的方法在查询效率、查询结果相关性、查询结果有效性、查询结果紧凑程度等方面都具有较好的表现。
面向多源知识图谱的样例查询研究
这是一篇关于知识图谱,样例查询,关键字查询,子图匹配,相关性,结果融合的论文, 主要内容为随着知识的爆炸式增加和不同领域知识图谱的推出,面向知识图谱的查询已成为近来搜索引擎领域的研究热点。然而,由于不同领域的知识图谱大多独立存在且所涵盖的知识有限,仅基于单个知识图谱的查询结果已经不能满足用户的查询需求。本文提出面向多个知识图谱的样例查询问题,通过候选结果融合以及相关性衡量方法的改进,在保证时间效率的基础上,提高查询结果的质量以及用户满意度。已有的研究工作大多都是面向单个知识图谱的查询,已有的图查询技术不能应用于多个图上的查询操作,而且已有的相关性衡量方法是基于传统数据图的,没有考虑知识与数据的差异性。针对这些问题,本文主要从以下三个部分开展研究:第一部分,研究面向多个知识图谱的样例查询处理模型。使用用户友好的关键字查询技术,首先结构化用户输入查询关键字作为查询样例。然后,在每个知识图谱上确定用户查询样例,使用子图同构的方法,根据查询样例在每个知识图谱上找到前K个高相关性的子图。最后,选取与查询样例不完全匹配的候选结果进行融合操作。算法通过查询系统集合不同知识图谱,避免了知识图谱的全局模式集成,且更具灵活性。通过实验验证了方法可保证查询效率且具有较高的可用性。第二部分,研究基于知识的查询结果相关性衡量方法。为了进一步确定用户查询意图,在已有的基于距离和结构的样例查询的结果相关性衡量方法基础上,本文加入了知识流行程度作为一个补充的相关性衡量因素。使用事件的发生时间作为衡量知识流行程度的标准,认为越近发生的事情,越是流行的知识。通过实验验证了改进的结果相关性衡量方法有效地提高了查询结果的质量和用户的满意程度。第三部分,研究基于分组标记的候选结果融合算法。面向多个知识图谱的样例查询中,满足查询需求的结果可能来自于单个知识图谱,也可能是多个知识图谱上的候选子结果的融合结果。为了解决候选结果融合时,由于候选结果过多而增加的时间代价问题,本文提出了优化算法,为候选结果按照特征分组标记,从而按组融合,减少了节点匹配代价,缩短了响应时间。通过实验验证本文提出方法可有效地提高查询效率。
面向领域知识库的子图匹配查询方法研究与应用
这是一篇关于知识库,词向量,子图匹配,节点过滤,农业知识查询系统的论文, 主要内容为伴随着各领域信息化建设的不断推进,致使领域数据日益增长,有效组织、挖掘与利用行业数据已成为提升各领域竞争力的核心要素。为解决垂直领域知识获取的有效性问题,本文面向农业领域,提出了一种基于知识库的近似子图匹配的查询方法。利用知识图谱中节点的结构信息和语义信息定义了节点过滤规则,实现对噪声数据的过滤,生成查询图的候选节点集合;计算查询节点和候选节点的匹配代价,通过设置节点权重对邻居向量的匹配代价加权,使节点匹配代价更能反映查询图节点的结构特性;调用排序机制对查询结果进行进一步处理,返回满足用户查询意图的前k个查询结果。基于已提出的子图匹配查询方法,构建了农业知识查询系统的实验平台。主要研究内容包括:(1)设计了一种农业知识向量化模型。知识向量化的核心思想是在FastText模型学习文本语料的同时考虑知识库中实体之间的关系。通过知识向量化,为之后的子图匹配的语义度量奠定基础,提高子图匹配的准确性。(2)提出一种基于节点过滤的子图匹配算法,算法同时考虑节点的结构信息和语义信息进行节点过滤,然后设置节点权重计算节点匹配代价,调用排序机制输返回前K个结果。(3)设计与实现农业知识查询系统。在算法研究的基础上,本文设计并实现了农业知识查询系统。该系统使用Django为开发工具,MySQL为数据库,实现了农业知识查询、相关搜索两大功能模块。本系统将相关算法转换为可视化操作的界面,验证了相关算法的有效性。
大规模RDF图上的多元化查询方法研究
这是一篇关于RDF图,多元化语义查询,子图匹配,类星型结构的论文, 主要内容为随着人工智能的发展及其对知识需求的急剧增加,知识图谱应运而生。大部分知识图谱使用RDF描述资源,RDF图上的SPARQL BGP查询是对各类知识图谱进行描述、挖掘及分析的重要技术。RDF图上的SPARQL BGP查询等价于子图匹配问题,而由于子图匹配问题已被证实为NP问题,因此,如何在大规模RDF图上进行高效的SPARQL BGP查询是一个极具挑战的问题。本文针对不同查询约束的语义查询设计了大规模RDF图上的多元化查询方法。首先,当执行谓语常量约束的SPARQL查询时,使用本文类星型结构的分布式存储与基于谓语常量的标签树索引方式,执行查询图预处理和类星型结构匹配过程,通过减少查询迭代次数以及索引高效的剪枝过滤效果加快检索速度,并利用E-MJOC算法基于类星型结构选择性确定各查询子图匹配及连接顺序进行查询优化,通过减少中间结果的产生降低连接代价进而提升查询效率。其次,当执行混合常量约束的SPARQL查询时,本文设计了节点分区索引和基于布隆过滤器的编码树索引,在进行查询图预处理和类星型结构匹配时,根据RDF数据图中割点信息和节点分区索引缩小计算范围避免了无关存储节点不必要的计算,再通过基于布隆过滤器的编码树索引进行有效剪枝过滤,减少待匹配中间候选集合,降低匹配代价。最后通过MS-MJOC算法生成相应的匹配及连接查询计划对得到的中间结果基于公共点进行连接,通过减少大量连接操作而提升整体查询效率。最后,采用了不同的RDF数据集进行实验对比,实验结果表明,本文SPC的存储与索引方式以及对查询本身进行优化的方法对谓语常量约束的语义查询起到促进作用。另一方面,本文的SMC在进行混合常量约束的语义查询时的查询效果较SDec和S2X更好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/49256.html