面向大规模商品知识图谱的查询处理技术
这是一篇关于RDF数据,SPARQL查询,谓词索引,压缩编码树,查询处理的论文, 主要内容为随着互联网的蓬勃发展和人民日常生活需求的多元增长,网络购物所产生的数据规模已经成为难以计数的庞大数字。与一般知识数据相比,商品知识数据具有异质、海量、数据分布不平衡等特点。随着商品知识图谱规模的不断增大,用户对知识查询的响应速度要求也在不断提高。然而,现有的RDF(Resource Description Framework)知识查询系统通常没有充分考虑商品知识图谱的结构特点,从而无法有效优化商品知识检索性能。其次,大规模商品知识查询服务具有实时性和准确性的要求,因为商品知识需要不断地补充、更新,以满足不同类型的知识查询请求。因此,高性能的查询处理需要具备极好的可扩展性,以保证在数据动态更新后仍然能实现实时、准确的查询处理。本文针对商品知识数据的特点,围绕大规模商品知识的查询处理展开研究,主要工作包括:(1)针对数据索引的存储进行优化,提出了一种基于谓词索引的RDF知识存储与查询处理方法。该方法根据商品知识数据的结构特点,设计了一种基于谓词索引的数据模型,将RDF三元组转换成谓词索引的实体对,以实现知识数据的压缩存储,并提升了数据索引的构建和加载速度;在查询策略上设计了一种基于查询类型选择的查询优化算法,以保证查询的整体性能仍保持高效。最终的实验结果表明,该方案在查询性能与主流RDF查询系统的检索性能保持竞争力的同时,有着更小的磁盘空间占用和数据索引构建时间。(2)针对查询效率进行优化,提出了一种基于压缩编码树索引的RDF知识存储与查询处理方法。二元连接策略在图查询中的瓶颈在于中间结果的冗余会导致整体查询性能的下降,因此基于最坏情况下最优连接算法的思想,重新设计了查询执行策略来减少查询过程中的数据冗余,并且为了提升数据索引的可扩展性,进一步设计了一种基于压缩编码的索引结构,通过数字编码压缩存储知识三元组,并利用B+树的有序结构来提升数据索引的可扩展性。经过在标准数据集上的测试,该方案在索引构建速度和磁盘空间占用方面都有着不错的表现,并且在知识数据的检索性能上有着自己的优势。
检务公开人机交互场景下的语义理解
这是一篇关于检务公开,BERT模型,语义依存分析,BiLSTM算法,SPARQL查询的论文, 主要内容为目前,自然语言处理技术快速发展,在金融、医疗健康等领域,得到了越来越广泛的应用,但是在检务领域研究较少。为实现新技术与检察实务领域的深度融合,最高人民检察院提出了探索推进检务公开实施方式、打造智慧检务的目标。本文旨在探索自然语言语义理解在检务公开领域人机交互模式下的创新应用,针对现有语义理解架构中未考虑问句中的深层语义关系、过分依靠关键字匹配的弊端等问题进行改进,主要的研究工作和创新点包括以下三个方面。(1)基于BERT模型的中文分词研究。BERT模型作为一种新的语言表征模型,可以引入丰富的上下文信息并通过微调的方式快速有效的构建中文分词模型。本文在BERT模型的基础上,针对检务公开活动场景的特点,采用序列标注的方式进行中文分词,并设计了法律领域词典和中文姓名词典特征的引入方法,以提升分词模型在法律领域上的分词性能。两种方式分别将F1值(加权调和平均值)在基准分词模型基础上提升了1.1%和2.6%。使最终的分词模型在法律文书数据集上的分词效果相对于常用分词工具有较好的提升。(2)基于图的语义依存分析研究。语义依存是一个融合了语义角色标注和句法分析的联合模型,不在受限于语句表面的句法结构,可以获取深层次的语义依赖信息。本文采用基于图的思想以双层Bi LSTM(双向长短时记忆网络)算法为核心构建了中文语义依存分析模型,并在此基础上设计了在模型中融入法律语料的BERT嵌入向量以及建立法律词语依存关系词典两种方法,来提升模型的性能。实验表明,在检务公开问句集上,可以将LF(弧标签F值)在基准解析模型基础上分别提升1.02%和1.19%。(3)SPARQL查询语句构建方法研究。对于RDF框架构建的知识库,SPARQL可以进行高效准确的检索,不需要理解特定于领域的关系或类型,即可获取该数据和询问相关问题。本文以查询三元组为核心,通过对检务领域问答对的研究和分析提取出简单的抽取规则,将语义依存结构解析成查询三元组列表,并根据策略转换成SPARQL查询语句,查询语句可以用于检务公开领域法律知识图谱或者法律知识库的检索查询。本论文依托于最高检国家重点研究项目展开研究,通过中文分词、语义依存分析以及SPARQL语句等技术实现对检务咨询问句的语义理解架构,实验结果表明,该架构能够从语义角度有效的将咨询问句转换为SPARQL查询语句,不仅在检务公开活动场景下为用户提供了高效获取答案的新方式,也为后续项目的研究奠定了良好的基础。
面向大规模商品知识图谱的查询处理技术
这是一篇关于RDF数据,SPARQL查询,谓词索引,压缩编码树,查询处理的论文, 主要内容为随着互联网的蓬勃发展和人民日常生活需求的多元增长,网络购物所产生的数据规模已经成为难以计数的庞大数字。与一般知识数据相比,商品知识数据具有异质、海量、数据分布不平衡等特点。随着商品知识图谱规模的不断增大,用户对知识查询的响应速度要求也在不断提高。然而,现有的RDF(Resource Description Framework)知识查询系统通常没有充分考虑商品知识图谱的结构特点,从而无法有效优化商品知识检索性能。其次,大规模商品知识查询服务具有实时性和准确性的要求,因为商品知识需要不断地补充、更新,以满足不同类型的知识查询请求。因此,高性能的查询处理需要具备极好的可扩展性,以保证在数据动态更新后仍然能实现实时、准确的查询处理。本文针对商品知识数据的特点,围绕大规模商品知识的查询处理展开研究,主要工作包括:(1)针对数据索引的存储进行优化,提出了一种基于谓词索引的RDF知识存储与查询处理方法。该方法根据商品知识数据的结构特点,设计了一种基于谓词索引的数据模型,将RDF三元组转换成谓词索引的实体对,以实现知识数据的压缩存储,并提升了数据索引的构建和加载速度;在查询策略上设计了一种基于查询类型选择的查询优化算法,以保证查询的整体性能仍保持高效。最终的实验结果表明,该方案在查询性能与主流RDF查询系统的检索性能保持竞争力的同时,有着更小的磁盘空间占用和数据索引构建时间。(2)针对查询效率进行优化,提出了一种基于压缩编码树索引的RDF知识存储与查询处理方法。二元连接策略在图查询中的瓶颈在于中间结果的冗余会导致整体查询性能的下降,因此基于最坏情况下最优连接算法的思想,重新设计了查询执行策略来减少查询过程中的数据冗余,并且为了提升数据索引的可扩展性,进一步设计了一种基于压缩编码的索引结构,通过数字编码压缩存储知识三元组,并利用B+树的有序结构来提升数据索引的可扩展性。经过在标准数据集上的测试,该方案在索引构建速度和磁盘空间占用方面都有着不错的表现,并且在知识数据的检索性能上有着自己的优势。
面向大规模商品知识图谱的查询处理技术
这是一篇关于RDF数据,SPARQL查询,谓词索引,压缩编码树,查询处理的论文, 主要内容为随着互联网的蓬勃发展和人民日常生活需求的多元增长,网络购物所产生的数据规模已经成为难以计数的庞大数字。与一般知识数据相比,商品知识数据具有异质、海量、数据分布不平衡等特点。随着商品知识图谱规模的不断增大,用户对知识查询的响应速度要求也在不断提高。然而,现有的RDF(Resource Description Framework)知识查询系统通常没有充分考虑商品知识图谱的结构特点,从而无法有效优化商品知识检索性能。其次,大规模商品知识查询服务具有实时性和准确性的要求,因为商品知识需要不断地补充、更新,以满足不同类型的知识查询请求。因此,高性能的查询处理需要具备极好的可扩展性,以保证在数据动态更新后仍然能实现实时、准确的查询处理。本文针对商品知识数据的特点,围绕大规模商品知识的查询处理展开研究,主要工作包括:(1)针对数据索引的存储进行优化,提出了一种基于谓词索引的RDF知识存储与查询处理方法。该方法根据商品知识数据的结构特点,设计了一种基于谓词索引的数据模型,将RDF三元组转换成谓词索引的实体对,以实现知识数据的压缩存储,并提升了数据索引的构建和加载速度;在查询策略上设计了一种基于查询类型选择的查询优化算法,以保证查询的整体性能仍保持高效。最终的实验结果表明,该方案在查询性能与主流RDF查询系统的检索性能保持竞争力的同时,有着更小的磁盘空间占用和数据索引构建时间。(2)针对查询效率进行优化,提出了一种基于压缩编码树索引的RDF知识存储与查询处理方法。二元连接策略在图查询中的瓶颈在于中间结果的冗余会导致整体查询性能的下降,因此基于最坏情况下最优连接算法的思想,重新设计了查询执行策略来减少查询过程中的数据冗余,并且为了提升数据索引的可扩展性,进一步设计了一种基于压缩编码的索引结构,通过数字编码压缩存储知识三元组,并利用B+树的有序结构来提升数据索引的可扩展性。经过在标准数据集上的测试,该方案在索引构建速度和磁盘空间占用方面都有着不错的表现,并且在知识数据的检索性能上有着自己的优势。
大型RDF图的摘要方法研究
这是一篇关于RDF图,知识图谱,RDF图摘要,节点特征,SPARQL查询的论文, 主要内容为随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,导致很难从全局上对RDF图进行探索。每个大型的RDF图通常包含不同的数据,这也加剧了用户的查询困难。为了避免用户信息过载且在有限空间内呈现所需信息,就需要进行RDF图摘要(RDF graph summarization)。RDF图摘要是通过自动生成一个内容简洁且包含关键数据的子图以代替完整的RDF图,它被广泛用于图查询、图结构浏览、图模式发现、图推理等。当前,RDF图摘要是语义网及知识图谱领域的研究热点。虽然RDF图摘要研究已取得了一些成果,但大型RDF图的异构特性导致其摘要方法研究仍然面临着诸多的挑战。如何从海量数据中提取出关键的、具有代表性的数据仍然是RDF图摘要面临的问题。现有摘要方法普遍采用单一方法进行摘要的策略,导致其得出的摘要不具备RDF图的多方面特征,例如从图结构、节点重要性等,从而无法满足各领域的数据重用需求。针对上述不足,本文主要提出了基于用户查询偏好、节点中心性及节点特征的RDF图摘要方法,主要的贡献如下:(1)根据RDF图的SPARQL查询历史偏好,本文提出基于用户查询及节点重要性的RDF图摘要方法。该方法兼顾了RDF图的整体与局部特征。摘要模型通过提取出感兴趣的语义数据,满足用户的个性化SPARQL查询需求。(i)本文基于该摘要模型提出了两种摘要算法:Summary KG和Query Sum KB,并进行实验分析。实验表明算法生成的RDF图摘要提高了用户的查询效率并满足其个性化查询需求,并从一定程度上反映RDF图结构信息。(ii)本文通过在大型RDF图数据DBpedia,YAGO以及Freebase进行实验验证,其结果表明所提出的这两种算法在生成摘要的时间及查询准确度方面的有效性。(2)本文提出了基于节点特征及中心性的方法来摘要RDF图结构,并且把RDF图中的节点关系划分为同特征(same-CS)关系与同型(same-Type)关系。(i)本文基于这两种节点关系提出具备单一特征关系的Sum W算法和同时具备两种特征关系的Sum S算法。(ii)本文通过进一步地计算节点的频繁度与连接系数得出RDF图中中心度高的节点与属性边,并由此提出基于节点特征及中心性的Summary FL摘要算法。(iii)本文使用现有的大型数据AGROVOC,DBpedia,Wikidata以及Linkgeodata进行实验,并把本文提出的算法与其他摘要算法进行实验对比。实验结果表明上述算法能保证摘要的准确性和有效性。综上所述,本文提出了基于用户SPARQL查询及节点重要性、RDF图节点特征及中心性的大型RDF图摘要方法。通过实验表明,本文提出的算法能够保留RDF图结构特征,并能帮助用户提高SPARQL查询效率及快速完成RDF图数据浏览。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码导航 ,原文地址:https://m.bishedaima.com/lunwen/56260.html