基于对象代理数据库的专利知识图谱构建方法研究
这是一篇关于对象代理模型,专利知识图谱,数据建模,跨类查询,查询优化的论文, 主要内容为随着科技的发展和技术保护意识的逐渐提升,越来越多的专利获得了申请和授权。然而这其中的大部分专利,并没有得到很好地转化利用。因此,迫切需要对于专利数据进行有效管理。知识图谱在管理海量数据和复杂的关系上有很大的优势,在智能问答和信息检索等多个领域都有广泛的应用,尤其是面向特定领域的知识图谱。知识图谱利用实体间的关系构建知识网络,可以给这些细分领域提供高效的技术指导与帮助。因此,构建一个基于专利领域的知识图谱,对于专利知识管理拥有很大的意义。当前知识图谱管理方案主要有两类:一类是基于关系数据库的建模方案,基于关系数据库的存储方式有三元组表存储方式,六重索引方式,属性表存储方式以及DB2RDF等,这些存储方案构建不同的关系表实现实体和关系的建模,但是不可避免会存在表的连接操作,影响数据查询的效率;一类是基于图数据库建模方案,图数据库的存储方式是将实体和关系映射成图中的节点和边,其在多级跳跃查询时效率比较高,但是对于涉及大节点查询效率会比较低,而且分布式存储实现代价很大。对象代理数据库采用不同于传统关系型数据库的存储模式,将客观实体抽象为对象形式,具有相同属性和方法的对象归纳为一个源类。在源类上利用连接,选择和分组等操作可以生成不同的代理类。对象代理数据库的特点在于利用源类和代理类来构建数据间的语义关联,并通过跨类查询语句实现在对象之间语义查询。由于其丰富的语义表达能力,可以很好地表示专利中复杂的语义关系,对于专利领域复杂的语义网络可以进行很好的建模与表示。因此,本文利用对象代理数据库进行专利知识图谱的构建工作。针对当前知识图谱建模方式的一些局限性,本文提出基于对象代理数据库的专利知识图谱构建方法。首先,本文利用对象代理模型的SELECT、UNION、JOIN、GROUP这四种代理类进行知识图谱的建模工作。本文利用基本类存储专利数据中的基本关系,在基本关系上利用代理类完成对于专利数据中的选择、特化、泛化等关系的构建。本文的建模方式可以有效地解决表的连接操作过多的问题,提高查询效率,并且可以通过选择关系的构建有效地管理知识图谱中的关系丰富的实体。此外,在存储模式设计上,我们针对不同的数据类型构建不同的存储方案,以兼顾数据存储空间的压缩和数据查询效率的提升。在查询上,我们采用了跨类查询方案,并通过优化代理类的构建顺序来提高数据的查询效率。
基于SSH的电影院网上订票系统的设计与实现
这是一篇关于SSH整合架构,网上订票,查询优化,MVC的论文, 主要内容为伴随着我国全面推动信息化及互联网+建设的趋势,国家的各个行业均在朝着互联网方向进发,影视行业也是面临这样的使命与挑战。本文介绍的电影院网上订票系统就是一个解决当前传统电影院售票的方式存在的问题,使电影的发行及销售顺应互联网及电子商务的有效措施。本论文主要设计目标是一个电影院网上订票系统,主要创新点为SSH整合框架技术和My SQL查询优化这两方面的研究。在分别详细研究SSH框架特点,仔细分析其不同整合方式优缺点的基础上总结出契合Web应用三层(表示层、业务逻辑层和数据持久层)结构最佳的SSH框架整合技术方案,并在此基础上设计实现了基于SSH整合框架的电影院网上订票系统。在系统数据库设计中,本论文重点对My SQL查询优化技术从My SQL配置参数调优和My SQL查询重用功能两个方面进行了研究。并提出数据库查询优化措施,包括对My SQL数据缓冲区和日志缓冲区参数的调优,以及通过设计算法来消除SQL语句多余字符及规范化SQL语句中的关键词来提高My SQL查询结果重用的概率,从而提高了My SQL的查询性能并进行了相关测试验证。本论文最终确定系统采用B/S开发架构,设计符合MVC设计模式,将功能分为前端会员购票模块和系统管理维护模块。其中会员功能模块包括会员注册及登录及电影票订购处理等,管理维护模块是系统管理员对影院信息、售票信息、影片信息及会员信息等的管理维护功能。
基于SSH的电影院网上订票系统的设计与实现
这是一篇关于SSH整合架构,网上订票,查询优化,MVC的论文, 主要内容为伴随着我国全面推动信息化及互联网+建设的趋势,国家的各个行业均在朝着互联网方向进发,影视行业也是面临这样的使命与挑战。本文介绍的电影院网上订票系统就是一个解决当前传统电影院售票的方式存在的问题,使电影的发行及销售顺应互联网及电子商务的有效措施。本论文主要设计目标是一个电影院网上订票系统,主要创新点为SSH整合框架技术和My SQL查询优化这两方面的研究。在分别详细研究SSH框架特点,仔细分析其不同整合方式优缺点的基础上总结出契合Web应用三层(表示层、业务逻辑层和数据持久层)结构最佳的SSH框架整合技术方案,并在此基础上设计实现了基于SSH整合框架的电影院网上订票系统。在系统数据库设计中,本论文重点对My SQL查询优化技术从My SQL配置参数调优和My SQL查询重用功能两个方面进行了研究。并提出数据库查询优化措施,包括对My SQL数据缓冲区和日志缓冲区参数的调优,以及通过设计算法来消除SQL语句多余字符及规范化SQL语句中的关键词来提高My SQL查询结果重用的概率,从而提高了My SQL的查询性能并进行了相关测试验证。本论文最终确定系统采用B/S开发架构,设计符合MVC设计模式,将功能分为前端会员购票模块和系统管理维护模块。其中会员功能模块包括会员注册及登录及电影票订购处理等,管理维护模块是系统管理员对影院信息、售票信息、影片信息及会员信息等的管理维护功能。
基于采样数据摘要和查询特征表示学习的联邦知识查询基数估计
这是一篇关于联邦查询,查询优化,基数估计,数据摘要,RDF的论文, 主要内容为近年来,随着知识图谱的发展,语义网中发布的RDF知识库数量和大小显著增加。为提高这些数据的可用性,许多联邦查询引擎应运而生。简单来说,给出一个联邦SPARQL查询,联邦系统从分布在不同的机器上并且自治的多个数据源上获取中间结果并整合得到最终结果。在本文研究的基于成本模型的联邦查询系统中,从输入查询到得到结果的过程大体分为分解子查询、数据源选择和查询规划。本文主要关注查询规划过程。由于该过程基于预估子查询的基数进行规划,因此基数估计的准确性至关重要。子查询的基数是指子查询的真实结果数量。传统方法通过匹配索引文件来估计查询基数,但是索引生成速度慢,且难以兼顾索引文件内存开销和信息完整性,往往造成基数估计误差大;除此以外,对于陌生和复杂的查询,基于索引的基数估计更加困难。首先,针对索引文件构建慢且难以兼顾索引内存开销与估计准确性的问题,本文提出一种基于采样数据摘要的高效索引构建方法。数据摘要索引文件捕获RDF数据集的结构和语义信息,这对查询计划生成过程中子查询的基数估计至关重要。现有的数据摘要生成方法需要远程遍历每个源的完整数据,这个过程消耗很高的成本,且在大部分环境中,联邦查询无法完成对大数据集的统计工作。为解决这一缺陷,本文提出基于样图生成原始图近似数据摘要的方法,目标是在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息。其次,对于陌生和复杂的查询索引方法估计误差较大的问题,本文使用基于查询特征表示学习的方法来解决。受在SQL领域已取得很好的效果的深度学习MSCN模型启发,本文提出面向SPARQL查询特征编码框架,针对联邦知识查询的特点构建输入特征并调整模型,通过MLP模型学习和预测查询中的基数,同时使用word2vec模型来获取三元组模式的语义信息。综上所述,本文提出基于采样数据摘要方法和基于表示学习的方法可以提高基数估计任务的准确率,对知识图谱联邦查询系统的发展具有重要意义。实验结果表明,采样数据摘要方法较基线至少节省70%的索引生成时间,并且仅从原始图的0.5%部分图上生成的估计数据摘要在查询准确率上与基线方法高度一致。查询表示学习的方法在LUBM上实验,结果显示该方法的估计误差远小于最近方法。
哈尔滨工业大学教室资源条件保障信息系统的设计与实现
这是一篇关于教室资源,维护成本,J2EE,查询优化,贪心算法,自动推荐的论文, 主要内容为教室资源是高校各类硬件资源条件中,最基本、最重要的教学设施之一。各高校通过研究发现加强学生们日常生活和学习的管理,可以显著提高教学质量。如何有效的管理和利用好现有的教学楼和教室,是高等院校日常管理工作中最基本的非常重要的一部分。哈尔滨工业大学后勤设备科提出的开发教室资源条件保障信息系统,就是为了更好、更合理的管理和利用好现有的教室资源。哈尔滨工业大学教室资源条件保障信息系统采用基于mvc框架的J2EE技术进行开发,数据存储使用SQL Server 2008数据库系统。系统面向全校的师生和工作人员提供服务。为系统管理员提供的功能包括:系统用户管理、教学楼管理、教室类型及教室信息管理、设备管理、课程信息管理、预订教室管理、发布新闻通告、审核留言信息等。为设备巡查员提供的功能包括:登记损坏设备、损坏设备记录等。为设备维修员提供的功能包括:未维修设备列表、损坏设备记录等。为普通师生提供的功能包括:浏览新闻通告、浏览教学楼信息、浏览教室信息、浏览课程信息、查找教室、预订教室留言板等。系统开发时,使用临时表技术对数据库查询进行优化,该表中存储了教室、教学楼和课程的相关信息,并对教室信息进行排序分组存储。系统的难点在于课程教室调整自动推荐功能,该功能采用贪心算法实现,算法需要的输入数据是查询优化时生成的临时表之中的数据,结果根据教学楼利用率数据排序,能够自动给出课程教室调整的推荐数据。系统开发完成后,经过单元测试和系统测试,修复了开发时产生的各种bug,提高了系统运行的正确性和稳定性,目前系统在线运行良好,达到了开发的目的。
基于深度学习的供水管网压力监测系统研究
这是一篇关于压力监测系统,供水管网压力预测,模型融合,LCNN,异常推送,查询优化的论文, 主要内容为中国的平均水资源占有量远小于全球的平均水平,水资源短缺问题亟待解决。据统计,供水系统中的管网漏损是水资源浪费的主要表现之一,其中,管网爆管事故又是导致管网重大漏损的关键原因。本文设计了一套集管网压力数据查询、数据可视化、压力预测于一体的供水管网压力监测系统,利用压力历史数据,采用基于模型融合的压力预测方法进行压力预测,并进行压力数据异常分析,出现压力数据异常时,推送消息提醒,在降低爆管风险的同时提升了居民用水体验。本文主要研究工作包括:1.设计了一种基于模型融合的压力预测方法,提高了压力预测的准确率。首先,构建了关于管网压力值的时序特征集;其次,结合长短期记忆网络(Long Short-Term Memory,LSTM)和循环神经网络(Convolutional Neural Networks,CNN)的优点,设计了长短期记忆循环神经网络(LSTM&CNN,LCNN)模型,降低压力预测误差率的同时提升了算法的运行效率;然后,分别构建轻量级梯度提升机(Light Gradient Boosting Machine,LightGBM)以及规则预测模型,最后,对上述三个模型取最优权重系数并融合得到最终的预测结果。实验表明,相较于单模型,基于模型融合的压力预测方法在预测准确率以及泛化性能等方面均得到了有效的提升。2.开发了一套压力监测系统,包含数据查询、数据可视化、压力预测、异常值判断以及异常信息推送等功能。系统采用Spring Boot作为开发框架;使用MySQL数据库实现数据存储;使用BootStrap Table、EasyExcel等工具实现数据展示和数据导出等功能;通过ECharts工具实现压力数据的可视化功能;利用Flask框架将压力预测算法融合到系统中,实现供水管网的压力预测;根据正态分布的3σ原则实现压力采集值和压力预测值的异常判断,若压力值异常则利用短信、微信实现异常信息推送;对数据查询过程进行了优化。对系统进行了功能性和非功能性测试,非功能性测试表明该系统具有可靠性、易操作性、安全性和可用性;功能性测试结果表明,相比于单模型,基于模型融合的压力预测方法预测准确率满足供水管网压力预测的需求,在优化管网运行质量、降低管网漏损率、推进“智慧水务”平稳运行等方面具有重要意义。
基于强化学习的RDF图数据智能管理
这是一篇关于知识图谱,数据管理,存储结构,索引推荐,查询优化的论文, 主要内容为随着符号主义的不断发展,知识图谱已经成为了人工智能的重要基石,近些年发展迅猛,应用领域颇多。各种应用的兴起导致了知识图谱规模的日益增大,有的知识图谱甚至有上百万个顶点和上亿条边,这给知识图谱的数据管理带来了严峻的挑战。如何对图数据进行有效地数据存储、索引建立和查询优化一直是人们研究的热点和难点问题。目前,固定模式的存储结构是当前存储方法的一大瓶颈,这些方法无法体现图数据的复杂性图结构和适应动态变化的图数据和工作负载。其次,索引推荐问题也多集中在单索引推荐上,这无疑限制了索引推荐的效率。在查询优化方面,不同的连接顺序也会导致不同的查询时间,如何找到最优的连接顺序也是查询优化的一个难点。针对以上问题,本文提出了基于强化学习的RDF图数据管理技术,并通过实验验证提出方法的效果。首先,本文采用基于关系的方案来进行图存储,使用强化学习的方法来进行存储结构的决策生成,并根据数据库的反馈来不断动态调整存储结构,使其适应动态变化的图数据和工作负载。据我们所知,这也是第一次将强化学习应用到图存储中,从而自动化地形成存储方案。我们在PostgreSQL和MySQL两种数据库上进行了存储结构实验的验证,并和其他四种目前最先进的存储方法进行了性能的对比。实验结果表明,我们的智能存储结构生成方法显著优于已有的最新研究。其次,本文研究了索引推荐问题,基于强化学习方法进行单属性索引和多属性索引的推荐。该方法考虑了索引间的相互作用,可以在存储结构的基础之上进一步提升查询效率。该部分在PostgreSQL数据库上进行了实验验证,并且和无索引、全索引情况进行对比。实验表明,我们的方法具有良好的性能。然后,本文研究了查询优化问题中的连接顺序优化问题,改进了现有研究的缺陷,提出了新的查询语句特征提取方法。该方法体现了连接顺序生成过程中的连接树结构信息,并进行了实验验证。实验结果表明,我们的方法在性能上优于已有的最新研究REJOIN。最后,我们对三种数据管理技术进行了系统整合,形成一个完整的图数据智能管理系统,并进行了整合实验的验证与分析。
基于对象代理数据库的专利知识图谱构建方法研究
这是一篇关于对象代理模型,专利知识图谱,数据建模,跨类查询,查询优化的论文, 主要内容为随着科技的发展和技术保护意识的逐渐提升,越来越多的专利获得了申请和授权。然而这其中的大部分专利,并没有得到很好地转化利用。因此,迫切需要对于专利数据进行有效管理。知识图谱在管理海量数据和复杂的关系上有很大的优势,在智能问答和信息检索等多个领域都有广泛的应用,尤其是面向特定领域的知识图谱。知识图谱利用实体间的关系构建知识网络,可以给这些细分领域提供高效的技术指导与帮助。因此,构建一个基于专利领域的知识图谱,对于专利知识管理拥有很大的意义。当前知识图谱管理方案主要有两类:一类是基于关系数据库的建模方案,基于关系数据库的存储方式有三元组表存储方式,六重索引方式,属性表存储方式以及DB2RDF等,这些存储方案构建不同的关系表实现实体和关系的建模,但是不可避免会存在表的连接操作,影响数据查询的效率;一类是基于图数据库建模方案,图数据库的存储方式是将实体和关系映射成图中的节点和边,其在多级跳跃查询时效率比较高,但是对于涉及大节点查询效率会比较低,而且分布式存储实现代价很大。对象代理数据库采用不同于传统关系型数据库的存储模式,将客观实体抽象为对象形式,具有相同属性和方法的对象归纳为一个源类。在源类上利用连接,选择和分组等操作可以生成不同的代理类。对象代理数据库的特点在于利用源类和代理类来构建数据间的语义关联,并通过跨类查询语句实现在对象之间语义查询。由于其丰富的语义表达能力,可以很好地表示专利中复杂的语义关系,对于专利领域复杂的语义网络可以进行很好的建模与表示。因此,本文利用对象代理数据库进行专利知识图谱的构建工作。针对当前知识图谱建模方式的一些局限性,本文提出基于对象代理数据库的专利知识图谱构建方法。首先,本文利用对象代理模型的SELECT、UNION、JOIN、GROUP这四种代理类进行知识图谱的建模工作。本文利用基本类存储专利数据中的基本关系,在基本关系上利用代理类完成对于专利数据中的选择、特化、泛化等关系的构建。本文的建模方式可以有效地解决表的连接操作过多的问题,提高查询效率,并且可以通过选择关系的构建有效地管理知识图谱中的关系丰富的实体。此外,在存储模式设计上,我们针对不同的数据类型构建不同的存储方案,以兼顾数据存储空间的压缩和数据查询效率的提升。在查询上,我们采用了跨类查询方案,并通过优化代理类的构建顺序来提高数据的查询效率。
RDF数据存储与查询技术研究
这是一篇关于RDF,SPARQL,Spark,语义网,查询优化的论文, 主要内容为随着语义网、知识图谱的快速发展,资源描述框架(RDF)作为其数据表示形式,数据量呈现出迅速增长的趋势。鉴于数据量的爆炸式增长,分布式处理为管理RDF数据提供了一个丰富的平台。分布式存储与查询展现出高吞吐量、并行化、高拓展、高可用的优势。但在处理包含多个连接操作的RDF查询时,分布式环境存在着性能挑战,例如网络数据混洗,计算内存开销等。因此设计RDF数据分布式划分存储方法与查询优化算法,对提高RDF在分布式环境下的查询效率具有重要的意义。基于此,本课题针对分布式RDF数据在存储和查询中存在的问题进行了深入的研究,提出了新型的数据划分方法来划分存储RDF数据,以及利用多个优化策略来设计查询计划生成算法,并在此基础上设计了一种基于Spark的分布式RDF数据存储与查询框架。本文的研究内容主要包括以下几点:(1)考虑到大规模RDF数据存储空间浪费以及计算内存开销大等问题,提出了一种基于垂直划分的RDF数据划分方法。在垂直划分的基础上对谓词为rdf:type的三元组进一步划分,然后再做一步连接操作,最终形成类索引、关系索引以及类-关系索引。该方法可以减小磁盘空间使用量,精细的数据划分可以减少计算内存开销以及加快索引相关数据的速度。(2)面对在分布式环境下RDF数据查询面临的网络开销、查询响应慢等问题,本文通过解析SPARQL语句来减少查询语句中的三元组模式个数,减少三元组模式匹配产生的中间结果数量,减少迭代连接的循环次数。另外匹配三元组模式时统计结果规模信息来设计查询计划生成算法,用来约定三元组模式匹配结果的连接顺序,减少冗余数据的产生。此外采用广播变量方法用于中间结果迭代连接过程中,减少节点间的通信开销,加快RDF数据查询的响应时间。(3)基于以上研究内容,设计一种基于Spark的分布式RDF数据存储与查询框架。在构建的原型系统后,采用LUBM和Wat Div两个综合基准数据集以及标准SPARQL查询语句进行评估系统的性能。此外,通过将本文系统与Hadoop RDF、SPARQLGX两个系统进行对比试验,证实了本文系统具有更好的查询性能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://m.bishedaima.com/lunwen/46172.html