基于知识图谱的开放空间知识采集系统
这是一篇关于知识采集,资源描述框架,知识库,知识图谱的论文, 主要内容为互联网的信息大多以网页形式进行存储,通过超链接将网络上的文档链接起来。人们能够理解文档中的信息,但是计算机却不能充分理解文档信息。传统的知识库主要是帮助用户直观地理解处理,无法提供可以被计算机理解的语义信息,对知识服务与组织过程中的逻辑推理和智能联想有很大的限制和局限性。基于知识图谱,复杂的语义处理可以依据本体模型对信息实体进行语义标注,生成关于生物学科的知识网络,达到对知识语义层面的组织。基于知识图谱,开发此开放空间知识采集系统,为其他系统提供外部数据支持。本文主要工作如下:(1)对涉及的相关技术进行介绍。主要包含资源描述框架、图数据库、MVC模式和网络爬虫。(2)在充分进行调研的基础上,对系统进行需求分析。主要包含系统的用户需求、功能需求、性能需求和安全性需求。(3)在需求分析的基础上,对系统进行详细设计。主要包含系统总体设计、系统具体模块设计、系统数据库和类设计。其中系统具体模块设计包含词条加工模块、数据爬取模块、数据加工模块、数据存储模块、接口调用模块和用户管理模块。系统数据库设计包含数据库概念结构设计和数据库物理结构设计。(4)基于详细设计,采用MVC模式对系统进行了开发。前端采用JQuery、Bootstrap等框架实现页面展示,BeetlSQL框架实现系统的增删改查,JavaScript实现页面交互,Apache Shiro安全框架保证系统的安全登录和权限管理,完成系统的功能模块开发。其中采用NEO4J存储RDF数据,网络爬虫为数据的爬取工具。(5)基于软件测试的方法,对开发的系统进行了测试。对系统进行用户界面和功能模块测试,测试结果表明系统界面简洁,功能满足要求。
中立RDF知识库构建问题研究与应用
这是一篇关于知识库,资源描述框架,网络采集,信息抽取,图数据库,主题特征,实体对齐的论文, 主要内容为互联网上的大数据给人类生活带来了丰富的信息,人们只需要通过关键字进行搜索,就能获取到相关新闻、资料链接。然而,这种通过点击链接的方式使得人类在面对持续增加的海量数据获取知识与信息时变得十分低效。目前互联网上的信息大多以网页的形式进行存储与发布,通过超链接的形式将文档关联起来,这种方式使得人类可以理解文档中的信息,而计算机却难以对文档中的信息进行理解。为了更好地利用互联网产生的大数据资源,国外已有研究机构从英文维基百科中构建了知识库,如FreeBase, DBPedia等。国内的知识库有百度知心、搜狗知立方及清华XLore等。知识库在知识图谱、信息融合及人工智能问答等研究领域具有重要的应用价值。国外的知识库如FreeBase等提供了公开的资源描述框架数据源,但包含的中文实体数据量较少,如何构建高质量的中文RDF知识库成为目前的研究热点。基于上述背景,本文对基于网络百科构建中文RDF知识库的方法进行了研究,并在以下几个方面开展了工作:1.深入研究了大规模网络百科数据采集技术,分析了数据采集中遇到的具体问题与挑战,结合Spring MVC框架与Scrapy框架构建了一个网络百科数据采集系统,爬取性能稳定且具有良好的人机交互界面。提出了一种代理IP信息自动抽取算法,该方法能够有效抽取代理IP信息,并解决网站的反爬取问题。2.研究了针对网络百科数据实体信息抽取技术,提出了利用RDFS语义信息对抽取数据进行语义标注及RDF数据规范化的方法。研究了RDF数据的图数据库存储方法,开发了基于NEO4J的RDF数据图存储系统,与传统的关系型数据库存储方式进行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据的存储与查询需求。3.深入研究了基于百度百科与互动百科异构数据源构建知识库过程中遇到的实体对齐问题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方法,与传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对齐方法。4.将大规模网络百科数据采集技术、实体信息RDF转化、存储与SPARQL查询技术以及异构数据源实体对齐方法相结合,设计并实现了一个中文网络百科RDF知识库自动构建系统,该系统能够通过配置采集任务,下载网络百科数据,进行实体数据抽取与RDF转化与存储,从而为外部应用提供实体查询与SPARQL查询的功能。
去中心化模武的RDF数据质量评价
这是一篇关于资源描述框架,质量评价,去中心化,区块链的论文, 主要内容为随着语义网技术的不断发展和应用,RDF数据集的应用领域越来越广泛。RDF数据质量关系到一个RDF数据集是否可以提供更好的服务。因此,RDF数据集的质量评价成为了热门课题之一。同时,去中心化模式也在快速发展,其中尤以区块链研究热度更盛。在去中心化模式使用RDF数据集的应用也越来越多。在去中心化模式中各个节点拥有自己的RDF数据集。不同节点数据相互独立,同时各个RDF数据集之间可能拥有关联关系。当前RDF数据集质量评价的研究大部分是针对单个数据集。因此本文深入探讨了在去中心化模式下进行质量评价评估的方法及其意义。本文主要工作分两个部分:一是通过数学建模方法提出了节点质量评价模型以及节点中RDF数据集质量评价模型;二是使用区块链存储质量评价结果,使其具有可追溯性、不可篡改性、实时性等特征。首先,在探讨质量评价模型时,可信性等维度计算方法发生了改变,完整性、垄断性等新的质量评价维度产生。本文介绍并给出了这些维度的量化和实现方法。其次,本文创新性地使用区块链技术存储RDF数据集质量评价结果,其特点如下:(1)不用权威中心发放质量评价证书;(2)防止节点篡改质量评价结果;(3)支持质量结果更新机制。质量评价的更新机制使得质量评价可以反作用于系统的决策。实验结果表明,本文提出的去中心化模式的RDF质量评价方法不仅可以保证RDF质量被认证,并且可以为查询或者其他操作提供参考。本文中的研究为以后去中心化系统知识图谱查询的优化提供了思路,有一定参考价值。
分布式RDF图查询方法研究
这是一篇关于资源描述框架,分布式图划分,分布式查询分解的论文, 主要内容为随着资源描述框架(Resource Description Framework,RDF)成为描述知识图谱、图数据等数据资源的统一描述标准,RDF数据的规模急剧增加。在单机上查询大规模RDF数据性能受限,难以满足用户的需求。因此,分布式处理大规模RDF数据成为研究的热点。分布式处理RDF数据首先面临的挑战是如何合理均衡地将数据分发到各计算节点上。广泛使用的集中式划分所能处理的图数据规模有限,不能处理RDF大图。其次,由于RDF图的强关联性,需要考虑在保证平衡划分的同时提升查询效率,从而高效地查询分布在各节点上的各RDF子图数据。针对集中式划分方法的性能瓶颈,提出一种基于随机游走的分布式图划分方法。首先,该方法通过本地进行分区状态更新,以交换不同分区之间顶点信息的方式代替边的实际转移,减少了划分过程中的通信开销。其次,针对不同的分区访问同一条边时会产生冲突的问题,提出通过计算顶点之间的近似随机游走值来确定边的最佳目标分区的方法,实现对分区的边界的动态调整,提升划分质量。针对查询优化的问题,提出了保证中间结果完整性的查询分解方法及面向中间结果削减的连接处理方法,减少了分布式查询中的网络通信开销,进而缩短查询处理时间。实验表明,基于随机游走的分布式图划分方法拥有良好的可扩展性。相较于已有的RDF划分方法,该算法在数据划分及查询方面都表现出更好的性能。在数据划分方面,在十亿规模的数据上相比其它算法划分速度提升了12.8%,并且数据冗余率不超过145%。在数据查询性能方面,就自动化构建的数据集LUBM而言,综合多个查询的时间与对比划分算法比较减少了5%以上。
中立RDF知识库构建问题研究与应用
这是一篇关于知识库,资源描述框架,网络采集,信息抽取,图数据库,主题特征,实体对齐的论文, 主要内容为互联网上的大数据给人类生活带来了丰富的信息,人们只需要通过关键字进行搜索,就能获取到相关新闻、资料链接。然而,这种通过点击链接的方式使得人类在面对持续增加的海量数据获取知识与信息时变得十分低效。目前互联网上的信息大多以网页的形式进行存储与发布,通过超链接的形式将文档关联起来,这种方式使得人类可以理解文档中的信息,而计算机却难以对文档中的信息进行理解。为了更好地利用互联网产生的大数据资源,国外已有研究机构从英文维基百科中构建了知识库,如FreeBase, DBPedia等。国内的知识库有百度知心、搜狗知立方及清华XLore等。知识库在知识图谱、信息融合及人工智能问答等研究领域具有重要的应用价值。国外的知识库如FreeBase等提供了公开的资源描述框架数据源,但包含的中文实体数据量较少,如何构建高质量的中文RDF知识库成为目前的研究热点。基于上述背景,本文对基于网络百科构建中文RDF知识库的方法进行了研究,并在以下几个方面开展了工作:1.深入研究了大规模网络百科数据采集技术,分析了数据采集中遇到的具体问题与挑战,结合Spring MVC框架与Scrapy框架构建了一个网络百科数据采集系统,爬取性能稳定且具有良好的人机交互界面。提出了一种代理IP信息自动抽取算法,该方法能够有效抽取代理IP信息,并解决网站的反爬取问题。2.研究了针对网络百科数据实体信息抽取技术,提出了利用RDFS语义信息对抽取数据进行语义标注及RDF数据规范化的方法。研究了RDF数据的图数据库存储方法,开发了基于NEO4J的RDF数据图存储系统,与传统的关系型数据库存储方式进行了比较,结果表明本文实现的存储系统能够满足大规模RDF数据的存储与查询需求。3.深入研究了基于百度百科与互动百科异构数据源构建知识库过程中遇到的实体对齐问题,提出了一种基于实体属性信息及上下文主题特征相结合进行实体对齐的方法,与传统的实体对齐方法进行了比较,结果表明本论文提出的方法优于现有实体对齐方法。4.将大规模网络百科数据采集技术、实体信息RDF转化、存储与SPARQL查询技术以及异构数据源实体对齐方法相结合,设计并实现了一个中文网络百科RDF知识库自动构建系统,该系统能够通过配置采集任务,下载网络百科数据,进行实体数据抽取与RDF转化与存储,从而为外部应用提供实体查询与SPARQL查询的功能。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计工坊 ,原文地址:https://m.bishedaima.com/lunwen/56176.html