开放数据集的质量知识图谱构建与应用研究
这是一篇关于知识图谱,开放数据,数据质量,质量本体,Neo4j的论文, 主要内容为目前,开放数据已经成为各个国家重要的战略资源,我国已经将数据确立为五大生产要素之一。政府所掌握的数据资源已成为国家新的经济增长和社会发展的有力推动力。其中,发挥数据潜在价值,提高数据可用性的一个关键因素是数据质量。我国开放政府数据呈现总量稳步增长、政策法规支持力度加大、数据平台建设逐渐完善的趋势。但是数据质量水平参差不齐,缺乏统一的数据质量评价标准,也没有统一的质量查询搜索方式。知识图谱作为一种新型知识表示方法,不仅可以提供统一的数据质量描述,还可以提供统一的查询方式,实现跨平台的数据集成。同时还能挖掘数据中的潜在关系,解决政府开放数据平台的数据碎片化问题。因此,构建开放数据集的质量知识图谱对于激活政府开放数据的要素潜能、挖掘政府开放数据的要素价值有重要意义。本文的主要工作如下:(1)构建开放数据集的质量评价指标体系。对国内开放政府数据平台中的数据资源进行调查与分析,构建数据集的质量评价框架,将收集到的数据质量问题映射到准确性、一致性等10个数据质量维度,根据数据质量维度定义相应的评价指标。(2)基于七步法构建质量本体。首先构建质量本体的总体结构图;接着复用已有的DCAT等词汇表,定义质量本体的类、属性和关系,并给出本体约束和推理规则;最后用本体建模工具Protégé将质量本体进行可视化表示。(3)构建开放数据集质量知识图谱的数据层。抓取山东省、浙江省等10个地方政府数据平台的教育文化、卫生健康和生态环境领域的1616个数据集,并对其做质量评价;接着对数据进行信息抽取,得到关键词集合;对实例数据集进行知识表示,并将数据集进行实体对齐,在实体对齐的基础上进行相似关系、上下位关系等不同语义关系的融合。(4)基于Neo4j存储构建知识图谱管理系统。将数据层中的数据存储到Neo4j图数据库,生成开放数据集的质量知识图谱;以此为基础,进行知识图谱管理系统的设计;系统不仅实现了数据集的语义搜索、智能推荐等一般功能,还实现了目前开放政府数据平台未实现的数据集质量查询、更改数据质量维度权重等特有功能。
开放数据集的质量知识图谱构建与应用研究
这是一篇关于知识图谱,开放数据,数据质量,质量本体,Neo4j的论文, 主要内容为目前,开放数据已经成为各个国家重要的战略资源,我国已经将数据确立为五大生产要素之一。政府所掌握的数据资源已成为国家新的经济增长和社会发展的有力推动力。其中,发挥数据潜在价值,提高数据可用性的一个关键因素是数据质量。我国开放政府数据呈现总量稳步增长、政策法规支持力度加大、数据平台建设逐渐完善的趋势。但是数据质量水平参差不齐,缺乏统一的数据质量评价标准,也没有统一的质量查询搜索方式。知识图谱作为一种新型知识表示方法,不仅可以提供统一的数据质量描述,还可以提供统一的查询方式,实现跨平台的数据集成。同时还能挖掘数据中的潜在关系,解决政府开放数据平台的数据碎片化问题。因此,构建开放数据集的质量知识图谱对于激活政府开放数据的要素潜能、挖掘政府开放数据的要素价值有重要意义。本文的主要工作如下:(1)构建开放数据集的质量评价指标体系。对国内开放政府数据平台中的数据资源进行调查与分析,构建数据集的质量评价框架,将收集到的数据质量问题映射到准确性、一致性等10个数据质量维度,根据数据质量维度定义相应的评价指标。(2)基于七步法构建质量本体。首先构建质量本体的总体结构图;接着复用已有的DCAT等词汇表,定义质量本体的类、属性和关系,并给出本体约束和推理规则;最后用本体建模工具Protégé将质量本体进行可视化表示。(3)构建开放数据集质量知识图谱的数据层。抓取山东省、浙江省等10个地方政府数据平台的教育文化、卫生健康和生态环境领域的1616个数据集,并对其做质量评价;接着对数据进行信息抽取,得到关键词集合;对实例数据集进行知识表示,并将数据集进行实体对齐,在实体对齐的基础上进行相似关系、上下位关系等不同语义关系的融合。(4)基于Neo4j存储构建知识图谱管理系统。将数据层中的数据存储到Neo4j图数据库,生成开放数据集的质量知识图谱;以此为基础,进行知识图谱管理系统的设计;系统不仅实现了数据集的语义搜索、智能推荐等一般功能,还实现了目前开放政府数据平台未实现的数据集质量查询、更改数据质量维度权重等特有功能。
开放科学数据的通用元数据标准及应用研究
这是一篇关于开放数据,开放科学数据,元数据标准,数据引用,语义标注的论文, 主要内容为近年来,在全球信息化大潮的推动下,越来越多的科研机构致力于开放科学和开放数据的实践工作。科学数据是科研工作中产生的重要资源,也是进行科研成果验证的重要材料。开放科学数据的有效管理可以促进科研水平的提升,进一步推进学术进步。许多国家已经把科学数据作为创新发展和提升国家整体经济能力的重要战略之一。越来越多的研究机构和政府部门通过开放数据平台发布科学数据,在这个过程中,对元数据的管理尤为重要。我国紧跟国际发展趋势,出台了相关的政策文件,以确保科学数据可以被有效管理和使用。目前,我国已建设了不少科学数据存储平台,但是对平台上元数据的管理情况并不理想,存在有未分配标识符、缺乏机器可读的格式以及元数据取值不规范等问题,也未能对平台上的数据集进行语义标注,这妨碍不同领域的开放数据平台上的科学数据的交换共享,也妨碍了社会公众对于科学数据集的搜索和使用。为此,本文的主要研究内容如下:(1)详细调研国外现有的开放科学元数据标准方案以及应用情况,重点对欧盟的多学科研究数据方案、美国的Dataverse、Dryad仓储元数据方案、DATS元数据方案的描述内容及方法进行详细介绍,总结国际上的科学数据元数据方案的发展趋势,提炼出可供我国参考的经验。(2)对我国的科学数据元数据标准及开放数据平台进行调研,发现其中存在的问题,参考元数据在国际上的发展趋势,设计本土化的科学数据通用元数据方案。基于本体模型设计适合我国开放数据平台的通用性科学数据元数据标准模型,并以RDF/XML编码格式进行序列化描述,以数据目录、数据集、数据资源、科学出版物为主要描述对象,对科学数据的元数据项进行详细描述,设计通用的元数据方案。(3)将设计好的元数据方案应用至我国的开放数据平台上,以机器可读的XML、JSON-LD格式对科学数据集进行实例描述,验证其可用性;基于本文设计的通用元数据方案,使用JSON-LD编码格式对开放数据平台上的科学数据集进行语义标注,并将其发布,使其能够被数据集搜索引擎搜索到。本文旨在构建一个本土化的通用型科学数据元数据标准方案,从而能够高效统一地解决我国在科学数据领域对数据进行管理的过程中出现的数据不集中和重复建设等问题,提高数据的可发现性、可获取性进而促进数据的重用,为我国的科学数据元数据标准建设工作提供参考。
开放数据集的质量知识图谱构建与应用研究
这是一篇关于知识图谱,开放数据,数据质量,质量本体,Neo4j的论文, 主要内容为目前,开放数据已经成为各个国家重要的战略资源,我国已经将数据确立为五大生产要素之一。政府所掌握的数据资源已成为国家新的经济增长和社会发展的有力推动力。其中,发挥数据潜在价值,提高数据可用性的一个关键因素是数据质量。我国开放政府数据呈现总量稳步增长、政策法规支持力度加大、数据平台建设逐渐完善的趋势。但是数据质量水平参差不齐,缺乏统一的数据质量评价标准,也没有统一的质量查询搜索方式。知识图谱作为一种新型知识表示方法,不仅可以提供统一的数据质量描述,还可以提供统一的查询方式,实现跨平台的数据集成。同时还能挖掘数据中的潜在关系,解决政府开放数据平台的数据碎片化问题。因此,构建开放数据集的质量知识图谱对于激活政府开放数据的要素潜能、挖掘政府开放数据的要素价值有重要意义。本文的主要工作如下:(1)构建开放数据集的质量评价指标体系。对国内开放政府数据平台中的数据资源进行调查与分析,构建数据集的质量评价框架,将收集到的数据质量问题映射到准确性、一致性等10个数据质量维度,根据数据质量维度定义相应的评价指标。(2)基于七步法构建质量本体。首先构建质量本体的总体结构图;接着复用已有的DCAT等词汇表,定义质量本体的类、属性和关系,并给出本体约束和推理规则;最后用本体建模工具Protégé将质量本体进行可视化表示。(3)构建开放数据集质量知识图谱的数据层。抓取山东省、浙江省等10个地方政府数据平台的教育文化、卫生健康和生态环境领域的1616个数据集,并对其做质量评价;接着对数据进行信息抽取,得到关键词集合;对实例数据集进行知识表示,并将数据集进行实体对齐,在实体对齐的基础上进行相似关系、上下位关系等不同语义关系的融合。(4)基于Neo4j存储构建知识图谱管理系统。将数据层中的数据存储到Neo4j图数据库,生成开放数据集的质量知识图谱;以此为基础,进行知识图谱管理系统的设计;系统不仅实现了数据集的语义搜索、智能推荐等一般功能,还实现了目前开放政府数据平台未实现的数据集质量查询、更改数据质量维度权重等特有功能。
面向数据交易的元数据模型及应用研究
这是一篇关于交易数据,数据交易平台,元数据,语义标注,数据要素,开放数据的论文, 主要内容为数据是当今世界最重要的生产要素之一,我国已经是世界上第一大数据资源国,在《关于构建更加完善的要素市场化配置体制机制的意见》中明确提出“加快培育数据要素市场”后,我国数据经济发展迅速,大数据产业从培育期进入高质量发展时期,各种类型数据交易市场纷纷涌现,截至目前,我国数据交易平台已经超过三十个,数据交易平台之间的数据流动性较差,交易模式混乱,这对用户来说查找和使用数据变得困难,对平台来说,数据的管理和评估也变得很困难。元数据管理对数据交易平台来说至关重要,然而国内外对数据交易的元数据模型的研究还处于初级阶段。在此背景下,本文的主要研究内容如下:(1)国内外数据交易市场调查与对比分析。采用文本调研和实例调研结合的方法,在国外选取Advaneo数据市场、奥地利数据市场、Factual数据交易市场,国内选取京东万象数据交易市场、上海市数据交易中心、天元数据网。总共六个数据交易市场,充分调研他们的交易模式和交易数据的元数据,发现数据交易的元数据模型并不统一,即使在同一个数据交易平台数据交易的元数据模型也会不一样。(2)设计数据交易的元数据模型。在总结调研的六个数据交易平台的基础上,结合数据交易的特点和交易合同,借鉴DCAT词汇表,增加交易合同类、交易信息类、类似资源推荐类和价格类,设计通用的面向数据交易的元数据模型,借助protege本体工具定义类之间的关系,以RDF/XML语法进行序列化描述,以数据集、数据目录、数据资源,交易信息、价格为主要的描述对象,对交易数据的元数据详细描述,设计出数据交易的核心方案。(3)核心元数据方案的的实际应用。将设计好的数据交易的元数据模型应用到天元数据交易网上,对元数据项进行schema.org映射,然后实例化并以机器可读JSON-LD格式对交易数据集描述,验证其可行性。最后基于设计的面向数据交易的元数据模型,使用JSON-LD格式对数据交易平台上的交易数据语义标注,然后发布数据集,并在搜索引擎能够搜索到数据集。本文研究的核心目的是设计一个通用的面向数据交易的元数据模型,能够解决数据交易平台上元数据管理混乱的问题,使数据使用者能够方便快的查找和使用数据。促进数据的流通,为我国数据交易平台上的元数据管理工作提供参考。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://m.bishedaima.com/lunwen/56121.html