5个研究背景和意义示例,教你写计算机半结构化数据论文

今天分享的是关于半结构化数据的5篇计算机毕业论文范文, 如果你的论文涉及到半结构化数据等主题,本文能够帮助到你

半结构化数据蕴涵规则提取方法的研究

这是一篇关于半结构化数据,蕴涵规则,规则提取,并行计算,数据分析的论文, 主要内容为半结构化数据是相对结构化数据而言的,是伴随着互联网应用产生的一种新的数据形式,它广泛存在于各大社交网络平台和电商平台中。在大数据环境下,半结构化数据的数据规模、生长速度和广度都远远超过结构化数据,呈现出快速增长和发展的势头。蕴涵关系是探求对象之间蕴涵特性的一种描述形式,蕴涵规则是描述蕴涵关系的一种知识表示形式,也是经典逻辑和近似推理中的主要推理形式。对半结构化数据中的互联网商务、消费数据提取蕴涵规则,能够为企业、商家和消费者的分析和决策提供参考。因而,对半结构化数据蕴涵规则提取方法的研究具有理论意义和实际应用前景。针对半结构化静态数据的蕴涵规则提取问题,给出两种规则提取方法。第一种方法是将半结构化数据转化为结构化数据,应用数据转换方法和遗传算法,给出半结构化静态数据蕴涵规则的提取过程,提出了半结构化静态数据蕴涵规则提取算法SDIR,应用网络爬虫工具爬取大众点评网数据,并完成将半结构化静态数据向结构化数据的转换及数据预处理,提取数据的蕴涵规则,实验验证了算法有效性。第二种方法是基于XQuery查询语言直接对网页中的半结构化数据进行蕴涵规则提取,根据SDST概念提出了基于XQuery查询语言的改进Apriori算法,实现了对复杂不规则多个网页半结构化数据的蕴涵规则提取,通过在模拟交易数据集上的测试,仿真实验验证了算法的有效性。针对半结构化动态数据的蕴涵规则提取问题,引入蕴涵强度向量度量,与支持度向量、置信度向量共同反应蕴涵规则随时间变化的动态性,提出了基于划分的并行动态半结构化数据蕴涵规则提取算法,通过三台计算机搭建Hadoop并行计算环境,设计并行计算的MapReduce函数,将该算法在Hadoop平台应用MapReduce进行并行计算,提高算法的运行效率,通过实验验证了算法的有效性。将半结构化数据蕴涵规则提取方法应用于淘宝客户交易数据的分析,数据来自厦门大学数据库实验室开发团队爬取的淘宝2015年6月至11月的客户交易数据。首先对数据进行预处理操作,然后提取数据的关联规则和蕴涵规则,提取关联规则是为了获得频繁项集,使得提取的蕴涵规则有更大的应用范围,最后分析提取数据的关联规则和蕴涵规则,为商家提供参考决策。

区块链上半结构化数据存储方法的研究与应用

这是一篇关于区块链,半结构化数据,XML数据,默克尔树,模型映射的论文, 主要内容为区块链因具有去中心化、不可篡改、可追溯等特点被广泛应用于知识产权保护、数据共享等领域,解决了传统数据库在数据存储和管理方面存在的安全性问题。但现有的区块链数据存储优化研究大多以规范的结构化数据为主,对于结构多变的半结构化数据的研究较少。当前,半结构化数据如XML、JSON等格式的数据应用范围不断扩大,研究如何将它们上链进行安全存储具有重要意义。本文以XML数据作为研究对象,研究半结构化数据在区块链上的存储方法。首先对XML数据进行关系映射,提出一种基于模型映射的存储方法,然后为了进一步提升区块链上XML数据的检索效率,依据映射后的关系表对区块结构进行改进,并将映射后的关系表上链存储,最后根据提出的存储方法设计实现了一个基于联盟链的论文投稿系统。主要的研究内容如下:(1)提出一种基于模型映射的存储方法对XML数据进行关系映射。该方法将XML文档数据表示为XML文档树,根据树中各节点的类型及结构关系设计了4个关系表{file,path,innernode,data}作为XML文档数据的映射模式,将XML文档数据映射到关系数据库,利用关系数据库技术对XML数据进行存储和管理。(2)根据映射后生成的关系表对区块结构进行改进。针对XML文档映射后生成的关系表对传统区块结构进行改进,提出了基于默克尔树的X-BM结构。首先利用file表中的XML文档ID作为元素构建平衡二叉树;其次,从平衡二叉树的叶子节点自底向上遍历所有节点,将相邻节两点进行哈希运算得到其父结点的哈希值,同时保存合并范围内的所有XML文档的ID的最大值和最小值,并记录该位置在平衡二叉树中映射地址和由XML文档关键词生成的布隆过滤器,重复这个过程直至生成X-BM树根;最后基于该结构提出了XML文档ID的查询算法和XML文档关键词的查询算法。通过与传统索引结构及查询方法进行对比,证明了该方法的有效性。(3)基于提出的存储方法,本文设计实现了基于联盟链的论文投稿系统。稿件资料以半结构化数据的形式上传至联盟链平台进行审稿,同时对审稿数据进行存储,使得链上数据具有不可篡改和可追溯的特点。最后对系统进行测试,证明了本文提出方法的可用性和实用性,对发表前的学术成果保护有重要意义。

档案系统中半结构化数据重复录入侦测技术研究

这是一篇关于半结构化数据,重复录入,侦测技术的论文, 主要内容为随着计算机的日益普及以及互联网技术的不断更新,电子档案的应用优势逐渐突出,越来越多的企业选择使用计算机实现对档案信息的录入和储存,这样不仅可以避免数据丢失,而且还能实现对数据的高效化管理。但是,随着数据信息复杂度的逐渐增加,在对数据进行录入存储时,就给数据的重复录入埋下了相应的安全隐患。倘若不做好数据录入之前的侦测工作,就会给数据库的运行造成负担。本文在研究过程中,运用vue.js框架设计与开发了档案录入管理系统,该系统具备数据信息规范化录入、查看、多条件搜索等多种功能,并对不同的人员设置了不同的使用权限,保障了数据存储的安全性。但是当录入数据时,为了避免重复性数据的录入,只对档案名称进行了唯一性限制,即:只要与档案同名的都不准予录入,这样就增大了恶意性重复数据的录入。而数据在录入之前,为了避免出现错录、漏录以及重录的情况,需要对半结构化数据进行解析与判重,故就将问题归结为半结构化数据重复录入问题的研究。在解决问题时,运用案例分析法、文献分析法以及比较归纳法,对档案录入管理系统的录入方式进行了创新,构建了一种基于权重分析法的相似度判定模型,提出了半结构化数据重复录入侦测技术。该种方法不再采用对档案名称的唯一性限制,而是实现了对档案记录名称和档案记录内容的双重侦测,使得数据判重更加全面化。通过与传统判重算法的比较,不仅提升了数据的录入率,而且还降低了数据的重复率,有效的提升了数据的录入质量,减轻了数据库的运行负担。

CMM15模型下可配置的TMS系统的设计与实现

这是一篇关于TMS系统,半结构化数据,可配置,工作流,CMMI,ORM的论文, 主要内容为随着中国软件行业的迅猛发展,以及中国办公自动化进程对软件开发行业的推动,越来越多的软件企业致力于软件产品研发和软件外包服务。然而如何通过提升软件企业自身的价值来赢得客户的信赖与选择无疑将是所有软件开发型企业的生存难题。CMMI的出现为软件开发的质量控制、风险控制和成本控制提供了一套完整的管理模型,并且也得到了广大软件用户的高度认可。因此在软件企业的市场竞争中,软件企业本身的管理水平获得CMMI高级认证,甚至实现CMMI5定义的可持续优化特性,将使企业的认可度走在同行的的前列。并且能够拥有一套适合企业自身的、能够契合CMMI管理理念的、灵活的、可配置的管理系统,更是提高软件开发企业竞争力的重要砝码。本文首先调研了CMMI,并且分析了中国软件行业的现状以及遇到的问题,明确了应用TMS (Ticket Management System)系统作为项目管理系统在整个软件企业管理系统中的核心地位。在此基础上,分析了CMMI5模型下可配置TMS系统的总体技术框架、架构设计以及系统模块划分。通过轻量级成熟的JavaEE开发框架Struts2+Spring+Hibernate,其它的ORM技术,以及半结构化数据存储技术的使用,结合企业实际情况,对整个TMS系统进行分析、设计与实现。其中重点讨论了整套系统的软件结构、TMS工作流管理与报表模块以及TMS配置模块的半结构化数据在数据库中存储的解决方案等。通过系统的实现和应用,验证了设计的TMS的可行性。