分享9篇关于大数据存储的计算机专业论文

今天分享的是关于大数据存储的9篇计算机毕业论文范文, 如果你的论文涉及到大数据存储等主题,本文能够帮助到你 影视大数据分析系统中数据存储的关键问题研究与实现 这是一篇关于大数据存储

今天分享的是关于大数据存储的9篇计算机毕业论文范文, 如果你的论文涉及到大数据存储等主题,本文能够帮助到你

影视大数据分析系统中数据存储的关键问题研究与实现

这是一篇关于大数据存储,架构设计,数据分片,集群设计,分布式访问的论文, 主要内容为随着互联网应用的广泛普及,越来越多的应用程序收集了大量的数据,伴随着这些数据的增长,系统的访问量和并发量都在剧烈增加,系统性能问题愈发严重。随着大数据时代到来,无论是传统企业还是新型的互联网企业,都不可避免的面临大数据的挑战。如何廉价的存储和高效的访问海量数据,已经是企业面临的重大难题。本文中所指的影视大数据分析系统是指本人所在实验室设计开发的一个基于SpringMVC + MyBatis框架的Web信息系统,就数据库架构设计而言是一个典型的单机存储系统。随着影视大数据分析系统中业务表越来越多,表中的数据量也越来越大。海量数据的存储与访问对数据库造成了相当大的负载,数据处理能力和访问效率均遭遇瓶颈。本文针对影视大数据快速增长的特点,从分布式数据库的角度出发,探索如何将单机存储系统扩展为分布式存储系统。本文的主要工作集中在以下几个方面:第一,介绍大数据背景和现有的大规模分布式存储系统,对现有的NoSQL数据库进行了分类总结,研究其设计思想。第二,基于MySQL Sharding技术,设计了高效、可扩展的存储架构;提出了分库、水平分表、分区三层拆分模型,综合使用垂直和水平切分等多种解决方案将数据散列到不同的库或关系表中。同时,就ORM框架设计了分布式数据访问层,有效的缓解了对数据库的压力,提高了数据访问效率。第三,分析各节点的数据特点,使用数据库复制技术,设计了高可用的集群方案;解决单点问题,采用Amoeba开源框架实现读写分离和负载均衡。综上,本文从可扩展性,访问效率,并发读写,高可用等多个方面,阐述了大数据存储中面临的关键问题,并提出了相应的解决方案。同时立足影视大数据分析系统,对本文中提到基于分布式关系型数据库的高效存储和访问方案,在实践上予以了验证。

面向微博的用户关系网络挖掘系统的研究与实现

这是一篇关于社团挖掘,分布式爬虫,大数据存储的论文, 主要内容为随着互联网的迅猛发展,社交网络成为人们生活中越来越密不可分的一部分。以新浪微博为代表的社交媒体平台,已逐渐成为人们发表观点、表达思想的重要平台。人们在微博平台中发表内容以及相互关注、点赞、评论和转发的网络行为,刻画了人们在社交媒体中的用户关系网络。因此,用户社团关系网络挖掘,对微博网络管理具有重要意义。本文研究并实现了 一个基于微博用户之间行为特征和内容特征进行社团关系挖掘的系统。相关研究工作如下:1.构建分布式爬虫系统,爬取微博平台中所有用户信息,其中包括个人信息、微博文本、微博点赞、评论和转发以及用户关注和粉丝等结构化和非结构化数据。通过设计合理的数据库表结构,将海量用户数据整理聚合到HBase中。2.基于微博网络中用户发表内容和用户间的交互行为,提出基于深度自编码器的多维度用户关系网络挖掘模型,解决传统社团挖掘模型中仅对使用单一“关注”关系构建的用户关系网络进行社团挖掘问题。其中,在内容维度特征提取中,本文采用基于注意力机制的卷积神经网络CNN模型,解决微博文本篇幅短小等问题,同时从“关注”、“点赞”、“评论”、“转发”四个动作中,对行为维度特征矩阵进行构建。3.基于本文提出的社团挖掘模型,系统采用离线计算和在线计算分离模式,将离线计算定时对采集的用户信息进行社团挖掘,在线计算响应用户请求,快速查询社团挖掘结果,并进行社团内部结构分析后将结果返回至前端系统,前端系统进行可视化展示。为保证在线计算响应时间,本文采用基于MapReduce的用户属性倒排索引+Solr-HBase二级索引结合方式,加快数据检索速度,并采用数据缓存、负载均衡和故障切换技术手段,保证在线计算提供可靠服务。

基于NUMA架构下的LSM-tree的读写优化技术研究

这是一篇关于LSM-tree,ARMv8,Kunpeng920,大数据存储,非统一内存访问(NUMA),多线程管理,双粒度缓存的论文, 主要内容为随着各领域数据量的急速增长和数据类型的日益复杂,以图像、音频、视频等形式的非结构化数据占比逐渐增加,这对键值存储等非关系型数据库的读写性能提出了更高的要求。LSM-tree(Log-Structured Merge-Tree)作为键值存储系统中一种分层、有序、面向磁盘的数据结构,已被广泛应用于各类大数据的场景。目前,基于ARMv8架构的处理器在云计算、AI、5G等领域的使用越来越广泛,逐渐被用来构建高性能、低功耗的新计算平台,如华为的Kunpeng 920处理器被用于Tai Shan服务器。然而,Kunpeng 920处理器中存在内核数目增多、非一致内存访问(NUMA)效应增强的现象,LSM-tree自身也存在着写入阻塞、读取放大等方面的问题,这些问题限制了LSM-tree在Kunpeng 920处理器下的资源利用率和拓展性,进一步影响了存储系统读写方面的性能。面对上述提到的问题,本文针对Kunpeng 920处理器以开源的数据存储引擎Level DB为研究对象展开研究,围绕Level DB的读写流程以及NUMA架构的特点,分析了系统的性能瓶颈,以每个NUMA节点为单位采用多线程管理、缓存优化的思想,使其适应Kunpeng 920处理器这一应用场景。本文主要的研究内容和贡献包括:(1)基于NUMA-Aware的LSM-tree多线程管理策略Kunpeng 920中的NUMA架构使得每个处理器内核访问非自身所在节点的内存时存在延迟,当内存中的资源不充分时,Level DB自身的Arena(内存管理工具)存在分配区域不合理的现象,从而触发跨节点内存访问事件。此外,Level DB在多线程模式下存在写入阻塞问题,无法有效发挥处理器中的多核特性。为了解决这两方面的问题,本文提出了一种基于NUMA-Aware的LSM-tree多线程管理策略。该方案以NUMA节点为单位部署了各自的Mem Table、Immutable Mem Table进行分区写入,设计了自适应的逻辑CPU绑定策略并修改了Arena,提出了实际写入线程和虚拟写入线程(监测负载情况、预先填充Write Batch)相结合的办法来增加内存的使用率及写入效率。实验结果表明,该方案在双Kunpeng 920处理器片上系统中的写入性能随NUMA节点数目的增加而提升,具有良好的扩展性且能够适应不同规模的键值数据,在顺序写方面平均性能提升125.3%,随机写方面平均性能提升14.1%,并且该方案保持几乎相同的读取性能,能够增加内存中的读取命中率。(2)基于NUMA节点的双粒度缓存方案LSM-tree在查找键值数据时需要检查多个SSTable文件而产生多次I/O访问,因此产生读放大问题。传统缓存方案会存在更新失效现象、NUMA架构下的跨Die和跨Chip内存访问事件也会对读性能产生影响。为了解决这些问题,本文提出了基于NUMA节点的双粒度缓存方案。该方案为每个NUMA节点设了Filter Table这一记录SSTable元数据信息的数据结构,并将Level的层级划分为上下两部分,Level 0–Level 2中的SSTable采用Filter Table来分区管理元数据信息,其余Level则通过LRU缓存来记录频繁访问的SSTable信息。Tai Shan2280平台上的实验结果表明,该缓存方案使跨Die跨Chip的读写操作事件分别下降了10.4%和7.3%,随机读取性能提升了13.4%-70.1%,且能适应不同数据规模的键值数据。

基于NUMA架构下的LSM-tree的读写优化技术研究

这是一篇关于LSM-tree,ARMv8,Kunpeng920,大数据存储,非统一内存访问(NUMA),多线程管理,双粒度缓存的论文, 主要内容为随着各领域数据量的急速增长和数据类型的日益复杂,以图像、音频、视频等形式的非结构化数据占比逐渐增加,这对键值存储等非关系型数据库的读写性能提出了更高的要求。LSM-tree(Log-Structured Merge-Tree)作为键值存储系统中一种分层、有序、面向磁盘的数据结构,已被广泛应用于各类大数据的场景。目前,基于ARMv8架构的处理器在云计算、AI、5G等领域的使用越来越广泛,逐渐被用来构建高性能、低功耗的新计算平台,如华为的Kunpeng 920处理器被用于Tai Shan服务器。然而,Kunpeng 920处理器中存在内核数目增多、非一致内存访问(NUMA)效应增强的现象,LSM-tree自身也存在着写入阻塞、读取放大等方面的问题,这些问题限制了LSM-tree在Kunpeng 920处理器下的资源利用率和拓展性,进一步影响了存储系统读写方面的性能。面对上述提到的问题,本文针对Kunpeng 920处理器以开源的数据存储引擎Level DB为研究对象展开研究,围绕Level DB的读写流程以及NUMA架构的特点,分析了系统的性能瓶颈,以每个NUMA节点为单位采用多线程管理、缓存优化的思想,使其适应Kunpeng 920处理器这一应用场景。本文主要的研究内容和贡献包括:(1)基于NUMA-Aware的LSM-tree多线程管理策略Kunpeng 920中的NUMA架构使得每个处理器内核访问非自身所在节点的内存时存在延迟,当内存中的资源不充分时,Level DB自身的Arena(内存管理工具)存在分配区域不合理的现象,从而触发跨节点内存访问事件。此外,Level DB在多线程模式下存在写入阻塞问题,无法有效发挥处理器中的多核特性。为了解决这两方面的问题,本文提出了一种基于NUMA-Aware的LSM-tree多线程管理策略。该方案以NUMA节点为单位部署了各自的Mem Table、Immutable Mem Table进行分区写入,设计了自适应的逻辑CPU绑定策略并修改了Arena,提出了实际写入线程和虚拟写入线程(监测负载情况、预先填充Write Batch)相结合的办法来增加内存的使用率及写入效率。实验结果表明,该方案在双Kunpeng 920处理器片上系统中的写入性能随NUMA节点数目的增加而提升,具有良好的扩展性且能够适应不同规模的键值数据,在顺序写方面平均性能提升125.3%,随机写方面平均性能提升14.1%,并且该方案保持几乎相同的读取性能,能够增加内存中的读取命中率。(2)基于NUMA节点的双粒度缓存方案LSM-tree在查找键值数据时需要检查多个SSTable文件而产生多次I/O访问,因此产生读放大问题。传统缓存方案会存在更新失效现象、NUMA架构下的跨Die和跨Chip内存访问事件也会对读性能产生影响。为了解决这些问题,本文提出了基于NUMA节点的双粒度缓存方案。该方案为每个NUMA节点设了Filter Table这一记录SSTable元数据信息的数据结构,并将Level的层级划分为上下两部分,Level 0–Level 2中的SSTable采用Filter Table来分区管理元数据信息,其余Level则通过LRU缓存来记录频繁访问的SSTable信息。Tai Shan2280平台上的实验结果表明,该缓存方案使跨Die跨Chip的读写操作事件分别下降了10.4%和7.3%,随机读取性能提升了13.4%-70.1%,且能适应不同数据规模的键值数据。

面向微博的用户关系网络挖掘系统的研究与实现

这是一篇关于社团挖掘,分布式爬虫,大数据存储的论文, 主要内容为随着互联网的迅猛发展,社交网络成为人们生活中越来越密不可分的一部分。以新浪微博为代表的社交媒体平台,已逐渐成为人们发表观点、表达思想的重要平台。人们在微博平台中发表内容以及相互关注、点赞、评论和转发的网络行为,刻画了人们在社交媒体中的用户关系网络。因此,用户社团关系网络挖掘,对微博网络管理具有重要意义。本文研究并实现了 一个基于微博用户之间行为特征和内容特征进行社团关系挖掘的系统。相关研究工作如下:1.构建分布式爬虫系统,爬取微博平台中所有用户信息,其中包括个人信息、微博文本、微博点赞、评论和转发以及用户关注和粉丝等结构化和非结构化数据。通过设计合理的数据库表结构,将海量用户数据整理聚合到HBase中。2.基于微博网络中用户发表内容和用户间的交互行为,提出基于深度自编码器的多维度用户关系网络挖掘模型,解决传统社团挖掘模型中仅对使用单一“关注”关系构建的用户关系网络进行社团挖掘问题。其中,在内容维度特征提取中,本文采用基于注意力机制的卷积神经网络CNN模型,解决微博文本篇幅短小等问题,同时从“关注”、“点赞”、“评论”、“转发”四个动作中,对行为维度特征矩阵进行构建。3.基于本文提出的社团挖掘模型,系统采用离线计算和在线计算分离模式,将离线计算定时对采集的用户信息进行社团挖掘,在线计算响应用户请求,快速查询社团挖掘结果,并进行社团内部结构分析后将结果返回至前端系统,前端系统进行可视化展示。为保证在线计算响应时间,本文采用基于MapReduce的用户属性倒排索引+Solr-HBase二级索引结合方式,加快数据检索速度,并采用数据缓存、负载均衡和故障切换技术手段,保证在线计算提供可靠服务。

基于ElasticSearch的车辆大数据存储与检索系统的设计与实现

这是一篇关于ElasticSearch,智能交通,车辆刑侦,大数据检索,大数据存储的论文, 主要内容为在社会经济飞速发展、人民生活水平不断提高的大背景下,我国车辆保有量呈现出井喷式增长的趋势,而且我国现阶段已经全面进入电子信息时代,这意味着车辆数据也在成倍增长。如何把这些车辆数据应用于构建智能交通系统以及车辆刑侦辅助系统成为公安部门不断努力研究的方向。而传统的数据存储与检索方式已经无法满足公安部门对海量车辆数据的分析与处理,现在急需借助大数据技术实现一套功能强大、业务完善的车辆大数据存储与检索系统来辅助公安部门工作。针对分析和处理车辆数据的现状,本文根据公安部门在车辆刑侦方面现有业务的实际需求,调研相关技术文档,借助UML用例图对系统进行了功能性需求和非功能性需求分析,基于B/S架构设计与实现了车辆大数据存储与检索系统,包含车辆检索与分析模块、算法管理模块、用户服务模块和配置管理模块。在系统的设计与实现中,本系统以道路卡口抓拍的过车数据为基础,运用高性能分布式非关系型数据库Hbase技术对数据进行存储,使用消息队列Kafka将数据进行增量同步,再采用分布式检索引擎ElasticSearch来确保数据能被实时高效的检索,最后基于SpringBoot框架搭建web页面,实现了可以对亿级车辆数据进行近实时检索的车辆大数据存储与检索系统。本系统为公安部门提供了轨迹分析、落脚点分析、车流量统计、高峰时段统计、碰撞分析、跟车分析、行政区域过车统计、首次进城、多车同行分析、车辆频次统计、卡口频次统计以及昼伏夜出分析等多种检索与分析算法。系统实现后,本文在实际场景对系统进行了部署和运行,并对已运行的系统做了全面的测试。本文从功能性需求测试入手,保证系统在使用中不存在功能性故障。从非功能性需求测试确保系统的安全性和系统的性能。最后分析测试结果,得出目前系统已完成研发且完全满足业务需求的结论。本系统在实际运用中为公安用户提供了有效的帮助。首先,本系统能全面高效地收集线索,避免人工分析线索造成的警力消耗,缩短案件侦察的时间,提高公安部门工作效率;其次,本系统的统计算法能用于可视化大屏展示,可以更加清晰直观的展示行政区域的交通情况;最后,近实时的车辆数据检索能在警方刑侦时提供准确的辅助,打击车辆犯罪,保证社会长治久安。

基于HDFS数据存储方法研究及其在构建行业大数据平台上的实现

这是一篇关于大数据存储,HDFS,Hadoop,可视化系统的论文, 主要内容为随着大数据、人工智能、云计算等技术的快速发展,电子商务、商业智能、大数据分析等技术的市场化应用,针对于海量数据存储有了较高要求,并随着数据量激增而不断调整。在如今的信息时代,数据随处可见并且逐日递增,往往这些数据来源复杂、存放分散,各应用业务系统也彼此独立,从而形成一个个信息孤岛。为了更好的收集与存储海量数据,确保数据的安全性,同时完善对数据的管理使其在大数据时代能够更好地为企业、社会以及科学研究提供便利,就需要建立一个统一的数据中心。本文以重庆大学大数据与软件学院分布式计算实验室与重庆市中冶赛迪公司合作的大数据平台项目为课题背景,研发了一套能够在行业中广泛应用的大数据平台,并将其部署在Hadoop集群上。该平台主要使用HDFS(Hadoop Distributed File System)存储智慧城市以及智能制造领域产生的海量数据,并通过Sqoop和相关ETL工具完成海量数据的集成以及清洗工作,其次完成可视化系统的开发,最后进行海量数据测试,验证平台的稳定性。本文完成的主要研究工作及取得的最终成果包括:(1)通过对HDFS存储机制以及HDFS高可用机制的研究,对早期解决HDFS中Name Node单点故障问题的方案(元数据备份方案、Secondary Name Node方案、Backup Node方案以及Avatar Node方案)进行描述并比对,对现阶段高可用解决方案进行了详细分析并且提出了优化方案,提出了基于Hadoop2.X改进的高可用方案,并对优化后的方案进行相关主备节点切换测试进行验证。最后为了检验该平台能够在存储海量数据的情况下稳定运行,进行了海量数据测试实验,验证达到预期效果。(2)采用大数据生态组件Sqoop,完成数据迁移,主要完成了数据到HDFS、Hive、HBase的迁移工作,实现各种数据源的整合,便于全局数据分析。(3)采用Kettle对企业中存在的海量数据进行定制化清洗,去除与企业决策无关的数据、脏数据以及噪声数据,具体功能包括残缺数据处理、重复数据处理、数据合并以及数据转换。(4)完成数据的集成以及清洗后,基于HDFS分布式文件系统完成可视化平台的设计与实现。本文的可视化系统主要使用Spring Boot开发框架搭建,主要功能包括单点登录、数据库连接、数据集生成等功能。

区块链监管平台中数据采集子系统的设计与实现

这是一篇关于区块链监管,数据采集,微服务,大数据存储,插件的论文, 主要内容为目前,区块链技术正在飞速发展,区块链的应用场景不断扩大,涵盖了金融、公共服务、信息安全、供应链等领域,搭建在各种区块链上的区块链应用也争相涌现。但是,随着区块链技术的发展和应用场景的扩大,随之而来的各种风险也在产生,比如盗币、洗钱和各种网络犯罪等。区块链技术是一把双刃剑,所以,必须要对其进行监管,才能让区块链技术的应用向着良性的方向发展。区块链的链上数据量十分庞大,如果依赖人工进行手动监管,其成本和效率都是令人难以接受的,所以自动化监管势在必行。想要对区块链和区块链应用进行监管,那么就要根据链上数据来识别风险,所以监管的第一步就是需要从不同链、不同应用上将数据采集回来,以便后续的计算,数据采集子系统就是这重要的第一步。针对以上需求,本文设计并且实现了区块链总监管平台中的数据采集子系统。论文对数据采集子系统,进行了功能需求分析,将系统功能划分为两个功能,包括被监管应用配置信息管理和采集任务管理,详细分析了每个功能的用例,并且提出了系统非功能性需求。给出了数据采集子系统的总体设计。根据微服务架构,将数据采集子系统划分为五个子服务包,并且基于以上划分给出了系统的层次架构,然后进行了关系型数据库和非关系数据库的设计。描述了数据采集子系统的详细设计,根据总体设计中划分的五个子服务,利用时序图、类图、流程图等工具,分别对每个子服务进行的业务流程进行了设计与实现。论文给出了数据采集子系统的功能测试和性能评测的结果,该系统能够根据配置要求定时采集指定区块链应用的数据然后进行大数据存储,并且能够在保证子系统的可用性的前提下,利用插件机制进行少量开发,就能接入新的异构区块链,达到保障系统的可用性以及扩展性的目的。

面向微博的用户关系网络挖掘系统的研究与实现

这是一篇关于社团挖掘,分布式爬虫,大数据存储的论文, 主要内容为随着互联网的迅猛发展,社交网络成为人们生活中越来越密不可分的一部分。以新浪微博为代表的社交媒体平台,已逐渐成为人们发表观点、表达思想的重要平台。人们在微博平台中发表内容以及相互关注、点赞、评论和转发的网络行为,刻画了人们在社交媒体中的用户关系网络。因此,用户社团关系网络挖掘,对微博网络管理具有重要意义。本文研究并实现了 一个基于微博用户之间行为特征和内容特征进行社团关系挖掘的系统。相关研究工作如下:1.构建分布式爬虫系统,爬取微博平台中所有用户信息,其中包括个人信息、微博文本、微博点赞、评论和转发以及用户关注和粉丝等结构化和非结构化数据。通过设计合理的数据库表结构,将海量用户数据整理聚合到HBase中。2.基于微博网络中用户发表内容和用户间的交互行为,提出基于深度自编码器的多维度用户关系网络挖掘模型,解决传统社团挖掘模型中仅对使用单一“关注”关系构建的用户关系网络进行社团挖掘问题。其中,在内容维度特征提取中,本文采用基于注意力机制的卷积神经网络CNN模型,解决微博文本篇幅短小等问题,同时从“关注”、“点赞”、“评论”、“转发”四个动作中,对行为维度特征矩阵进行构建。3.基于本文提出的社团挖掘模型,系统采用离线计算和在线计算分离模式,将离线计算定时对采集的用户信息进行社团挖掘,在线计算响应用户请求,快速查询社团挖掘结果,并进行社团内部结构分析后将结果返回至前端系统,前端系统进行可视化展示。为保证在线计算响应时间,本文采用基于MapReduce的用户属性倒排索引+Solr-HBase二级索引结合方式,加快数据检索速度,并采用数据缓存、负载均衡和故障切换技术手段,保证在线计算提供可靠服务。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码项目助手 ,原文地址:https://m.bishedaima.com/lunwen/50153.html

相关推荐

发表回复

登录后才能评论