5个研究背景和意义示例,教你写计算机大数据可视化论文

今天分享的是关于大数据可视化的5篇计算机毕业论文范文, 如果你的论文涉及到大数据可视化等主题,本文能够帮助到你 基于Spark的情报大数据可视化分析 这是一篇关于Spark

今天分享的是关于大数据可视化的5篇计算机毕业论文范文, 如果你的论文涉及到大数据可视化等主题,本文能够帮助到你

基于Spark的情报大数据可视化分析

这是一篇关于Spark,大数据可视化,社区分析,情报分析,图计算的论文, 主要内容为信息化时代数据量激增,同时由于情报部门等特殊需求部门多年来对信息的积累,存储了大量结构化、半结构化数据,由于受技术水平、创新意识、支撑保障等诸多因素影响,出现不同程度的信息壁垒,信息共享度、利用率不高,如何利用这些情报数据掌握社会动向、分析事态的演化趋势,进而提前预警预测,并为决策者提出决策性的建议,尚有大量知识需要研究。大数据技术经过多年的发展和完善已经趋于成熟,使用大数据技术进行情报分析,可有效的利用数据,为决策者提供可靠的指引。通过对信息的采集、整合并辅以大数据技术,大力推进相关部门的信息化建设。利用Spark运行在内存中的特点,为使用者提供高效的、交互式的查询和计算,快速展现数据内在信息,提高情报机关工作效率。本系统以Spark、Hadoop大数据技术为基础,面向特殊应用信息库、各情报资源信息库等已有数据库或其他多种类型数据文件,辅以GraphX图计算框架、SparkRDD、SparkSQL等工具,进行快速、高效的信息查询和多种图形化展示,并为使用者提供对社区人群的分析、通话分析、人员关联查询等多种功能。本文主要工作内容如下:1、研究情报系统业务模型,以及情报、特殊部门的具体需求分析,研究Spark、Hadoop大数据分析与存储技术、基于J2EE的前端系统、分布式消息系统以及数据清洗和数据库使用等,并设计了情报大数据分析系统的一种实现方法。2、开发前端系统使用J2EE技术架构,搭载Spring、SpringMVC、Mybatis三大框架作为前端展示系统。其中视图层采用FreeMarker、JQuery EasyUI、ECharts等组件提供多种形式、直观的数据展示。使用Oracle数据库,为面端组件、用户名、密码等信息提供持久化服务。3、分布式计算和传输系统开发。前端展示系统通过Apache Kafka集群与Spark集群进行实时交互。Spark集群主要负责对数据进行计算、分析。通过使用Spark RDD、SparkSQL、GrpahX、GraphFrame等工具进行社区发现、重点人员查找、话单分析、人群分析等功能,并将结果通过Kafka集群实时的反馈给前端展示系统。4、数据清洗和导入工作。数据存储采用分布式系统存储,并支持多种数据来源的导入,如关系型数据库、文本文档、CSV文件等。经过数据清洗后统一存放在HDFS系统中。通过Sqoop实现对存储系统定时更新的功能,在固定时间间隔将外部数据导入到存储系统中,保证数据的实时有效性。大数据分析系统通过将分散在不同业务部门的信息通过汇总、提取、计算实现了部门之间的信息交换,打破信息壁垒,并提供高效、直观、多样的数据可视化处理,为情报机关工作效率和能力的提高发挥积极作用。

面向流式数据的工业质量数据分析平台

这是一篇关于实时计算,流式数据,大数据可视化,质量数据,数据分析的论文, 主要内容为大数据处理技术是当代信息技术领域的重要发展方向之一,随着大数据相关技术的不断发展与应用,实时计算领域越来越被关注。以Hadoop为代表的基于MapReduce计算框架的大数据处理技术往往是通过批处理方式对历史数据进行分析,而实时计算领域则强调的是对瞬时数据进行在线处理。另一方面,传统工业企业产品在生产过程中,无时无刻不在产生着海量的数据,典型的如工业设备传感器数据等。这些数据的特征是连续、无限增长、无序,并且需要实时响应,被称为流式数据。工业企业在面对这些海量的流式数据时,主要有以下三点问题:1)无法解决海量流式数据的大规模存储问题;2)像对待普通数据一样处理流式数据,无法发挥流式数据实时性的特点;3)传统的技术架构无法对流式数据进行更高维度的分析,不能应用机器学习模型等新兴技术手段去分析处理。显然,以传统的数据分析处理方法并不能对流式数据进行有效的分析及存储。如何去挖掘工业质量流式数据更深层次的价值,对这些质量数据进行各个维度的分析,并且以可视化的形式动态展现给普通用户,是本文研究的主要目的。基于本课题(面向工业企业的质量大数据分析云服务平台)的实际研究背景与需求,本文从一个相对通用的、高可用的实时流式数据处理框架的设计出发,将整个质量数据分析平台细分为以下四个关键模块:1)数据采集模块;2)流式数据实时处理模块;3)数据存储模块;4)大数据可视化模块。总体来说,本文的主要研究贡献有如下三点:1)针对工业质量流式数据的产生场景及特点,以Apache Flume为基础,完成对工业质量数据的实时采集的设计及实现。2)在Spark集群的基础上设计并且实现了一套相对通用的、高可用的实时流式数据处理框架,并且能够在该框架的基础上应用Spark Sql与Spark mlib完成对流式数据的结构化查询以及机器学习模型的应用,使框架具有良好的可扩展性。3)将前后端分离架构应用于大数据可视化模块,使前端项目可以专注于流式数据的响应式展现,达到实时流式数据处理的可视化需求。后端项目可以在基于RESTFUL风格的基础上实现微服务化架构,实现高可用、高并发、低耦合的数据可视化模块。本文从质量数据分析平台的总体设计出发,在各个模块的具体设计与实现上给出了相应的介绍。在某钢厂1580热轧生产线设备产生的真实数据的基础上,完成整个实时流式数据处理流程的构建。

基于Spark的工程机械设备监测大数据平台研究

这是一篇关于数据倾斜,分布式计算,分布式存储,大数据可视化,组件库的论文, 主要内容为在机械设备大数据计算中,数据倾斜一直都是最棘手的问题之一。目前企业拥有机械设备数据的种类和数据结构十分复杂,传统关系型数据库难以很好支持对半结构化和非结构化的数据的存储。并且传统定制式的机械设备数据可视化方式耗时多且对操作人员专业性要求高。除此之外,K-Means聚类算法严重依赖初始中心的确定,高斯混合聚类算法依赖数据样本的分布,难以稳定的对机械设备调度维修中心完成聚类。针对以上问题,本文完成了以下研究:(1)本文提出了一种分类处理的数据倾斜解决算法分类均衡法(Classification Balance Method,CFBM)。首先在抽样统计判别法(Sampling Statistics Discrimination Method,SSDM)的基础上提出了抽样统计抽取法(Sampling Statistics Extraction Method,SSEM),然后根据Spark程序发生倾斜的原因和常用的数据操作算子,将Spark数据倾斜分成五类并使用上述定义的两个方法对其进行判定。针对五类问题,提出数据倾斜的解决方法CFBM算法,该算法针对五类数据倾斜问题分别提出相应的解决方法。最后在某集团的数据集上对CFBM算法进行实验测试,实验结果表明,CFBM算法对于倾斜度严重的数据集有较好的优化效果。(2)本文基于K-Means算法和高斯混合算法GMM提出了面向工程机械设备调度的混合判定聚类算法(Hybrid Decision Clustering Algorithm,HDCA)。首先该算法以K-Means算法和GMM算法聚类的两个结果集为基础,通过计算两个结果集各类别之间的匹配度,划分并确定HDCA算法聚类类别的分布;再根据两类传统聚类算法数据判定的一致性,将数据样本划分为确定性数据和争议数据;然后通过确定性数据确定各类别的中心点,再通过距离判定法将争议数据进行类别划分。最后对HDCA算法进行了正确率对比实验,实验结果表明HDCA算法的正确率远高于两种传统聚类算法,同时略优于其他研究者所研究的算法。(3)设计实现了可视化网页组件库,以组件库为核心实现了一个可定制大数据平台,并以该平台为依托实现了工程机械设备大数据监测业务。本文将构成网页的所有元素进行了提取和归类,将其分为常规图表、地图、辅助图片、文字、媒体和自定义组件等六大类,六大类中又根据各元素属性的不同分为若干小类。组件库采用类似于Vue框架的MVVM模型架构,通过监听的方式实现组件显示、组件状态树和组件参数配置模块三者之间数据的实时同步。本文还以Hadoop作为数据存储支撑,以Spark分布式计算引擎作为计算基础,以Vue前端框架作为技术支撑实现了一个可定制大数据平台,并通过该平台实现工程机械设备大数据监测业务的数据展示。

涉诉信访处理效果评估与舆情监测系统的设计与实现

这是一篇关于涉诉信访,处理效果评估,舆情监测,大数据可视化,人工智能的论文, 主要内容为在智能化时代浪潮下,大数据和人工智能技术的应用快速发展,最高人民法院明确强调要提高涉诉信访系统的智能化水平。传统的涉诉信访系统在数据管理和共享上取得了显著成效,但在智能化处置技术上还明显不足,又尤其是在涉诉信访处理效果量化评估和相关舆情监控方面还存在缺失。国家重点研发计划“多源涉诉信访智能处置技术研究”的启动促进涉诉信访系统的智能化改革,对涉诉信访的处理效果评估和舆情监控提出了新的要求。本文在调研重庆市高级人民法院现有系统的问题与不足基础上,分别使用集成学习算法、混合神经网络模型进行处理效果评估和舆情新闻文本分类,采用分布式爬虫框架和大数据计算存储框架对涉诉信访数据和网络舆情数据进行分析处理和可视化展示。研发涉诉信访处理效果评估与舆情监测系统,是大数据和人工智能在法律行业跨领域的应用创新,能使法院智能化评估处理效果和重点关注相关舆情,数据可视化能更高效地展示数据内涵。该系统为法院指导涉诉信访工作起到支撑作用,更好满足信访工作的实际需求。论文主要工作包括:(1)调查分析当前已有系统存在的问题,并研究大数据和人工智能技术在司法领域的应用现状。(2)对系统研发使用的相关技术简介,包括大数据技术、前后端框架、数据采集、自然语言处理和集成学习等等。(3)分析涉诉信访案件和舆情新闻数据集的特点。提出基于随机森林特征筛选的XGBoost处理效果评估算法和基于混合神经网络模型的舆情新闻文本分类算法,实验结果证明所提方法的有效性。(4)对系统功能性需求和非功能性需求进行分析,完成系统的整体架构设计、流程设计、功能模块设计和数据库设计。(5)根据设计方案搭建数据仓库,实现对涉诉信访和舆情数据存储、分析和可视化,实现处理效果评估、舆情新闻分类、报告生成、数据可视化界面和后台管理模块等功能,最后针对系统的不足提出改进意见。本文的研究表明,该系统结合大数据和人工智能技术能改进法院在智能化评估和数据可视化的不足,提高数据利用效率,服务法院决策并指导信访工作,已在重庆市五家法院示范应用,并取得较好的应用效果。

基于Spark的工程机械设备监测大数据平台研究

这是一篇关于数据倾斜,分布式计算,分布式存储,大数据可视化,组件库的论文, 主要内容为在机械设备大数据计算中,数据倾斜一直都是最棘手的问题之一。目前企业拥有机械设备数据的种类和数据结构十分复杂,传统关系型数据库难以很好支持对半结构化和非结构化的数据的存储。并且传统定制式的机械设备数据可视化方式耗时多且对操作人员专业性要求高。除此之外,K-Means聚类算法严重依赖初始中心的确定,高斯混合聚类算法依赖数据样本的分布,难以稳定的对机械设备调度维修中心完成聚类。针对以上问题,本文完成了以下研究:(1)本文提出了一种分类处理的数据倾斜解决算法分类均衡法(Classification Balance Method,CFBM)。首先在抽样统计判别法(Sampling Statistics Discrimination Method,SSDM)的基础上提出了抽样统计抽取法(Sampling Statistics Extraction Method,SSEM),然后根据Spark程序发生倾斜的原因和常用的数据操作算子,将Spark数据倾斜分成五类并使用上述定义的两个方法对其进行判定。针对五类问题,提出数据倾斜的解决方法CFBM算法,该算法针对五类数据倾斜问题分别提出相应的解决方法。最后在某集团的数据集上对CFBM算法进行实验测试,实验结果表明,CFBM算法对于倾斜度严重的数据集有较好的优化效果。(2)本文基于K-Means算法和高斯混合算法GMM提出了面向工程机械设备调度的混合判定聚类算法(Hybrid Decision Clustering Algorithm,HDCA)。首先该算法以K-Means算法和GMM算法聚类的两个结果集为基础,通过计算两个结果集各类别之间的匹配度,划分并确定HDCA算法聚类类别的分布;再根据两类传统聚类算法数据判定的一致性,将数据样本划分为确定性数据和争议数据;然后通过确定性数据确定各类别的中心点,再通过距离判定法将争议数据进行类别划分。最后对HDCA算法进行了正确率对比实验,实验结果表明HDCA算法的正确率远高于两种传统聚类算法,同时略优于其他研究者所研究的算法。(3)设计实现了可视化网页组件库,以组件库为核心实现了一个可定制大数据平台,并以该平台为依托实现了工程机械设备大数据监测业务。本文将构成网页的所有元素进行了提取和归类,将其分为常规图表、地图、辅助图片、文字、媒体和自定义组件等六大类,六大类中又根据各元素属性的不同分为若干小类。组件库采用类似于Vue框架的MVVM模型架构,通过监听的方式实现组件显示、组件状态树和组件参数配置模块三者之间数据的实时同步。本文还以Hadoop作为数据存储支撑,以Spark分布式计算引擎作为计算基础,以Vue前端框架作为技术支撑实现了一个可定制大数据平台,并通过该平台实现工程机械设备大数据监测业务的数据展示。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码驿站 ,原文地址:https://m.bishedaima.com/lunwen/50705.html

相关推荐

发表回复

登录后才能评论