6篇关于大数据处理的计算机毕业论文

今天分享的是关于大数据处理的6篇计算机毕业论文范文, 如果你的论文涉及到大数据处理等主题,本文能够帮助到你

基于JSP的物资管理系统的设计与实现

这是一篇关于物资管理,NOSQL,JAVA,大数据处理,HTML5的论文, 主要内容为当前人类生活在一个科技的社会中,软件技术正在改变着人们的生活,从腾讯QQ、阿里巴巴的淘宝网、支付宝钱包、团购网站以及IOS、安卓等移动操作系统的问世,人们的工作和生活无时无刻都在使用着高科技软件设备。既然这样,那么针对一些企业级办公需要的软件系统的需求也在逐渐扩大。这也是物资管理系统产生的前提条件。物资管理系统就是为了实现企业科学化的管理物资库存情况,降低人工管理的错误率,增强物资库存量反馈的速度。目前很多的物资管理系统产品,比如《中商融通物资管理系统》,《维克仓库物资管理软件》,这些物资类管理系统的设计年限较早,对于整个的企业业务流程把握的比较好,能够很好的覆盖整个的企业软件处理流程。可是最近几年随着软件开发技术的不断创新和发展,新的软件开发技术层出不穷,比如Spring MVC的注解开发就减少了很多配置文件的开发量,Hibernate3对数据库持久化的支持增加了数据库的访问速度,移动应用技术3G/4G网络的建设,数据可视化等新技术的出现,这些都正在改变人们的生活。所以,之前的一些物资类管理系统的软件产品已经不能满足现在企业的管理需求,更新一级的物资管理系统等待着创新和问世。为了追逐科技的发展和企业单位对于物资管理更现代化的要求,需要设计和实现基于JSP的物资管理系统。系统将采用J2EE、 HTML5和NOSQL来进行设计和实现,首先J2EE强大的企业级框架能够完美的处理企业所需的业务逻辑,并且支持跨平台运行。其次HTML5是目前最先进的页面展示技术、支持JSTL、 EL等JAVA语言编程,界面风格完美展示,能满足各种企业的不同需求。最后ORACLE(甲骨文)数据库是目前最流行的关系型数据库,它具有数据库内部执行编码的能力,支持存储过程编程,可以最大化提升代码对数据库的访问速度,减少Hibernate持久化层的压力,加强数据库的运行能力。本管理系统同时支持台式机,笔记本等不同终端设备的接入,满足用户不同场景下的数据需要,在覆盖业务逻辑的同时,注重提高用户的体验度。系统的特色包括 1、利用Spring MVC技术实现后台逻辑处理。 2、引入JSP技术开发VIEW显示层. 3、利用Extjs的gridTable插件进行图形报表开发。 4、引入Extjs的UI库进行表示层开发。 5、采用Oracle数据库对数据进行持久化。 6、采用目前最先进的统一管理原则对系统进行设计。

基于Hadoop的分布式计算平台性能监控及分析

这是一篇关于大数据处理,平台监控,性能调优,MapReduce时间预测的论文, 主要内容为随着计算机技术与移动互联网技术的蓬勃发展,我们已经进入了一个数据量爆炸性增长的年代。社交网络、电商交易、互联网金融、生物健康等等这些各行各业的社会活动正在源源不断的产生大量的结构复杂的数据资源。人们希望能够从这些大量的与用户行为密切相关的数据资源中得到有用的信息,从而改善人们的生活方式,提升生活品质。在如此强烈的市场需求下,Hadoop作为一种先进的大数据处理工具,已经逐渐被应用于各个领域,帮助企业完成各类的大数据处理需求。然而,随着集群规模的增长,如何高效的管理Hadoop集群,保证集群稳定运转,提升集群的性能表现,已经成为众多Hadoop用户所面临的一个大问题。本文首先介绍了Hadoop的基本概念,对当前主要的分布式监控系统以及Hadoop监控技术进行了概述,详细介绍了Hadoop分布式计算平台监控系统的功能需求,架构设计以及关键技术核心。然后,本文针对几个典型的MapReduce测试应用,分析了不同类别的MapReduce作业的资源消耗模式,提出了对应的性能优化措施,以帮助用户提高MapReduce’性能,提升集群的资源使用效率。最后,在性能调优的基础上,本文提出了MapReduce作业的时间预测模型。通过该模型,用户可以预先在小的测试数据集上运行目标作业,通过分析作业的输出日志,得到作业的性能标识向量,进而实现对大的数据集上作业运行时间的预估。

基于Zookeeper的大数据处理调度系统的设计与实现

这是一篇关于大数据处理,任务调度,分布式系统,Zookeeper,有向无环图的论文, 主要内容为随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow的调度系统利用了有向无环图的概念来构建工作流,但是因为其构建需要通过编程来实现,又形成了较高的使用门槛。针对以上大数据处理任务调度中的问题,以及考虑到实习公司在数据处理中调度规模的使用情况,单工作流可包含上百个任务,日均调度量十万级,因此,设计并实现了一款任务调度系统。采用多Master多Worker分布式系统架构,创建工作流时采用了可视化有向无环图的方式,这两个特点分别能够大幅缩短数据处理的用时以及降低使用门槛。此分布式系统基于分布式协调框架Zookeeper构建,实现了高可用性,保证在系统内,部分组件失效时仍然能够执行任务。由于许多场景下数据处理需要定时进行,因此基于Quartz实现了对定时任务的支持。任务调度系统的Web前后端分别是基于Spring Boot框架以及Vue.js前端框架实现,实现了对工作流的管理以及对任务执行日志的查看功能,为运维工程师和应用开发者提供了易于使用的交互界面。任务调度系统在实现对数据处理任务进行调度的基础上,吸取了分布式系统的可扩展性优势,以及采用可视化图模型的表达力和表现力强的优势,使得用户可以更容易的对大数据任务处理进行调度,满足了实习公司在对海量数据进行处理时,对调度系统的功能和性能需求。

基于大数据的销售线索推荐系统的设计与实现

这是一篇关于销售线索,推荐系统,大数据处理,相似度计算的论文, 主要内容为近些年,传统的B2B企业面对“互联网+”这一新形态时摩拳擦掌,但是企业与企业之间的数字化的程度却迥然不同。对于企业命脉生死攸关的销售部来说,同样也面临着行业竞争异常激烈、开发新客户难度日益增加以及获取新客户的成本水涨船高的问题。针对上述问题,基于大数据技术,结合企业特有数据,在保证系统兼容性的前提下,设计并实现一个具有易用性、高响应性以及高精确性的销售线索推荐系统。销售线索推荐系统基于BI大数据平台,主要分为两个部分。一个部分负责海量数据的存储与推荐计算,另一个部分负责系统的数据展示以及业务处理。对于第一部分,利用Scrapy爬虫技术采集垂直行业特有数据,使用Hadoop的HDFS分布式文件系统存储包括业务数据、工商数据、爬虫数据以及其他数据在内的海量数据,结合Flume、Sqoop以及Hive等技术对数据进行ETL处理后入库,通过Spark SQL、Spark MLlib结合Jieba分词进行相似度计算之后得到销售线索,最后将任务放在Azkaban任务调度器上进行任务的调度更新。对于第二个部分,使用Spring Boot和Mybatis框架技术对后台部分进行代码编写和逻辑处理,利用My SQL、Postgre SQL等关系型数据库存储用户信息、客户信息以及线索信息等数据,Redis非关系型数据库提升特殊业务数据处理速度,结合Vue开源框架实现的前端页面进行数据的展示、页面交互与业务处理。由于任务调度策略以及客户的新增会导致推荐线索的计算不及时,因此采用Elasticsearch进行数据的检索以便于新增客户的临时推荐。目前线索推荐系统已经内部测试上线。经过验证,可以较为精准的命中相似线索,解决了销售人员找线索困难的问题。真正意义上打破了传统B2B行业通过传统人工手段寻找潜在客户的局面,实现了销售人员的找线索自由。

基于大数据的销售线索推荐系统的设计与实现

智慧交通车流量大数据采集与分析系统的设计与实现

这是一篇关于智慧交通,蜂窝网络,成功概率,大数据处理,系统研发的论文, 主要内容为随着城市道路车流量的迅速增长和某些交通规划与管理经验上的不足,交通拥堵、交通肇事、环境污染等问题日益严峻。因此,能够实时了解交通路况并合理规划交通路线对解决上述问题显得尤为关键。目前,百度地图、高德地图等导航软件虽然能够做到实时的路况显示,但自身角色定位问题导致其能够提供的功能相对单一;此外,海量行车数据采集到后台系统造成存储设备的经济损耗和数据分析处理的技术制约,同样需要新的技术思路与手段予以解决。基于上述情形,本文利用了蜂窝网络在车载系统与基站互联方面的积极作用,意图借助蜂窝网络下基站与车载系统的信息交互以达到对行车数据采集的目的。然而,当对多个基站采集的行车数据进行汇总处理时,移动车辆可能与蜂窝网络中的多个基站产生信息交互,这就产生了数据传输可靠性、数据冗余和一致性问题等。综上,本文设计并开发了智慧交通车流量大数据采集与分析系统,研究基于蜂窝网络的链路传输成功概率理论,将其作为数据筛选条件并应用于车流量数据采集与预处理阶段,接着利用大数据技术完成数据处理并实现可视化操作。具体研究工作如下:1.提出了干扰信号是限制网络性能的主要因素,以蜂窝网络为模型设计了一种易于处理的SINR分析框架。依据随机几何数学理论推导出干扰信号信道衰减增益服从无干扰、指数衰落、Rayleigh衰落下链路传输成功概率的精确表达式。在此基础上,通过仿真模拟,分析了几种系统参数对成功概率的影响,并对比了成功概率与区域频谱面积在几种干扰环境下的结果。与传统蜂窝网络SINR分析方法相比,该方法无需划分网格并降低了计算的复杂度,改善了蜂窝网络的性能。2.设计了分布式车流量大数据采集与分析核心引擎,基于Apache Hadoop、Apache Spark及其相关生态圈组件技术,解决了引擎整体技术架构设计和数据采集、清洗、存储、离线与实时计算等技术问题。其中,以链路传输成功概率为系统数据采集模块中的数据筛选提供了理论基础,解决了数据的冗余和一致性问题;以HDFS和HBase解决了海量数据分布式存储问题;以MapReduce计算框架实现了数据清洗解决方案;以Spark SQL和Spark Streaming设计了离线和实时大数据处理功能组件。3.介绍了本文系统的详细实现过程,首先进行了系统需求分析、功能架构设计、数据库设计;接着以Spring boot、Layui和ECharts技术开发了 Web端可视化系统操作界面,对系统各功能模块进行图形化展现;最后利用第三方软件构建了完善的集群性能监控系统,并通过对比实验证明了本文系统集群的可行性和良好的计算性能。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：代码项目助手，原文地址：https://m.bishedaima.com/lunwen/45483.html