5个研究背景和意义示例,教你写计算机SparkStreaming论文

今天分享的是关于SparkStreaming的5篇计算机毕业论文范文, 如果你的论文涉及到SparkStreaming等主题,本文能够帮助到你

煤矿皮带系统指标流式计算与Shuffle调优算法研究

这是一篇关于分布式系统,流式计算,一致性Hash,SparkStreaming,Kafka的论文, 主要内容为近年来,随着煤矿信息化程度的提高,采、掘、提、运、通等系统设备在生产过程中产生了海量的安全生产管控数据与经营管理数据,在智慧矿山的时代背景下,构建合适的煤矿大数据流式计算平台,挖掘数据内部价值,实现安全生产设备各个绩效指标的流式计算与分析,为煤矿精益化管理提供决策支持,以此探寻有效的降本增效运营模式,对煤矿企业发展具有重要的意义。论文以陕西黄陵双龙矿皮带系统为研究对象,提出了主煤流运输设备指标的流式计算系统,该系统采用Kafka框架完成煤矿皮带系统数据的监听功能,基于Spark Streaming实现了皮带系统报警数据指标、OEE、运力及能耗指标、绩效指标和可靠性指标的流式计算。基于现场的运行数据,实现了指标流式计算结果的可视化。在Spark Streaming计算过程中,针对数据重组(Shuffle)阶段出现数据倾斜,导致集群计算效率降低,提出了基于一致性Hash算法的自定义分区器。测试结果表明,该自定义分区器对Key分布不均的数据进行10个批次的计算,其中数据倾斜批次的计算平均用时较HashPartitioner减少22.9s。耗时Z分数对比证明集群在调用该分区器后,数据倾斜不再是影响计算用时的主要因素。本文所提出的基于一致性Hash算法的自定义分区器可以优化Spark计算中出现的数据倾斜问题,集群面对倾斜数据任务时计算效率提升达16.64%。论文将Kafka、Spark Streaming、SSM等技术相结合,以陕西黄陵双龙煤矿皮带系统为例,建立了一套基于煤矿皮带系统指标流式计算系统,其计算结果可以为煤矿皮带系统设备精益化管理提供数据及决策支持,提高煤矿皮带系统综合效率。研究成果可为陕西黄陵双龙煤矿智慧矿山建设及企业精益管理提供一定的参考价值。

基于SparkStreaming的实时路桥检测系统的设计与实现

这是一篇关于SparkStreaming,路桥检测,大数据,SpringBoot的论文, 主要内容为如今,桥梁在交通运输中的重要性日益提高,不仅带来生活的便利,而且促进经济的发展。然而,桥梁在建设运营期内仍然存在一些危险,因此对于桥梁的各类信息监测显得格外重要。目前大多监测还是人工定时巡检为主,这种方法不仅效率低,也不能进行实时监控。针对这一问题,本文提出了自动化监测来维护桥梁的健康,采用各类自动化监测传感器,对现场数据实时采集并远程传输到某云服务中心,所有的关于桥梁的数据集中到云端,进行专业的诊断分析,发现其存在的规律和潜在的一些危险,并及时予以解除。本文设计并实现了一种基于流式计算Spark Streaming的实时路桥检测系统。该系统通过部署在桥梁上的各类传感器实时收集立交桥和桥梁的振动数据,并进行中心存储,针对数据变化对桥梁健康进行预警。由于桥梁长度不一,预计平均每天近千万条数据进行存储,主要存储的信息包括应力、振动、温度和劳度等参数。该系统分为大数据端的数据服务层和Java EE端的系统功能层。数据服务层主要采用flume+kafka+hdfs等大数据组件为系统提供数据保障,并使用Spark Streaming对桥梁数据进行实时计算并将结果存储到mysql数据库中。Java EE端使用了比较成熟的框架Spring Boot进行搭建后台,采用MVC三层架构模式,使得系统有更好的扩展性,前端页面通过Ajax异步请求调用相应的接口获取到mysql中的数据,最终通过Echarts和SVG格式实时展现。最后总结了本文的工作,对实时路桥检测系统的技术难点进行了阐述,同时也指出该系统有待改进的地方。针对系统的性能,本文也对该系统进行了联调和测试。测试结果表现良好,满足预期期望。

基于多推荐算法融合的视频实时推荐系统的设计与实现

这是一篇关于Spark,SparkStreaming,推荐系统,算法融合,偏好整合,实时推荐的论文, 主要内容为21世纪社会文娱产业得到了快速的发展,而视频作为一种生动形象的信息载体更是受到了人们的青睐。快速增长的视频业务带来的爆炸式视频数据规模扩张使得用户在浏览视频时显得无所适从,并且随着用户的急剧增长,企业想在短时间内让用户找到兴趣相符的视频也愈发的艰难。而推荐技术的出现正是为了解决信息过载的问题,但传统的推荐系统存在一些不足之处:首先,传统推荐系统大多是在单机上部署或基于Hadoop架构的MapReduce部署,当数据量较大时单机部署的系统无法实现较大的吞吐量,而基于Hadoop的MapReduce的部署是基于持久存储的计算,该模式对有迭代需求的推荐算法运算时由于频繁的存取磁盘无法保证有效的运算效率。其次,传统的推荐系统虽然能够给用户进行个性化的推荐,但没有考虑到用户兴趣会随时波动的情况,因此未对用户实时反馈信息进行推荐模型的增量更新。再者,传统系统的推荐列表通常是由独立的算法计算而来,未充分考虑各类推荐算法的短板。为解决上述问题,本文主要针对视频个性化推荐的实时推荐特点,借鉴Lambda架构思想,构建一套基于Spark平台的通用的离线、近线和在线的推荐系统。基于上述系统实现了基于内容特征相似推荐模型、基于视频评分数据的协同推荐模型,并提出相应的增量模型来提供实时推荐功能。为了兼顾用户长短期偏好提高实时推荐的准确性,本文提出了基于用户偏好整合的推荐算法。最后本文给出对各种推荐算法推荐结果的融合策略弥补了各自推荐算法的短板。主要工作内容有:首先,本文研究了并行计算框架Spark的计算原理和实时流数据处理组件Spark Streaming的处理机制,分析了数据采集框架Flume和Kafka各自擅长的场景和业务流程,结合支持海量数据的分布式存储,随机查询速度较快的HBase。在此基础上构建一套基于Spark平台的通用推荐计算模型,使得各种支持增量的推荐算法都能独立运行在该模型上。其次,本文研究传统的内容推荐和协同推荐算法实现流程,使用TF-IDF技术从视频的描述信息和标签数据中抽取出视频特征向量,依据这些向量计算内容之间的相似度给出基于内容推荐的推荐列表。本文通过对用户评分矩阵数据进行ALS(交替最小二乘法)矩阵分解得到用户和内容的特征矩阵,并通过评分预测给出协同推荐列表,此外本文还给出了上述基于内容推荐和基于用户协同推荐的实时更新模型。再次,本文提出了一种基于用户偏好整合的推荐算法,该算法对用户的历史反馈数据进行长、短期分类,单独计算其长、短期的历史偏好,对用户的实时数据进行在线处理得出其实时偏好,最后引入时间因子衰减来整合历史和实时偏好得出用户的最终偏好向量。此外,本文仔细研究上述算法优缺点,结合系统不同的推荐场景本文通过对上述多种算法结果按照不同权重的进行融合来弥补各类推荐算法的缺点。最后,通过部署Hadoop、Spark等分布式软件,借助Movielens数据集实现了相关的理论和研究工作,设计并开发一套实时推荐系统,并在此平台上给出上述算法的实现,实验结果表明本套系统能满足视频实时推荐的时效性需求并且有效提高了推荐系统的准确率。