9篇关于Spark的计算机毕业论文

今天分享的是关于Spark的9篇计算机毕业论文范文, 如果你的论文涉及到Spark等主题,本文能够帮助到你

基于Spark平台的个性化新闻推荐系统研究

这是一篇关于Spark,个性化新闻推荐,LFM模型,DBSCAN聚类的论文, 主要内容为在新闻传媒领域,存在着大量的用户对其看过的新闻的阅览及兴趣度等信息,因此如何在海量不断更新的新闻中挖掘出用户的阅览需求,量身定制用户的个性化新闻推荐,对于提升用户的体验变的尤为重要。此外,随着用户量、新闻量及其数据待处理量的不断增长,解决可扩展性的问题成为推荐系统发展中最主要问题,而将Spark分布式大数据计算平台与推荐系统结合可以有效地解决这个问题。论文首先总结分析了应用较为广泛的推荐算法、粒子群算法、基于密度的聚类算法-DBSCAN聚类等。同时,文中详细说明了在分布式计算平台Spark中,最为主要的三个组成部分:Spark RDD(弹性分布式数据集)、Spark MLlib(机器学习功能程序库)以及Spark运行框架的基本工作原理。并对基于LFM隐语义模型的协同过滤推荐算法及其并行化实现进行了针对性研究。其次提出了基于粒子群算法的DBSCAN聚类算法,简称为PSO-DBSCAN算法,对LFM算法进行了深入分析并用时间函数与用户相似度计算函数对其进行改进,最终提出了结合PSO-DBSCAN算法与改进LFM算法的融合推荐算法:用时间函数对用户-物品兴趣度矩阵进行加权处理,再用LFM模型对该矩阵进行降维以及填充缺失值处理,之后对矩阵中用户进行PSO-DBSCAN密度聚类,再在目标用户所属类别簇中通过用户相似度计算函数找到目标用户的k个最近邻居,最后根据最近邻居的评分数据加权预测目标用户对物品的评分值,采取top-N新闻推荐方式进行推荐,在Spark分布式平台上实现融合推荐算法的并行化。之后,在Spark集群上利用新闻数据集对所提出的融合推荐算法的性能进行测试与分析,从实验结果中可以看出,融合推荐算法的准确度要比传统算法有显著的提升,同时,还对算法性能在分布式环境和单机环境下作了对比,发现分布式环境下的推荐算法执行速率更高。最后,实现了以融合推荐算法为核心的个性化新闻推荐系统,并对新闻推荐的结果进行展示。图32幅;表8个;参51篇。

区块链应用的风险监管系统的设计与实现

这是一篇关于规则引擎,监管系统,Spark,区块链的论文, 主要内容为区块链是一种去中心化的、分布式的数据库技术,通过不同的共识算法来维护其数据的完整性和安全性。目前,区块链已经被广泛应用于数字货币、供应链管理、智能合约等领域。随着区块链技术的发展,政府对区块链的监管正在逐渐加强,一些国家已经制定了有关数字货币和区块链技术的监管政策。因此需要一个监管系统对区块链平台及其应用进行风险监管。本文首先介绍该课题的课题背景、国内外研究现状以及相关技术。随后,进行区块链应用风险监管数据分析与模型建立研究,分析系统监管内容以及监管流程。研究了区块链平台的51%攻击风险的同时,分析了区块链应用的数据组织结构,对风险特征以及风险规则进行抽象,计算其风险值。之后,对系统进行需求分析、总体设计、详细设计以及系统测试。在需求分析中,对系统周境以及用户角色进行分析,描述系统功能与用例,以及非功能需求。在总体设计中,论述了系统的层次架构,并对每一层进行设计,包括控制层、引擎层、服务层、持久层以及前端展示层。在详细设计中,通过类图和时序图对系统主要功能进行设计和实现。在系统测试中,对系统进行功能测试和性能测试。本文通过引入Drools规则引擎和Spark计算引擎实现风险特征计算和风险规则匹配,开发了风险特征定义界面和风险规则编辑器,方便风险规则定义人员灵活定义风险特征以及风险规则,系统对风险规则和风险特征进行解析,完成区块链应用风险监管。用户不再需要编写计算脚本和学习规则引擎的语言,提高系统的可用性以及易用性。同时研究51%攻击风险值计算方法,完成区块链平台风险监管。

基于Spark实时推荐系统的研究与实现

这是一篇关于大数据,Docker,分布式爬虫,Spark,实时推荐的论文, 主要内容为随着5G的发展和6G的布局,网络数据呈现爆炸式增长,从“互联网+”到智慧城市,科技的不断创新与进步给人们的生活带来了很多便利。然而,随着数据量的日益庞大,人们获取信息难度也在增大,此时,推荐系统则可以帮助人们快速地找到感兴趣的内容和信息。如何高效精准地搜集到有效信息对推荐系统至关重要,而推荐系统的效率和准确度是依靠推荐系统的架构和推荐算法共同决定的。从现有的推荐系统来看,首先,早期的Hadoop框架虽然能够满足用户对海量数据存储和离线训练精准度的要求,但是随着数据量的不断增加,Hadoop的Map Reduce处理速度明显降低,很难满足推荐实时性的需求。然而Spark作为大数据处理分析引擎,却能较好地解决磁盘读写速度慢的问题。然后,基于Lambda框架构建的实时大数据处理框架,虽然有较高的稳定性和容错率,并且能够把实时计算和离线预测计算分开,但是由于数据量级越来越大,数据汇总越来越困难且会产生大量的中间文件,因此服务器存储压力大大增加。此外,当短时间内用户行为发生较大变化时,推荐的准确率也会大大下降。第三,在现有的协同过滤推荐算法中,主要解决离线状态下的推荐预测,虽然离线预测的准确率较高,但是当用户偏好改变时,需要重新构建相似度矩阵,重新计算时间会大大延长。最后,虽然目前的推荐算法会根据不同时间段给予不同的信息推荐,但是在当前新冠疫情大流行背景下,推荐系统中未考虑到推荐信息是否符合当前疫情防控准则。因此,如何较好地实现实时推荐并优化推荐结果成为当前推荐系统的重要难题。针对上述问题,本文针对大众点评应用深入研究实时推荐算法和推荐系统架构,在此基础上学习Spark生态圈相关知识,最终设计并实现了基于Spark实时推荐系统,具体实现步骤如下。首先,通过分布式爬虫获取大众点评相关数据并使用Canal监听My SQL日志,构建Kafka消息队列消费实时应用数据。然后,将实时计算的结果存储在My SQL数据库中并同步Elasticsearch索引。最后,研究分析Lambda架构和Kappa架构的优缺点和使用场景,优化Kappa架构数据分析能力,并提高推荐的准确性和实时性。本文具体工作主要有以下几点:(1)为了提高数据获取效率,设计并实现了基于Docker容器的分布式网络爬虫,并且比较了分布式爬虫在Docker容器中和VM环境下运行效率。(2)详细分析实时推荐系统的功能需求,比较不同实时推荐系统架构的优缺点,最终构建基于Spark的实时推荐系统。首先,该系统基于Docker构建分布式爬虫获取大众点评数据;然后,使用Kafka消息队列,在消费爬虫数据的同时也作为实时数据流缓存模块;最后,利用Spark Streaming流处理技术进行实时计算,满足实时推荐目的。数据存储和随机访问使用My SQL数据库,并结合使用Redis数据库作为数据缓存提升系统性能。此外,使用Redis去重机制提高爬虫效率。(3)针对疫情因素对推荐结果的影响,研究ELK相关技术并基于Elasticsearch搜索引擎,结合当前实际疫情准则对召回策略进行测试和调整,优化实时推荐结果,并将最终推荐结果展示在Web前端。(4)研究Online-Learning算法(Follow The Regularized Lead)FTRL,优化数据稀疏性问题和冷启动问题,然后通过对爬虫获取的数据集进行实时推荐功能和性能的测试,最终实现本实时推荐系统预期设计目标。

基于快速矩阵分解的分布式协同过滤推荐算法研究

这是一篇关于隐式反馈推荐,协同过滤,快速优化,分布式矩阵分解,Spark的论文, 主要内容为随着信息技术的飞速发展,互联网上的数据正在以前所未有的速度快速累积,海量数据会导致严重信息过载问题,个性化推荐是解决该问题的有效途径之一。在大数据场景下,推荐系统通常需要处理大规模高维稀疏数据。在各种推荐算法中,基于矩阵分解的协同过滤算法在处理这类数据时具备较高精度与良好的扩展性,因而被广泛研究与使用。但将矩阵分解技术应用于大规模隐式反馈数据时,会出现以下三个问题:首先,隐式反馈推荐中内在缺乏负反馈信息,直接基于已有隐式数据进行模型构建无法有效反应用户偏好信息。其次,由于需要从缺失数据中获取负反馈信息,而缺失数据通常比已有数据多几个数量级,这会极大增加优化算法时间复杂度。最后,有限的单机计算资源会极大限制大规模推荐数据的处理效率。为了解决上述问题,本文深入研究了基于矩阵分解的分布式协同过滤算法,并提出了相应改进算法,具体如下:(1)为了解决隐式反馈推荐中单类问题以及模型训练效率低的问题,本文提出了一种基于用户活跃度和项目流行度的权重矩阵分解(user-activity and item-popularity weighted matrix factorization,UIWMF)推荐算法。UIWM算法采用了一种基于用户活跃度和项目流行度的缺失数据权重策略,相对于传统的一致缺失数据权重策略,能够更加有效从缺失数据中获取负反馈信息,从而获得更高的推荐精度。此外,为了提高UIWMF的模型训练效率,本文提出了一种基于循环坐标下降的快速矩阵分解优化算法,通过巧妙地设计缓存矩阵避免了大量重复计算,从而有效提升了算法的训练效率。(2)为了打破传统单机的资源限制,本文基于Spark提出了一种高效的分布式UIWMF(distributed UIWMF,DUIWMF)算法。DUIWMF采用一种基于出入块分布式缓存策略,能有效避免传统广播通信策略中需要传输无用和重复特征向量的问题,从而能显著降低通信开销,提升模型训练效率。本文在阿里云E-Map Reduce上基于三个公共推荐数据进行了全面的实验。实验分为两部分,第一部分对UIWMF算法有效性进行验证,通过与多个基准的矩阵分解隐式反馈算法进行对比分析,实验结果表明了UIWMF算法在推荐精度上的优势。第二部分将DUIWMF算法与两个基准的分布式推荐算法进行对比分析,验证了DUIWMF算法的高效性,此外,还通过大量的实验验证了DUIWMF的可扩展性。

基于Spark云计算平台的旅游景点推荐算法优化研究

这是一篇关于Spark,旅游推荐,LDA,规范化,RSA的论文, 主要内容为在新时代的旅游中,传统的旅游方式正在发生着深刻的蜕变,在线旅游逐渐兴起并日益成为了旅游市场的新热点。如今,在大数据的背景下,在线旅游数据日渐超载,数据的存储、计算分析和管理俨然已经成为了旅游行业亟待解决的难题之一。此外,过载的旅游数据也给用户带来了极大的信息困扰,降低了用户的旅游服务体验感。为了解决上述问题,亟需新的平台以及合适的推荐算法来为用户提供了较好的旅游信息筛选和推荐服务。针对目前旅游景点推荐研究的不足之处,本文提出了基于Spark云计算平台的旅游景点推荐算法优化研究方案,主要研究工作如下:1.结合Spark云计算平台技术。Spark是目前解决各行各业大数据存储、计算分析以及管理的优秀云计算平台。Spark可以利用Hadoop的分布式存储平台来存放超载的旅游大数据信息,此外,Spark的分布式计算架构可以有效地提升分析计算旅游数据的效率。本文利用Spark云计算平台实现旅游数据的分布式存储和旅游景点推荐算法的并行化计算,以提高算法推荐的时效性。2.爬取真实旅游数据集。利用编写的Python爬虫代码对旅游网站的数据进行爬取,以获得用户对景点的真实评分和评论文本等信息。将爬取的真实数据集用于推荐算法比对实验,以证明改进算法的实用性。3.提出一种基于评分与评论文本信息的LDA主题加权的算法模型。该算法利用评分以及评论信息为用户提供个性化景点推荐。首先,对于评论文本信息合集,先是通过LDA主题模型来求得该合集的主题分布,然后再利用重新定义的相对熵方法进行相似度计算;其次,考虑到评分对每条评论的影响,利用规范化后的用户平均分计算得到的加权值对单条评论产生的主题分布进行加权,并计算相似度。接着,将这两个计算得到的相似度以一定的比例结合起来,得到联合相似度。最后利用这种联合相似度计算目标对象对未评分过景点的预测分值,并根据预测分值的大小对景点进行顺序排序和目标推荐。实验结果表明,本文所提的算法模型在景点评分预测方面有着较高的准确性。

基于Spark环境下的机器学习在商品推荐中的应用研究

这是一篇关于推荐系统,Spark,逻辑回归,梯度提升决策树,深度森林,组合模型的论文, 主要内容为随着各大电商平台的产生和在线购物用户数量的不断增长,用户面对种类繁多的商品信息时会出现选择困难的情况,同时各个购物平台面对海量的用户群体也尝试各种营销方法对用户的购买意愿进行正向刺激以此来提升销售额。基于上述需求,推荐系统在当今社会中发挥着不可或缺的作用,它借助算法能够从海量的数据中为用户挑选用户想要的信息或者商品。本文采用阿里巴巴移动电商平台的真实用户行为数据,经选取后得到2014年11月22日至2014年12月5日的用户-商品交互行为数据,时间跨度为两周,该数据包含约1000万条样本数据,第一周的用户行为数据作为训练集,第二周的数据作为测试集,预测目标是用户在每周的周五是否购买用户在上周六至本周四发生过交互行为的商品,购买为正类,未购买为负类。首先训练集和测试集中分别通过用户、商品和商品类别三个角度进行特征提取,由于发生购买行为的样本占总样本的比例很小,数据的不平衡会导致模型性能的失效,因此对未发生购买行为的样本进行基于K均值聚类的下采样处理。采样过后的数据作为本文最终的建模数据。其次考虑到数据量很大,因此本文从Spark分布式环境出发,先分别单独使用逻辑回归(LR)、梯度提升决策树(GBDT)和随机森林(RF)进行建模分析,实验结果表明无论在训练集还是测试集中GBDT的效果最好,为进一步提高模型预测效果,融合Stacking和深度森林的思想,构造GBDT-RF-LR组合模型,使用并联的方式组合GBDT和RF并输出增强特征矩阵,与训练数据合并成新数据集,再使用逻辑回归进行训练,结果表明组合模型的拟合效果和泛化能力都要优于单个模型;在单机模式下,使用Spark环境下相同的模型和深度森林进行建模分析,最后对比两种环境下的结果,Spark分布式环境下的模型预测精度更高。因此,本文认为在商品推荐中应用Spark环境下组合模型的效果最好。

Spark下基于多特征混合的协同过滤算法推荐系统的设计与实现

这是一篇关于推荐系统,协同过滤,信任模型,兴趣模型,Spark的论文, 主要内容为在互联网技术和大数据技术迅速发展的背景下,推荐系统已经成为人们获取信息过程中一种重要的信息过滤机制。协同过滤推荐算法(CollaborativeFiltering,CF)是推荐系统领域运用最广泛最成功的技术之一,但是在大数据场景下存在用户评分数据稀疏、扩展性差的问题,造成推荐精度低及实时性差等缺陷。为此,本文以协同过滤思想为基础,通过深入挖掘用户行为和项目中的多种特征信息,提出两种推荐方案,并基于Spark平台设计实现推荐系统。主要的研究工作包括下几方面:(1)提出一种融合用户信任度的协同过滤算法。该方法基于社交网络中信任模型相关理论引入用户活跃度、可靠度等特征构建用户信任模型,采用自适应权重的方式综合用户间信任关系和相似关系作为推荐的权重来寻找最近邻居集,缓解数据稀疏性问题,并在此基础上设计一种基于树型结构的用户行为特征聚类方案,提升查询效率,从而降低在线运算数据的规模,改善算法扩展性。(2)提出一种基于项目兴趣点特征的协同过滤算法。该方法将项目划分至不同的兴趣点下,引入项目流行度、评分信息等特征动态挖掘并构建用户、兴趣点和项目三者之间的关系,该方法的主要特征是基于用户间对兴趣点的偏好特征而不是用户间共同评分的项目来寻找最近邻居集,可有效缓解数据稀疏性的问题,并且结合隐语义模型给出的预测评分,综合考虑共性和个性两方面对项目的评价给出最终推荐结果,提高推荐精度。(3)在上述工作的基础上,基于分布式并行框架Spark设计实现一个完整的、灵活可配置的、适合在大数据场景下使用的推荐系统。该系统中主要包含了五个模块,分别是数据仓库模块、离线计算模块、推荐引擎模块、配置解析模块和配置模块,各个模块内高内聚,模块间低耦合,保证系统的可扩展性和可维护性,便于进一步开发。最后,实验论证本文设计实现的推荐系统在推荐准确度和扩展性方面都取得了良好的效果。在MovieLens数据集上的实验结果表明,相较于传统协同过滤算法,上述(1)和(2)中提出的两种协同过滤算法的准确率分别提高了18.7%和9.5%,召回率分别提高了11.3%和6.2%。计算性能方面,(1)和(2)两组算法的平均耗时分别为1.78秒和0.828秒,远低于传统协同过滤算法平均所需的9.52秒,并且通过增加计算节点的方式可以获得更高的加速比,进一步提升计算效率,有效的缓解了扩展性差的问题。

基于Spark平台的推荐算法研究与应用

这是一篇关于协同过滤,局部相似性,用户属性,Spark的论文, 主要内容为进入数据时代后,互联网上存储的数据量呈指数级增长,面对海量数据,一般搜索功能不能满足所有需求,无法充分挖掘用户兴趣。推荐系统随之诞生,它帮助用户更快地发现感兴趣的高质量信息,在用户需求模糊的情况下也能提供比搜索方式更为精准的内容。论文重点对局部相似性、近邻选择以及在协同过滤推荐中的应用展开研究。首先,基于用户对事物偏好不同的特点引出局部相似的概念,设计了用于提升数据密度的LSWSO算法,该算法从标签着手,确立了以标签因子为衡量准则的聚类算法,并利用遗忘函数解决用户兴趣漂移问题,然后借助加权Slope One算法填充矩阵,降低数据稀疏性;为了提高聚类效率,LSWSO算法在Spark平台上实现了并行化方案。其次,将并行化的LSWSO算法融合基于用户的协同过滤,设计了LSWSO-User CF算法,该算法在使用LSWSO获得相对稠密的评分矩阵后,结合用户属性计算相似度并挑选近邻集合,接着以近邻为参考对象进行预测评分和Top-N推荐;另外,LSWSO-User CF算法还利用LSWSO的特点提出了一种冷启动解决办法;同时,基于开发环境一致性等因素的考量,LSWSO-User CF同样采用Spark进行并行计算。最后,开发了一个较为完备的个性化音乐推荐原型系统,将并行LSWSO-User CF算法应用于该系统的推荐模块,进一步检验算法的实用性。使用Movie Lens和Tag-Genome数据集在Spark平台上进行实验,测试结果显示并行化LSWSO算法和并行化LSWSO-User CF算法在大数据场景下有较好的性能表现。