广告管理平台的设计和实现
这是一篇关于互联网,广告管理平台,Flume,Storm的论文, 主要内容为随着互联网的蓬勃发展,各行各业都在借助互联网来改变传统的经营模式,广告行业就是其中典型的代表。随着科技的进步,传统的广告投放模式已经不能满足客户的需求以及应对庞大业务量的增长,并且取得的效果也差强人意。广告管理平台就是为了解决这一问题应运而生的。广告管理平台改变了传统的投放模式,将过去线下的业务借助互联网将资源整合搬到了线上,不仅简化了业务流程,减少了中间环节,还创造了巨大的商业价值。用户可以根据自己的需求去制作广告素材,并选择适合的广告位去投放。而资源主可以将自身空闲的资源利用起来创造更多的经济价值。广告管理平台包含六个核心模块,分别为系统管理模块、资源管理模块、广告管理模块、素材管理模块、广告主管理模块以及行为分析模块。本人在实习期间,参与的具体工作如下:(1)可行性分析,在项目前期与组内同事了分析了行业当前现状,了解现有广告平台的运营模式,为项目的开发进行技术预言及技术储备。(2)需求分析,通过与产品经理沟通确定核心需求,将所有需求记录下来,送至客户审阅。(3)概要设计,根据需求分析结果,划分系统模块及其所包含的子模块,建立系统的逻辑模型,建立了详细的数据模型,为之后的详细设计做出铺垫。(4)详细设计及系统实现,根据概要设计的结果,进行代码编写并进行验证。本平台是采用了商业系统传统B/S架构的,采用了较为常用的两个开源框架spring MVC和Mybatis;数据库采用Oracle数据库;前端界面采用了较为流行的jQuery框架进行开发。在行为分析模块中还使用了 Flume进行信息的采集,Kafka进行队列消息的分发,通过Storm进行实时数据分析。目前本系统已经完成第一版,并部署在线上运行。现阶段,广告平台的二期开发仍在进行,根据用户的反馈结果以及使用情况进行优化升级,同时对系统的可用性、兼容性、可扩展性进行完善,力图构建出一个成熟的广告管理平台。
寄递大数据分析系统的设计与实现
这是一篇关于寄递数据,批量计算,流式计算,Hadoop,Storm的论文, 主要内容为随着网络和信息技术的不断发展,网上购物以其方便、快捷的特点受到越来越多用户的青睐,随之带来寄递数据量的激增。海量的寄递数据给企业带来了新的挑战。企业传统的分析系统是将数据存储在关系数据中,这种系统架构在分析海量寄递数据时,会遇到瓶颈。而且,随着数据量的增长,这种系统的扩展代价昂贵。因此,本课题致力于构建一种全新的寄递数据分析系统。本文的研究内容主要包括以下几个方面:(1)学习和研究现有的大数据处理技术。现有的大数据处理技术以批量计算和流式计算两种模式为主导,通过对比分析,本文选取Hadoop和Storm作为本系统分析计算的核心组件。通过对Hadoop、Hive、Flume、Kafka、Storm等开源软件的学习,深入理解大数据处理技术的两种模式。(2)分析现有“安监”系统瓶颈,提出本系统的建设目标。现有“安监”系统的瓶颈,主要集中在一些较为复杂的分析统计功能的性能上。当面单数据的量达到5000(万)条时,业务量运行查询统计、业务量趋势预测等较为复杂查询统计功能的分析时间超过500秒,系统超时。本系统的建设目标是通过构建新分析系统,克服“安监”系统分析瓶颈,并在新系统上实现上述复杂的分析统计功能。(3)给出本系统的架构设计,并根据架构设计对系统进行实现。系统包括数据采集模块、数据预处理模块、数据存储与分析模块和数据展示模块等4个模块。数据采集模块是系统建设的基础。其中“安监”系统采用的是Log4j记录系统日志。寄递大数据分析系统使用Flume日志收集工具将日志文件进行采集,并统一写入HDFS中。针对“安监”系统数据库(关系数据库)中的结构化数据,本系统采用Java程序定期抽取。针对实时采集数据,本系统采用Flume将Log4j日志消息直接推入Kafka中。数据预处理模块是系统重要组部本分之一。本系统通过数据预处理模块将数据处理成“干净”可靠的数据。数据存储和分析模块是系统的核心模块。针对业务需求,本文系统使用Hive、MapReduce和Storm这3种不同的数据分析处理技术对数据进行分析。数据展示模块是将系统结果进行展示。此模块采用了主流J2EE架构和MVC编程模式进行设计和实现,可向用户提供友好的展示界面。(4)搭建系统环境,并对本系统进行测试和验证。本课题搭建了一个20个节点机器的Hadoop集群和5个节点机器节点的Storm集群,对系统进行测试和验证。实验表明,当面单数据的规模为5000(万)时,系统的分析处理时间减少到100秒左右,完全满足设计要求。本课题设计并实现了寄递大数据分析系统,克服传统的关系数据库分析系统对海量寄递数据分析的性能瓶颈问题。并通过实验,证明了该系统在分析海量的寄递数据方面具有明显优势。
基于Hadoop和Storm的音乐推荐系统设计
这是一篇关于音乐推荐,协同过滤,Storm,实时推荐,冷启动的论文, 主要内容为在互联网技术高速发展的背景下,各类音乐平台为人们提供了大量的、种类繁多的歌曲。然而,面对海量的歌曲信息,人们仅仅通过检索方式很难找到真正符合自己喜好的音乐。个性化推荐系统能够从海量音乐信息中为用户筛选出符合个人喜好的音乐,提升用户的满意度。因此,音乐的个性化推荐已成为业界重视的研究方向。论文针对协同过滤算法中存在的项目冷启动问题和数据稀疏性问题,提出了一种基于音乐标签改进的协同过滤推荐算法。该算法在传统的协同过滤算法中结合了音乐标签数据,推算出用户对未知音乐的偏好程度,解决了项目冷启动问题和数据稀疏性问题;又在解决数据稀疏性问题的基础上,计算出音乐间相似度用于预测用户的音乐喜好。针对协同过滤算法存在的实时性问题,设计了离线处理和在线处理相结合的系统架构。该架构在Hadoop中利用改进后的协同过滤算法对用户历史行为数据进行离线处理,按照播放次数选取热门音乐对新用户进行推荐;并通过滑动窗口处理用户行为数据的方法模拟用户的实时行为,在Storm中对这些行为数据进行在线处理,为用户提供实时推荐结果。这种处理方法提高了推荐系统的准确性和实时性。论文中根据推荐系统的实时性需求,构建了实时音乐推荐系统,在Last.fm数据集上实验验证了在基于Hadoop和Storm的音乐系统中,基于音乐标签改进的协同过滤推荐算法的准确性比传统的协同过滤算法的准确性更高;结合了Hadoop和Storm处理产生的实时推荐结果,其准确性比仅使用Hadoop处理产生的离线推荐结果的准确性更高。
基于Storm的实时推荐系统研究与设计
这是一篇关于Storm,实时计算,推荐系统,k-means协同过滤,SVD的论文, 主要内容为伴随着移动互联网,电子商务以及物联网的爆发式发展,产生了海量的数据,产生了信息超载(information overload)问题。当前,此类问题的解决方法之一是使用推荐系统。传统的推荐系统大多基于非实时的Hadoop处理框架,以“批”方式进行处理,无法满足数据的实时处理要求。而Storm对数据以“流”方式进行处理,基于内存进行运算,可以保证数据信息被快速处理,且实时更新并写入数据库。本文基于实时的、分布式的流数据处理框架Storm进行推荐系统相关研究,进行了以下工作:第一:对Storm框架进行学习。了解消息可靠处理机制(ACK);掌握了核心组件Spout、Bolt的功能以及实现方法;能够设计Topology结构,基于Storm Trident的高级抽象进行开发。第二:基于Storm的推荐系统常规采用基于SVD的k-means协同过滤算法。SVD先将评分矩阵中的缺失值补全,然后将其分解成3个低阶矩阵,最后用计算得到的用户预测评分来更新评分矩阵的缺失项,在矩阵项达到数百万的情况下,上述过程时间消耗代价巨大。为了进一步提升计算效率,本文提出了基于改进SVD的k-means协同过滤算法,改进SVD引入损失函数的概念,建立均方差最小化函数,通过梯度下降法迭代对其进行优化求解,简化了矩阵分解运算。在MovieLens-10m数据集上进行实验,与传统SVD算法相比,本文提出算法在推荐时间效率方面得到了提升。第三:实现了基于Storm的实时推荐系统,首先,增加了Flume日志采集过滤子系统,该系统用于接收多种类型的用户消息数据并进行过滤;其次,设计了Kafka数据缓冲队列模块,防止数据丢失,确保系统可靠;最后,对Storm集群进行部署,设计了算法拓扑逻辑结构,经过测试已达到设计要求,并实际上线成功应用于电影推荐中。
基于Storm的数据分析系统设计与实现
这是一篇关于流处理,Storm,Kafka,Spring,K-Means算法的论文, 主要内容为如今,大数据、移动互联网已经成为这个时代的共识,只有依靠大数据技术深入挖掘数据中潜在的价值才能为企业在时代浪潮中提供更可靠的决策依据。因此,大数据处理技术成为人们研究的热点。Hadoop目前已经成为批处理的标准,而目前人们对实时处理、个性化查询要求越来越高,所以Storm出现了,而目前对Storm实时流处理技术的研究仍然处于初始阶段。 论文对Storm实时流处理技术与其他相似技术进行了比较,总结了相关技术的优势所在以及适合的应用场景。对Storm进行数据处理时存在的相关问题也进行了研究并进行了相关的改进。实现了Storm与Spring框架的结合,实现基于xml配置文件定义Topology,减少组件间的耦合性。通过K-means算法并行化进行用户聚集度分析,实现了整个分析系统的并行化,最后总结了Storm系统性能优化的基本思路。 总结起来,论文主要进行了如下方面的工作:分析和比较了流行的大数据处理技术,尤其是流处理技术;并对Storm性能进行了分析,总结出了Storm性能优化基本思路;采用分布式数据收集系统Kafka,解决Storm框架处理文件数据时Spout不能并行化的问题;提出基于Spring的可插拔编程模型topology的实现方法,为Storm应用开发提供了一个一致性的编程模型,使开发人员能够借助Spring编程模型实现Storm应用;实现了K-Means算法并行化并移植到Storm运行,用于进行用户聚集度分析;最终设计了一套较完整的基于Storm的数据分析系统,用GPS数据进行分析并验证。
基于流式计算的实时推荐系统研究与设计
这是一篇关于Storm,协同过滤,集成学习,时间窗口,实时更新的论文, 主要内容为数据过载催生了推荐系统的产生,而随着互联网的飞速发展,传统的离线推荐越来越难以满足用户需求,用户对于推荐系统的实时性要求越来越高。当前国内外对于推荐系统的研究主要是基于离线数据对推荐系统模型进行更新,实时调用离线更新得到的推荐结果。本文在离线推荐系统的基础上实现了基于Storm的实时推荐系统。设计了基于Flume的数据收集模块,基于Kafka的数据缓存模块,基于协同过滤以及改进的集成算法的离线计算模块、基于Storm的实时计算模块以及数据存储模块。Flume是一个高可用的、分布式的海量日志采集系统,Flume兼容多种数据源并且可以将采集到的数据输出到多种外部存储系统中,通过对Flume的简单配置即可实现日志采集;而分布式的Kafka消息队列可以解决当实时数据过大时造成的数据堵塞,Kafka的生产者消费者模式比起消息的订阅发布者模式更易于实现数据缓存。在离线计算阶段,通过对比推荐系统的召回以及排序算法,选取了协同过滤算法以及改进的集成学习算法。在推荐的召回阶段,其决定了召回的上限,因此采用了业界使用最多的基于物品的协同过滤算法。考虑到离线数据的量级,所以基于Hadoop Map Reduce实现了离线物品相似度的计算,即通过计算物品的共现矩阵来增量更新物品的相似度。集成学习即Stacking算法主要包括两层,第一层为基于Boosting的GBDT算法以及基于深度学习的WD算法。Boosting提升方法的思想是,在实际的机器学习任务中,学习一个良好的模型是比较困难的,而学习很多弱分类模型是比较简单的。GBDT算法是梯度提升Gradient boosting和决策树Decision Tree的结合,Gradient boosting中的单个学习器为Decision Tree。WD模型通过对LR模型以及DNN模型的联合训练,既保证了推荐系统的泛化能力也保证了推荐系统的记忆能力。Stacking模型把GBDT以及WD模型的输出结果作为第二层模型LR的输入从而进行了最终推荐。在离线阶段会将离线计算好的物品的相似度矩阵以及最终的推荐结果保存到Redis中以便实时计算的调用。在实时阶段,通过对比当前的流式计算框架,选取了纯流式计算模型Storm,Storm在实时推荐阶段,会通过时间窗口保存用户行为,超过窗口规定时间的用户行为则不被计算,来结合更新规则实时更新物品相似度进行实时更新以及推荐。离线计算框架结合实时计算框架保证了推荐的准确性以及实时性。最终通过对推荐系统召回率、准确率以及推荐时间、各推荐算法的AUC的对比,证明了设计的可行性。
寄递大数据分析系统的设计与实现
这是一篇关于寄递数据,批量计算,流式计算,Hadoop,Storm的论文, 主要内容为随着网络和信息技术的不断发展,网上购物以其方便、快捷的特点受到越来越多用户的青睐,随之带来寄递数据量的激增。海量的寄递数据给企业带来了新的挑战。企业传统的分析系统是将数据存储在关系数据中,这种系统架构在分析海量寄递数据时,会遇到瓶颈。而且,随着数据量的增长,这种系统的扩展代价昂贵。因此,本课题致力于构建一种全新的寄递数据分析系统。本文的研究内容主要包括以下几个方面:(1)学习和研究现有的大数据处理技术。现有的大数据处理技术以批量计算和流式计算两种模式为主导,通过对比分析,本文选取Hadoop和Storm作为本系统分析计算的核心组件。通过对Hadoop、Hive、Flume、Kafka、Storm等开源软件的学习,深入理解大数据处理技术的两种模式。(2)分析现有“安监”系统瓶颈,提出本系统的建设目标。现有“安监”系统的瓶颈,主要集中在一些较为复杂的分析统计功能的性能上。当面单数据的量达到5000(万)条时,业务量运行查询统计、业务量趋势预测等较为复杂查询统计功能的分析时间超过500秒,系统超时。本系统的建设目标是通过构建新分析系统,克服“安监”系统分析瓶颈,并在新系统上实现上述复杂的分析统计功能。(3)给出本系统的架构设计,并根据架构设计对系统进行实现。系统包括数据采集模块、数据预处理模块、数据存储与分析模块和数据展示模块等4个模块。数据采集模块是系统建设的基础。其中“安监”系统采用的是Log4j记录系统日志。寄递大数据分析系统使用Flume日志收集工具将日志文件进行采集,并统一写入HDFS中。针对“安监”系统数据库(关系数据库)中的结构化数据,本系统采用Java程序定期抽取。针对实时采集数据,本系统采用Flume将Log4j日志消息直接推入Kafka中。数据预处理模块是系统重要组部本分之一。本系统通过数据预处理模块将数据处理成“干净”可靠的数据。数据存储和分析模块是系统的核心模块。针对业务需求,本文系统使用Hive、MapReduce和Storm这3种不同的数据分析处理技术对数据进行分析。数据展示模块是将系统结果进行展示。此模块采用了主流J2EE架构和MVC编程模式进行设计和实现,可向用户提供友好的展示界面。(4)搭建系统环境,并对本系统进行测试和验证。本课题搭建了一个20个节点机器的Hadoop集群和5个节点机器节点的Storm集群,对系统进行测试和验证。实验表明,当面单数据的规模为5000(万)时,系统的分析处理时间减少到100秒左右,完全满足设计要求。本课题设计并实现了寄递大数据分析系统,克服传统的关系数据库分析系统对海量寄递数据分析的性能瓶颈问题。并通过实验,证明了该系统在分析海量的寄递数据方面具有明显优势。
基于混合算法的P2P网贷产品推荐系统的设计与实现
这是一篇关于网贷产品,协同过滤,基于内容,Hadoop,Storm,Mahout的论文, 主要内容为近年来,随着互联网金融时代的来临,国内的P2P (Peer-To-Peer Lending)网贷平台呈爆炸式增长,由于每个平台运营模式的差异导致其推出的理财产品参差不齐,这样一来市场上便充斥着各种各样的理财产品。面对如此繁多的P2P网贷平台,投资者很难在第一时间内挑选出适合自己的网贷产品,再加上当前缺少严格的行业监管,更加使得优良的网贷产品与大量的潜在用户失之交臂。正鉴于此,市场上又出现了一批专门针对P2P网贷的垂直搜索平台,但是当投资者不太明确自己需求时,这些搜索平台就很难发挥作用。本推荐系统不仅解决了P2P网贷产品的信息过载问题,而且拟补了搜索引擎的不足,最终使投资者与网贷平台达到共赢。 本文首先介绍了P2P网贷与推荐系统的发展现状,并分别针对基于项目的协同过滤、基于内容的推荐算法进行了调研,其次,基于这两种推荐算法设计出混合推荐系统的架构以及推荐流程,并重点介绍了系统相关模块的实现原理,最后,针对本推荐系统进行测评,总结本系统中的不足与展望下一步工作。本文的主要内容包括: (1)详细描述了本系统的需求分析,设计出本系统整体架构和混合推荐算法,并将系统分为四个模块:爬虫模块、离线计算模块、在线计算模块、数据存储模块; (2)爬虫模块采用分布式架构设计,不仅可以抓取多个网贷平台的产品数据,而且支持对每个爬虫节点的任务进行管理、远程监控; (3)离线计算模块采用了Mahout算法库中ItemCF、Kmeans算法,并运行在Hadoop平台上,最后将计算结果保存到HBase中; (4)在线计算模块主要采用了Storm平台实现,它会根据不同的推荐功能为用户实时地推荐网贷产品。 (5)针对本推荐系统进行测试和评估。 基于以上内容,本文构建出了一套基于混合算法的P2P网贷产品推荐系统。实验证明,借助离线计算与在线计算的数据处理能力、混合推荐算法的优势有效地解决了信息过载的问题,为投资者提供更加个性化的P2P网贷产品。
广告管理平台的设计和实现
这是一篇关于互联网,广告管理平台,Flume,Storm的论文, 主要内容为随着互联网的蓬勃发展,各行各业都在借助互联网来改变传统的经营模式,广告行业就是其中典型的代表。随着科技的进步,传统的广告投放模式已经不能满足客户的需求以及应对庞大业务量的增长,并且取得的效果也差强人意。广告管理平台就是为了解决这一问题应运而生的。广告管理平台改变了传统的投放模式,将过去线下的业务借助互联网将资源整合搬到了线上,不仅简化了业务流程,减少了中间环节,还创造了巨大的商业价值。用户可以根据自己的需求去制作广告素材,并选择适合的广告位去投放。而资源主可以将自身空闲的资源利用起来创造更多的经济价值。广告管理平台包含六个核心模块,分别为系统管理模块、资源管理模块、广告管理模块、素材管理模块、广告主管理模块以及行为分析模块。本人在实习期间,参与的具体工作如下:(1)可行性分析,在项目前期与组内同事了分析了行业当前现状,了解现有广告平台的运营模式,为项目的开发进行技术预言及技术储备。(2)需求分析,通过与产品经理沟通确定核心需求,将所有需求记录下来,送至客户审阅。(3)概要设计,根据需求分析结果,划分系统模块及其所包含的子模块,建立系统的逻辑模型,建立了详细的数据模型,为之后的详细设计做出铺垫。(4)详细设计及系统实现,根据概要设计的结果,进行代码编写并进行验证。本平台是采用了商业系统传统B/S架构的,采用了较为常用的两个开源框架spring MVC和Mybatis;数据库采用Oracle数据库;前端界面采用了较为流行的jQuery框架进行开发。在行为分析模块中还使用了 Flume进行信息的采集,Kafka进行队列消息的分发,通过Storm进行实时数据分析。目前本系统已经完成第一版,并部署在线上运行。现阶段,广告平台的二期开发仍在进行,根据用户的反馈结果以及使用情况进行优化升级,同时对系统的可用性、兼容性、可扩展性进行完善,力图构建出一个成熟的广告管理平台。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/45688.html