基于Storm的实时热点商品分析系统的设计与实现
这是一篇关于秒杀系统,Storm,实时计算,多维排序的论文, 主要内容为目前电子商城应用中出现了越来越多的商品秒杀活动,如:小米每周二12点手机秒杀、淘宝双十一秒杀和京东618商品秒杀等,几乎每个电商网站都存在着商品秒杀活动。商品秒杀系统如此常见,同时也面临着各种问题:数据隔离、高并发请求、单账号和多账号多次请求、数据一致性、实时热点发现等等。商品秒杀系统一般会给热点数据部署单独的Cache集群、单独使用更高带宽的服务器,从而将热点数据与普通数据进行隔离,目的是为了不让1%的热点数据影响99%的普通数据。尽管如此,仍然可能从99%的普通数据中出现实时热点数据,由于系统无法提前知道哪些普通数据可能会成为实时热点数据,因此也就无法提前进行保护。因此需要根据系统数据进行实时分析,在尽可能短的时间内发现实时产生的热点商品数据,随后立即做出相应调整,才能有效保证系统的高可用。本文主要解决秒杀场景下实时热点商品数据发现问题,不涉及热点发现后的系统调整问题。由于热点数据的产生都是用户行为导致的,比如购买、浏览、分享、搜索等,所以本文将针对秒杀系统中的用户行为日志进行实时分析,主要进行了如下工作:1.介绍系统使用的相关技术。使用Flume框架进行分布式日志采集;使用Kafka作为日志消息队列,防止日志数据采集过快而计算模块处理数据速度过慢导致数据丢失;使用Storm进行实时数据处理,保证数据分析的实时性;使用MySQL数据库对数据进行持久化存储;使用Redis内存数据库进行数据快速存取。2.设计基于多维排序的热点商品排序算法。多维排序设计原理通过结合多种属性排序和属性权重得到综合排序。系统可以根据单个用户行为属性对热点商品数据进行排序,但是单属性的排序结果综合性性效果差,有大量的偶然性。本文通过比较普通场景和秒杀场景下各属性的增长情况,来确定每个行为属性的权重,然后结合商品在单个属性排序中的排序情况得到该商品的综合评分,最后对所有商品评分进行综合排序。3.设计并实现基于Storm的实时热点商品分析系统。系统整合了Flume、Kafka、Storm、MySQL和Redis技术,能有效监听日志文件并及时读取日志数据;将排序算法逻辑写入Storm的数据处理中,能很快的通过对日志数据进行分析得到需要的实时热点数据;将数据存储在MySQL中进行持久化,能很好的用于后续海量数据的离线处理。
基于HADOOP的电商实时用户行为分析系统
这是一篇关于用户行为分析,实时计算,流式计算,Hadoop,Hbase,Storm的论文, 主要内容为随着互联网信息技术的发展,“线下线上相结合”的产业如雨后春笋般在各行各业茁壮发展起来,各种线下产业都开始走上线上之路。在此竞争日益激烈的背景下,企业如何抓住市场机遇,更好的发展。如何能够找到更好的突破口,是迫不及待要解决的问题。特别是互联网下数据爆炸式的增长。每天都会产生大量的数据。数据已经成为一种资源。它和黄金、能源一样宝贵。大数据已经成为企业的另外一种思维方法。如何能从这些海量数据中挖掘价值信息,成为企业的重要目标。大数据给企业带来了新的机遇,也带来了新的挑战,海量数据的存储,收集,计算,分析都是需要解决的问题。本文分析了国内外一些公司大数据背景下用户行为分析的主流模式,包括相关理论和流程,并由此提出了在目前电子商务迅速发展的背景下,设计了一套电子商务下实时的用户行为分析系统,来解决企业面临的大数据的采集,存储,实时分析等方面的技术问题。从而能够利用时效性高的特点为企业抢占先机,带来有效价值,实现业务增长。电商实时用户行为分析系统基于Hadoop[1]和storm开源框架下,使用Java技术进行开发。系统分为数据采集层、数据存储层、和数据分析展示层三大模块。各个模块下的子系统互相协调,共同实现了网站用户数据的实时分析。该系统具有以下特点:1)利用Hadoop分布式存储应对海量数据存储;2)流式计算引擎能够对网站用户行为实时分析,并生成实时结果数据;3)通过Web前端技术多维度可视化数据展示。目前该系统在上汽某电子商务有限公司得到了良好的实施,实践过程中,在大数据情况下的数据接入,实时采集,实时的流式数据处理,并在此基础上构建的用户行为分析模型。到最后产生的精准数据决策报表。都能够给决策层提供很好的支撑。该系统能够很容易的进行水平扩展,动态的增加数据存储的能力和并行计算的能力。被认为是一个性能优秀,可靠性高,扩展性强,开发框架简单的系统。不仅限于此,插件的模块的设计思路可以让该系统能够扩展到更广的领域。如实时监控,实时预警等。
基于SSM的实时计算任务管理平台的设计与实现
这是一篇关于Flink,实时计算,实时数据仓库的论文, 主要内容为随着移动互联网的兴起,人们面对的数据信息开始呈几何趋势增长,许多企业发现了其中的商业价值,想从海量数据中挖掘有用的信息以支撑商业活动。数据分析人员、企业管理人员趋向获得实时的数据变化,然而,面对大规模的流式数据,常规的分析手段和分析框架对资源使用效率低下、计算结果不够及时准确、开发周期长。因此需要有一套不同于原有的基于Spark和Storm的计算平台,推动企业的数据业务高效运行。Flink计算框架在处理大规模数据时的高吞吐量和低时延特性以及对流式数据的良好支持使之成为了实时计算平台的首选框架,本文在基于Flink计算框架的基础上,使用Spring、Spring MVC、My Batis搭建了web端,对Flink的Table API进一步封装设计,简化了实时计算任务的配置操作和使用,为企业的数据流转提供了有效的解决方案。在该项目的设计开发过程中,作者首先参与了平台的可行性分析以及需求分析,在需求分析的基础上设计了实时计算任务管理平台的四大功能模块并分别实现:(1)Source管理模块:包括对Kafka集群管理,Kafka Topic管理,HBase维度表组织结构(Schema)管理。(2)Sink管理模块:支持将Kafka Topic,Hive表,Ti DB表,Hbase表注册到平台中,作为Sink端数据源。支持手动创建临时表或通过SQL语句在线创建临时表。(3)任务管理模块:该模块用于对实时计算任务增删改查,通过Rest API启动、停止计算任务。(4)任务监控模块:该模块用于监控平台中的实时计算任务运行状况,可以对任务的运行状态、运行时间等属性设置监控规则,查看任务运行日志,查看集群当前数据吞吐量,查看任务延迟时间。最后对系统进行了测试,测试结果表明在保证功能正常实现的基础上,新的实时计算平台相较于传统的手动开发模式加快了任务开发周期,减少了重复开发,实现了更高的资源利用效率和更高的任务吞吐量。
基于大数据技术的农业电商大数据开发系统的设计与实现
这是一篇关于农业信息化,大数据,数据仓库建模,实时计算的论文, 主要内容为农业电商大数据蕴含着丰富的特色信息,是进行特有用户消费特征分析、不同规模电商平台服务能力评价以及未来农业生产预测的数据基础,是农业产业企业化方向管理和下一年生产规划设计的重要依据。在5G通信技术大规模普及和计算机技术发展迅速的今天,电商平台必然会产生体量巨大的数据。为此,本研究以农业电商数据为主要对象,通过开源工具和编码来设计和实现一套农业电商大数据开发系统,主要进行了以下六个方面的工作。(1)设计农业电商大数据开发系统的硬件和软件架构。根据各大公司公开的大数据技术文档预计所采用的主要大数据技术清单,并对这些大数据技术的多个版本进行实际测试,确定农业电商大数据开发系统所使用的技术和版本后,按照所使用的资源进而确定服务器的硬件标准和集群结构;(2)研究系统可用的用户行为数据记录结构。行为数据是大数据开发系统最重要的数据来源,其结构组织直接影响后续所有计算。根据国内电商的公开技术文档和在校外企业实习的经验,决定以Json形式,将用户设备信息和用户行为信息以键值形式映射在Json格式的日志文件中;(3)搭建实时和离线数据的采集传输通道。先通过编写Spring Boot的数据预处理程序将数据清洗后按需求分为实时和离线两类,接下来使用分布式消息中间和采集工具编码完成数据到计算引擎的通道搭建;(4)实现异常购买行为预警和用户日活跃度等特色功能。基于Spark的分布式计算技术,设计和编码完成实时计算的特色功能;(5)使用日志检索引擎提升可视化响应速度。为实时计算功能的结果数据提供传统JDBC和日志检索两种访问方式,并为两种方式分别连接传统前端可视化模块和日志可视化工具,在展示结果的同时对比响应速度;(6)完成农业电商大数据仓库搭建。基于分布式存储技术,通过shell和类SQL语言的混合编程完成数仓的搭建和自动计算数据建模。基于大数据和分布式计算技术完成的农业电商大数据开发系统,将离线和实时计算框架进行整合,在实现异常购买行为预警等特色功能的同时建立了可靠的大数据仓库为农业电商企业的数据备份和分析提供坚实基础,能更好的为决策工作提供有力支撑。因为本套系统采用低廉的服务器即可满足功能需求,减少了大数据系统对中小农业电商企业的成本压力。
某电商系统中购物子系统的设计与实现
这是一篇关于微信小程序,购物子系统,Flink,实时计算的论文, 主要内容为随着中国网络信息技术革命和电子商务的蓬勃发展,更多的中国消费者开始习惯于在线购物,各个电商平台所售卖的商品已经涵盖了日常生活的方方面面,但是对于消费者而言,买到的商品质量参差不齐,没有完善的售后服务。对于企业而言,入驻电商平台需要承担额外的成本,尤其是对小微型企业影响更大。微信小程序和云计算的普及为小微型企业低成本高效的出售商品和提供服务创造了可能,小微型企业能够基于微信小程序开发轻量级电商系统,用户无需安装App就可以使用程序,有赖于微信庞大的用户群体,小微型企业可以通过社交网络推广自己的商品,减少广告营销费用。本文实现的购物子系统不仅具备线上商城的大部分功能,还支持实时计算服务,为用户提供实时热门功能来提高销售额。系统整体采用分层架构,使用Spring Boot作为基本开发框架,使用Kafka搭配Zookeeper作为消息系统,使用Apache Flink作为实时计算引擎,使用MySQL搭配MyBatis框架存储购物子系统数据,使用Redis作为系统高速缓存。本文分析了系统必须为用户提供的服务,以及可靠性、安全性和可用性这些系统属性,同时从三个方面完成了系统设计,首先设计了系统的组成部分和交互方式,接着将系统提供的功能划分到相互独立的模块中,最后设计了合理且易于维护的数据库,并通过详细设计与实现,设计了各个功能模块的逻辑结构,编写了模块代码。最后对已经成功实现了的购物子系统进行了全面且完善的测试,通过对测试结果的分析改进了系统,使得系统符合设计要求,各个功能模块均能够正常运行且性能良好。本文实现的购物子系统已上线运行,系统支持用户中心功能,消费者能够通过微信小程序的用户认证功能登录系统,支持实时热门功能,能够实时统计出热门商品并展示于系统页面上,为企业掌握消费者动态和提升商品销售量提供重要支持,使用缓存技术缩短响应时间,提升了用户满意度。
面向流式数据的工业质量数据分析平台
这是一篇关于实时计算,流式数据,大数据可视化,质量数据,数据分析的论文, 主要内容为大数据处理技术是当代信息技术领域的重要发展方向之一,随着大数据相关技术的不断发展与应用,实时计算领域越来越被关注。以Hadoop为代表的基于MapReduce计算框架的大数据处理技术往往是通过批处理方式对历史数据进行分析,而实时计算领域则强调的是对瞬时数据进行在线处理。另一方面,传统工业企业产品在生产过程中,无时无刻不在产生着海量的数据,典型的如工业设备传感器数据等。这些数据的特征是连续、无限增长、无序,并且需要实时响应,被称为流式数据。工业企业在面对这些海量的流式数据时,主要有以下三点问题:1)无法解决海量流式数据的大规模存储问题;2)像对待普通数据一样处理流式数据,无法发挥流式数据实时性的特点;3)传统的技术架构无法对流式数据进行更高维度的分析,不能应用机器学习模型等新兴技术手段去分析处理。显然,以传统的数据分析处理方法并不能对流式数据进行有效的分析及存储。如何去挖掘工业质量流式数据更深层次的价值,对这些质量数据进行各个维度的分析,并且以可视化的形式动态展现给普通用户,是本文研究的主要目的。基于本课题(面向工业企业的质量大数据分析云服务平台)的实际研究背景与需求,本文从一个相对通用的、高可用的实时流式数据处理框架的设计出发,将整个质量数据分析平台细分为以下四个关键模块:1)数据采集模块;2)流式数据实时处理模块;3)数据存储模块;4)大数据可视化模块。总体来说,本文的主要研究贡献有如下三点:1)针对工业质量流式数据的产生场景及特点,以Apache Flume为基础,完成对工业质量数据的实时采集的设计及实现。2)在Spark集群的基础上设计并且实现了一套相对通用的、高可用的实时流式数据处理框架,并且能够在该框架的基础上应用Spark Sql与Spark mlib完成对流式数据的结构化查询以及机器学习模型的应用,使框架具有良好的可扩展性。3)将前后端分离架构应用于大数据可视化模块,使前端项目可以专注于流式数据的响应式展现,达到实时流式数据处理的可视化需求。后端项目可以在基于RESTFUL风格的基础上实现微服务化架构,实现高可用、高并发、低耦合的数据可视化模块。本文从质量数据分析平台的总体设计出发,在各个模块的具体设计与实现上给出了相应的介绍。在某钢厂1580热轧生产线设备产生的真实数据的基础上,完成整个实时流式数据处理流程的构建。
语义分析技术在手机阅读实时推荐系统中的应用
这是一篇关于手机阅读,推荐系统,实时计算,推荐算法的论文, 主要内容为随着手机阅读行业的不断发展,越来越多的用户选择使用手机进行图书阅读。面对海量的电子图书资源,如何根据用户需求快速找到用户想要的书目,帮助用户解决选择困难的问题,成为手机阅读行业的新需求。本课题来源于手机阅读平台的实际项目需求,对原有推荐系统进行改造,以期解决原有推荐系统高延迟,新增项目无法进行“冷启动”的问题。本课题结合具体业务需求,根据图书作为商品的特点:文本信息即为全部信息,设计并实现了基于图书语义分析技术的实时推荐系统。本课题针对商品的特点,从图书标题、摘要、介绍语等自有属性信息和订购率、转订率等营销参数信息出发,将图书相似度拆分为:编辑分、基础分、相似分与协同分,并根据其各自算法的时间复杂度、数据量的大小和时延要求采用不同的算法进行计算,然后得到其加权和作为图书相似度,提高了系统推荐结果的个性化程度与准确率,并解决了系统新增项目无法进行“冷启动”的问题。同时,系统为保证系统推荐结果的实时性与数据的及时可靠处理,通过使用Storm、MapReduce、HBase等开源大数据框架对不同模块的数据采用的不同的处理方式,提高系统数据的处理效率和推荐的实时性。最后,采用A/B测试的方式以及准确率、多样性等推荐系统常见衡量指标对本课题推荐系统进行了验证,以保证推荐算法的有效性。本课题描述的推荐系统已经成功运行在app “咪咕阅读”中,为手机阅读平台带来了良好收益。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕业设计驿站 ,原文地址:https://m.bishedaima.com/lunwen/46183.html