基于Spark的PostgreSQL数据分析扩展中间件的研究
这是一篇关于数据分析,关系型数据库,大数据分析平台,中间件,通信协议的论文, 主要内容为随着科技的发展,在科学研究、互联网应用等诸多应用领域,数据量正快速增长,这些大数据中蕴含着大量的有利于企业进行决策的信息。为了挖掘其中的有用信息,工业界和学术界都提出了越来越多的数据分析算法,传统的关系型数据库无法满足复杂的数据分析需求,新的大数据分析平台应运而生。然而传统的关系型数据库较新的大数分析平台更适应企业现有的架构,且其具备的易用性,易于维护等特性更方便对企业现有系统的维护,因此在关系型数据库的基础上进行扩展相比于全新的平台架构对于企业而言更适应其发展现状。但关系型数据库在面对大数据的分析计算时,比较低效,本文要解决的问题就是在保留关系型数据库的基础上,如何提高关系型数据库的数据分析能力。国内外现有的对关系型数据库数据分析能力进行扩展的解决方案中包括了建立MPP数据库集群以及在大数据分析平台建立SQL查询引擎,但都有其局限性。本文提出的解决方案是在保留传统的关系型数据库结构的基础上,构建中间协议,允许关系型数据库将大数据分析平台作为执行引擎来执行自定义SQL查询函数,并以该协议为基础,构建一端为关系型数据库,另一端为大数据分析平台的异构分析系统。该系统基于中间件中通信协议,接口设计,数据传输,数据处理四个模块的设计,使系统处于松耦合状态,两个平台可以独立的进行数据分析,也可以通过中间件连合使用,使得数据存储和计算模型在物理上隔离,且后台运行的大数据分析平台对关系型数据库不可见,该系统可以扩展到其他的大数据分析平台上,具有高扩展性。系统实现过程中,本文选取了开源关系型数据库PostgreSQL和分布式计算框架Spark作为系统实现的基本组件,并编程实现了中间件,及PostgreSQL和Spark所需的接口。最后,本文通过实验证明了该系统在复杂的数据分析计算上的可用性和高效性,并将该系统用于向公交WIFI用户推荐内容上,进一步验证了系统的高效性及实际应用意义。
基于Spark的PostgreSQL数据分析扩展中间件的研究
这是一篇关于数据分析,关系型数据库,大数据分析平台,中间件,通信协议的论文, 主要内容为随着科技的发展,在科学研究、互联网应用等诸多应用领域,数据量正快速增长,这些大数据中蕴含着大量的有利于企业进行决策的信息。为了挖掘其中的有用信息,工业界和学术界都提出了越来越多的数据分析算法,传统的关系型数据库无法满足复杂的数据分析需求,新的大数据分析平台应运而生。然而传统的关系型数据库较新的大数分析平台更适应企业现有的架构,且其具备的易用性,易于维护等特性更方便对企业现有系统的维护,因此在关系型数据库的基础上进行扩展相比于全新的平台架构对于企业而言更适应其发展现状。但关系型数据库在面对大数据的分析计算时,比较低效,本文要解决的问题就是在保留关系型数据库的基础上,如何提高关系型数据库的数据分析能力。国内外现有的对关系型数据库数据分析能力进行扩展的解决方案中包括了建立MPP数据库集群以及在大数据分析平台建立SQL查询引擎,但都有其局限性。本文提出的解决方案是在保留传统的关系型数据库结构的基础上,构建中间协议,允许关系型数据库将大数据分析平台作为执行引擎来执行自定义SQL查询函数,并以该协议为基础,构建一端为关系型数据库,另一端为大数据分析平台的异构分析系统。该系统基于中间件中通信协议,接口设计,数据传输,数据处理四个模块的设计,使系统处于松耦合状态,两个平台可以独立的进行数据分析,也可以通过中间件连合使用,使得数据存储和计算模型在物理上隔离,且后台运行的大数据分析平台对关系型数据库不可见,该系统可以扩展到其他的大数据分析平台上,具有高扩展性。系统实现过程中,本文选取了开源关系型数据库PostgreSQL和分布式计算框架Spark作为系统实现的基本组件,并编程实现了中间件,及PostgreSQL和Spark所需的接口。最后,本文通过实验证明了该系统在复杂的数据分析计算上的可用性和高效性,并将该系统用于向公交WIFI用户推荐内容上,进一步验证了系统的高效性及实际应用意义。
基于Hive的电商多维分析系统的设计与实现
这是一篇关于数据仓库,大数据分析平台,Hive,ETL,CDH的论文, 主要内容为最近几年,我国大数据在政策、技术、产业、应用等多个层面都取得了显著进展,中国数字经济规模大幅增长。与此同时,电商互联网公司也掌握了其他行业和企业无法相比的大数据,拥有着最精准,最全面的用户数据,因此,运用巨量数据指导企业的运营和加速互联网产品的升级,也形成为了未来电商互联网公司向数据驱动服务和争夺市场份额的共识,而数据源的异构性以及PB乃至TB数量级历史数据的应用转化却对采用传统的企业数据仓库的多维分析带来了巨大的挑战。为了解决海量数据下传统基于大型服务器的数据仓库高额运维代价,以及凭借人员经验迭代互联网产品局限性,本文充分考虑电商用户数据的特点,设计并开发了基于Hive的电商多维分析系统,进而用数据驱动决策和智慧运营,提高数据资源的复用性,该系统实现了基于CDH的大数据平台架构,并在此平台之上实现基于Hive的四层数据仓库,通过分层建设数据仓库,大大提升了数据治理能力,保证了数据质量,优化了传统通过Linux下crontab的作业调度,集成Azkaban作业调度,全面监控数据运行,并实现了电商用户活跃等相关指标,论文的主要工作如下:1.本文研究了现有的大数据平台相关技术,搭建了基于CDH的企业级大数据平台并设计实现了基于CDH平台的Hive数据仓库。2.提出并设计了一种新型的自研组件即基于Kafka的多管道(Pipline)采集模块,解决了异构数据源的加载与存储问题,在异构系统大规模的数据迁移中保证了大数据的数据一致性,很好的控制了数据的质量水平。3.基于Hive提出并设计了四层数仓数据模型,实现了数仓不同层级之间不同粒度数据管理,加速了查询过程与数据计算过程,并运用SSM框架实现了数据可视化。4.集成Azkaban作业调度系统,解决传统数仓人工报表的编写难、维护难、升级难的问题,设计实现数据仓库作业全自动调度并完成系统测试。
风机集群大数据分析平台设计与实现
这是一篇关于微服务,大数据分析平台,BP神经网络,并行化的论文, 主要内容为近年来随着化石能源短缺和环境污染加剧,世界各国日益重视可再生能源的开发和利用。风力发电以其清洁、安全、储能丰富的优势,近年来取得了快速发展。随着我国能源结构转型,风能也将在我国能源结构中发挥越来越重要的作用。因此对风电生产问题进行深入研究具有重要意义。然而,目前风力发电企业仍采用传统的数据库技术、数据处理技术来开展大数据的分析研究。由于缺乏专用技术及工具的支持,数据处理的时效性、可用性不强,对于数据的分析还停留在初级阶段,缺乏深层次的数据挖掘。为了解决当前风电行业数据分析处理响应慢、实时性低、难以处理高维、属性复杂数据等问题,本文设计开发了风机集群大数据分析平台。本文的主要内容如下:(1)论文对风机集群大数据分析平台进行了需求分析,基于微服务思想设计了平台的系统架构和技术架构,完成了平台功能模块的划分和模块间通信方式的设计。(2)针对风力发电数据存在的数据丢失、数据异常等问题,论文采用k-近邻算法完成了缺失数据的填补,采用孤立森林算法对异常数据进行了检测,并通过实例验证了算法的有效性和准确性,同时实现了风力发电数据的归一化处理。(3)基于Spark Streaming实现了BP神经网络模型的并行化,并以风力发电机组功率预测为例进行了验证,证明了经过并行化的BP神经网络模型,在保持高精度预测的同时,可以大大缩短分析预测的时间。(4)在对Kubernetes+Spring Cloud微服务架构研究的基础上,采用Docker、Spring Cloud、Vue、Consul等技术,完成了风机集群大数据分析平台的开发,搭建了基于Mesos的Spark大数据处理集群用于平台数据处理。最后,对本文的主要工作进行了总结,并对本文存在的不足和未来的工作方向进行了展望。
基于Hive的电商多维分析系统的设计与实现
这是一篇关于数据仓库,大数据分析平台,Hive,ETL,CDH的论文, 主要内容为最近几年,我国大数据在政策、技术、产业、应用等多个层面都取得了显著进展,中国数字经济规模大幅增长。与此同时,电商互联网公司也掌握了其他行业和企业无法相比的大数据,拥有着最精准,最全面的用户数据,因此,运用巨量数据指导企业的运营和加速互联网产品的升级,也形成为了未来电商互联网公司向数据驱动服务和争夺市场份额的共识,而数据源的异构性以及PB乃至TB数量级历史数据的应用转化却对采用传统的企业数据仓库的多维分析带来了巨大的挑战。为了解决海量数据下传统基于大型服务器的数据仓库高额运维代价,以及凭借人员经验迭代互联网产品局限性,本文充分考虑电商用户数据的特点,设计并开发了基于Hive的电商多维分析系统,进而用数据驱动决策和智慧运营,提高数据资源的复用性,该系统实现了基于CDH的大数据平台架构,并在此平台之上实现基于Hive的四层数据仓库,通过分层建设数据仓库,大大提升了数据治理能力,保证了数据质量,优化了传统通过Linux下crontab的作业调度,集成Azkaban作业调度,全面监控数据运行,并实现了电商用户活跃等相关指标,论文的主要工作如下:1.本文研究了现有的大数据平台相关技术,搭建了基于CDH的企业级大数据平台并设计实现了基于CDH平台的Hive数据仓库。2.提出并设计了一种新型的自研组件即基于Kafka的多管道(Pipline)采集模块,解决了异构数据源的加载与存储问题,在异构系统大规模的数据迁移中保证了大数据的数据一致性,很好的控制了数据的质量水平。3.基于Hive提出并设计了四层数仓数据模型,实现了数仓不同层级之间不同粒度数据管理,加速了查询过程与数据计算过程,并运用SSM框架实现了数据可视化。4.集成Azkaban作业调度系统,解决传统数仓人工报表的编写难、维护难、升级难的问题,设计实现数据仓库作业全自动调度并完成系统测试。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设小屋 ,原文地址:https://m.bishedaima.com/lunwen/52840.html