大数据平台下的数据挖掘算法设计与实现
这是一篇关于大数据平台,数据挖掘,Hadoop,Mahout,M+Kmeans的论文, 主要内容为传统的单机数据挖掘软件在处理海量数据时存在计算能力不足、存储空间有限和内存太小等问题。本文以建立统一高效的数据挖掘系统为目标,通过研究Hadoop平台技术和常见的数据挖掘算法,实现了基于Spring+SpringMVC+Mybatis框架的数据挖掘系统。系统利用开源Weka算法库,重新设计了数据处理类,增加了对数据源格式的支持,集成了12种常用的数据挖掘算法。系统还借助Hadoop Mahout并行算法库,设计并实现了B/S模式的数据挖掘算法调用流程,并针对每种算法的特点,设计相关结果读取流程,使算法运行结果可以通过系统页面直接展现给用户。在系统应用的过程中,发现传统Kmeans算法随机选择中心点进行聚类对结果影响较大,而已有的最大最小值原则的Kmeans改进算法在选取中心点时会重复遍历数据,带来时耗问题。本文根据“最大值原则”提出了一种改进的M+Kmeans算法,优化中心点选取,同时本文实现了M+Kmeans算法的并行化,将算法集成到大数据平台下的数据挖掘系统中,提高了算法的可靠性。
地震大数据机器学习平台
这是一篇关于地震大数据存储方案,HBase,人工智能,Vue框架,Django框架,大数据平台的论文, 主要内容为地震是一种常见的自然灾害,全球每年大概有500万次左右的地震发生,给人类社会带来严重的经济损失和人员伤亡。我国对于地震的相关研究从未停下脚步,自1980年开始到现在全国已经建设了数以千计的地震观测台站,积累了大量的形变、地电、地磁、重力、流体等学科的前兆观测数据。这些数据对于地震行业的研究人员来说具有重要的研究意义,如何存储、如何快速地分析数据,是地震工作者面临的一个难题。大数据技术的出现使得海量地震数据的存储难题迎来了希望曙光,不仅如此,人工智能时代的到来促进了机器学习与深度学习等技术的发展,这为地震数据分析提供了新的思路。对于地震行业工作者来说,利用大数据与人工智能技术搭建一个集数据存取、处理、分析于一体的地震大数据机器学习平台可以对其研究工作起到很大的帮助作用。在数据存储方面,论文提出了一种基于HBase的地震前兆时间序列观测数据存储策略。设计HBase存储模型的关键在于设计合理的Rowkey,地震前兆时间序列观测数据具有多种采样率,以天为单位将Rowkey设计为:台站ID_测点ID_测项ID_采样率_数据日期,其中时间精确到天合并1天内的观测数据作为1条记录。基于HBase的存储方案无论在查询操作方面,还是在插入操作方面,都表现出了很好的性能,可以满足地震行业人员对于科研的需要。在数据分析方面,论文提出了一种基于模板文件的具备高扩展性的算法模型实现方案。根据对传统机器学习、深度学习的研究,将地震数据分析核心业务功能抽象为数据集选取模块、算法模型设置模块、超参数设置模块、模型训练与结果展示模块四部分,用户只需要提供算法的模板文件、前端解析规则文件以及对应的python算法程序就可以订制属于自己的算法模型,这也是平台的创新性所在。该方案为地震大数据平台的各类地震监测、预报及数据管理部门提供数据挖掘、深度分析等大数据服务提供相应的技术探索及验证。在开发技术方面,平台采用了B/S架构模式。Web前端使用Vue,服务器端使用Django框架结合Spark组件进行实现,具有简单易用、高性能、可扩展性强等特点。地震大数据机器学习平台的研究与实现就是为了给地震研究人员提供一个方便、快捷、可靠的地震大数据处理平台,该研究将极大地节省地震行业研究人员的时间,提高其工作效率,进而促进我国地震行业的研究与发展。
基于微博的突发公共事件舆情监测大数据平台设计与实现——以新冠肺炎疫情为例
这是一篇关于微博,舆情监测,大数据平台,数据指标体系,舆情热度模型的论文, 主要内容为近年来,国内外突发公共事件频发,我国网民通过网络社交媒体表达意见的现象日益普遍,客观上对政府部门及其工作人员公正执法、依法施政起到积极监督作用。但若对负面舆情不加约束甚至放纵其野蛮生长,则与舆论监督的初衷相悖,同时也极易造成网络舆情危机——既带偏节奏加大社会治理成本,又为不法分子与敌对势力煽动民情民意提供可乘之机。因此,从技术上有效加强对相关网络舆情数据筛查、监测、规范和应对就不仅必要而且急需。本研究基于舆情的属性与地理空间信息,将大数据技术与网络舆情分析方法相结合,以微博数据为对象,提出了实时和离线微博舆情数据采集与存储策略及分析模型,基于现代信息技术进行大数据平台架构设计与选型,实现能处置突发公共事件的舆情监测大数据平台。解决了现有网络舆情监测系统对海量舆情数据采集、存储与分析能力及不同地理空间网络舆情实时监测与离线挖掘能力的欠缺问题,同时减少数据空间异质性对舆情热度分析的影响。初步试验表明,该系统可满足省、地两级行政区实时与离线舆情监测的需要,助力政府提高舆情应对的技术层次和治理水平。本研究工作内容和成果如下:(1)制定数据采集与存储策略。一是设计实时与离线数据的不同采集策略,采用Scrapy爬虫框架实现数据爬取,一定程度上解决了微博数据爬取信息不完善、时效性差的问题;二是参考地理维度和时间粒度,设计了符合微博数据特征的数据指标体系,定义了数据仓库数据分层模型,并采用Kafka、My SQL与Hive实现实时数据仓库与离线数据仓库的构建,以满足省、地两级行政区实时与离线数据存储与查询需求。(2)建立微博舆情分析模型。针对各地区群众在微博平台发布舆情数据的意愿不同问题,本文提出了改进热量公式舆情热度模型,根据各地区博文发布数量计算地理属性权值,减少数据在各地区之间的空间异质性影响。同时采用朴素贝叶斯情感模型与Bisecting K-Means热点话题模型,共同构成微博舆情分析模型。(3)实现舆情监测大数据平台。在需求分析基础上,进行系统逻辑架构与技术架构的设计,分别使用Spark、HDFS等多种开发技术完成数据采集、数据存储、数据分析、数据服务与数据可视化模块的技术选型与功能开发,并通过容器化管理技术完成各功能模块的镜像部署。最后以新冠肺炎疫情作为应用案例,验证大数据监测平台的可行性和实用性。
基于Hadoop的苹果园大数据平台设计与实现
这是一篇关于苹果园,大数据平台,多源异构数据,Hadoop,卷积神经网络的论文, 主要内容为随着现代信息技术广泛应用于果园的生产管理,果园产生的各类数据飞速增长。果园大数据已成为推动果业转型升级,提高生产决策的重要手段。针对苹果园信息反馈慢、信息化程度低、数据量和运算量大、数据存储效率低等问题,本文结合苹果园多源异构数据的实际需求,采用Hadoop分布式框架,构建了基于卷积神经网络的苹果园图像分类模型,设计并实现了苹果园大数据平台,主要研究工作如下:(1)苹果园大数据平台需求分析。根据农业大数据平台的建设现状及苹果园多源异构数据的特点,对苹果园大数据平台进行了完整的需求分析和功能模块划分,分析了数据采集、数据存储、图像分类管理、数据服务、数据可视化等模块的功能性需求及大数据平台的非功能性需求,为平台的设计、开发和测试提供基础和方向。(2)基于卷积神经网络的苹果园图像分类模型研究。针对苹果园非结构化数据中图像样本的数据存储量大和分析管理难等问题,基于深度学习技术,分别进行数据集准备、模型构建、模型训练和模型试验,获得苹果园图像分类模型,其准确率达到98.89%,为苹果园大数据平台的图像分类管理提供模型支撑。(3)基于Hadoop的苹果园大数据平台设计与实现。根据苹果园大数据平台的需求,搭建了Hadoop分布式集群,设计了数据采集模块、图像分类管理模块、数据存储模块、数据服务模块和数据可视化模块,构建了基于Hadoop的苹果园大数据平台,并对其进行功能测试,经测试该平台满足设计需求,各功能模块运行正常。本文构建的苹果园大数据平台,解决了海量多源异构苹果园数据存储不完整、数据利用率低、数据查询慢和数据管理难等问题,为果园管理精准化、手段信息化和决策科学化提供了平台支撑。
城市智能停车数据管理系统和大数据处理的设计与实现
这是一篇关于智慧停车,数据管理系统,大数据实时处理,大数据平台,可视化分析的论文, 主要内容为随着私家车数量的增长,大中城市的停车压力越来越大,单纯地通过拓展停车空间来增加停车位不太现实,更高效的解决方式是智慧停车。作为城市智能停车服务平台(智慧停车项目)后台服务的子模块,本文主要设计了城市智能停车数据的处理模式,并设计和实现了数据处理在此模式下的具体解决方案。在业务维度上,停车服务平台的数据处理模块主要涉及日常数据的管理和大批量历史数据的处理两方面的需求。相对应可以通过数据管理系统和大数据处理技术来满足停车服务平台的数据处理需求。首先数据管理系统采用前后端分离的模式,后端部分底层通过使用Spring Boot、Mybatis-Plus、Shiro等Java生态后端技术,前端部分底层通过使用Vue、Ant-design-vue,Webpack等前端技术,主要实现了用户登录、权限管理、数据权限和系统管理等功能。其次,大数据处理又包括大数据平台的构建和大数据实时处理和可视化,其中大数据平台的构建主要通过分析和比较流行大数据生态框架,将多个组件进行整合,初步设计出了可以满足多数批量数据处理业务场景的方案。大数据实时处理和可视化模块包括订单数据、车位数据以及车流量数据的实时采集,实时计算以及实时可视化。通过“数据管理系统+大数据平台+流数据的实时处理和可视化”的模式,来满足城市智能停车数据处理的需求,支持智慧停车后台服务,提升信息共享,缓解停车压力。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工厂 ,原文地址:https://m.bishedaima.com/lunwen/46346.html