公交大数据时空特征分布式计算及线路综合评价研究
这是一篇关于公交线路评价,DEA模型,时空特征分析,分布式计算,公交IC卡数据的论文, 主要内容为21世纪以来,我国的经济持续高速发展,机动车保有量的增长势头也连续多年保持强劲。据国家统计局研究,我国机动车保有量保持逐年增长的态势,截至2021年,我国的机动车保有量达到了3.02亿辆,同比增长7.5%。机动车保有量的连年增长,背后蕴含的是居民日益增长的出行需求。据调查相较于其他国家首都城市,北京市私家车出行率最高,然而路网密度却最低,这种居民日益增长的出行需求和并不充分的公共交通供给间存在的矛盾,是形成交通拥堵的最主要原因。因此更加清晰直观地认识乘客的时空出行特征以及时空需求分布情况,为其建立一套符合我国城市公交发展需求、从而为公交发展提供指导性建议的公交评价体系尤为重要。本文主要基于公交IC卡数据,结合GPS数据、公交站点数据以及站点空间矢量数据,采用Hadoop分布式计算对公交IC卡数据进行清洗和处理,利用叠置分析、信息可视化、空间相关性分析等研究方法从工作日和节假日全天和早晚高峰、全市-行政区-线路-公交站点不同时间和空间约束下挖掘北京市公交客流时空特征分布规律以及时空需求分布情况。归纳并总结了具有典型通勤特征的区域和表现较差的站点,为公交线路研究对象的选取与评价计算奠定研究基础。针对分析结果,本文建立了针对公交线路的评价指标体系和评价模型,从公交线路基本布设、运营情况和服务水平三个方面,提出了一种基于改进超效率DEA的综合评价模型,该模型从客流时间特征、空间特征以及客流强度三个方面对建立的公交线路评价体系进行约束并求解效率,避免了单纯采用AHP模型造成评价结果过于主观的问题,满足了城市公交系统动态变化的需求。本文以北京市公交为评价实例,分别采用基于AHM属性层次模型的逼近于理想值的综合评价方法和普通DEA模型以及改进超效率DEA的综合评价模型分别对所构建的评价体系和评价模型进行检验,并选取北京市部分线路作为研究对象进行验证,筛选表现较差的公交线路,结合客流时空特征分析结果找出影响公交线路表现的关键因素,提出了具有针对性的线路和站点的优化策略,为公交线路的改善和优化提供科学依据。本文在进行公交客流时空分析和公交线路综合评价的基础上,基于空间信息可视化技术研发构建B/S架构的公交大数据时空特征及线路综合评价可视化平台,用更加直观、形象的途径和形式,将海量的公交IC卡数据转化成公交车和公交线路的运营状况及运营效率,并在前端进行实时的可视化渲染和分析,为公交线路优化提供了一个可视化工具平台。
基于多样性的社会化推荐系统研究与实现
这是一篇关于推荐系统,社会化推荐,分布式计算,彩铃的论文, 主要内容为随着移动业务的快速发展,信息服务提供商掌握了大量的用户购买信息,同时也有大量的内容需要推荐给客户。在用户个性偏好起着重要决定性作用的情况下,传统的营销方法显得既低效又容易引起用户的反感。在这种情况下,为每个用户生成个性化的营销策略是非常有效与经济的。本文设计并实现了一套基于用户社会化信息的推荐系统,其基本原理是根据用户的购买记录和社交行为等信息,通过采用数据挖掘、社会网络分析等方法发现用户的偏好,最后使用各种推荐算法为用户生成个性化的营销信息。本系统可以用于彩铃下载,网页阅读,书籍阅读,应用下载等移动领域的很多物品上。本系统采用B/S架构,所有计算均在后端服务器上进行,操作人员通过浏览器进行相应的营销活动。本文主要内容为: 1.详细研究了手机用户彩铃购买记录和社交行为,针对特定时间范围的用户兴趣在歌曲类型,歌曲风格,歌手等方面进行偏好分析。 2.利用社会网络分析方法,通过分析用户标签行为,提出一种具有多样性的歌曲推荐算法。 3.基于Hadoop平台研究了分布式环境下的大规模用户推荐问题,并实现了本体提出的社会化推荐算法。 4.将本系统应用于电信彩铃推荐业务,并利用真实数据进行实验验证,得到了较好的实验结果。 由于传统的推荐技术以提高推荐精度为主要目的,推荐列表往往聚焦于少量的流行商品。为了提高用户-系统粘度,针对老顾客在流行性推荐失效后必须考虑推荐列表的多样性,才能满足顾客的个性化需求。怎样才能在兼顾系统精确性的同时也保证推荐结果具有多样性,成为当前推荐系统需要解决的一个重要问题。因此,本文的主要贡献在于利用用户的社会化行为,提出一种同时满足精确性和多样性的推荐方法,不仅能应用于基于社交网络的社会化推荐,在传统基于长尾的推荐任务中,也能起到很好的胖尾提升效果。
脉冲星搜索计算服务平台的研究与实现
这是一篇关于集群管理,Docker,分布式计算,服务平台,微服务的论文, 主要内容为天文数据的搜集和处理是推动天文学发展的重要动力,是理论验证和未知探索的有机结合。中国天眼,500米口径球面射电望远镜(Five hundred meters Aperture Spherical Telescope,简称FAST),在天文数据观测方面有着卓越贡献。目前,贵州师范大学贵州省信息与计算科学重点实验室承担了部分FAST数据的计算,由实验室的脉冲星搜索计算集群来计算脉冲星、单脉冲、快速射电暴等数据。基于FAST的庞大数据量,实验室脉冲星搜索计算集群在硬件与软件上不断升级迭代,共有约150个计算节点参与计算。在集群迭代升级过程中,集群管理问题逐渐暴露出来,集群的多样性和算法的耦合程度让集群管理变得困难。如今,国内外对于集群的管理重点在任务调度和资源管理上,集群自身都基于相同的节点进行搭建,使用成熟的集群管理框架形成分布式的计算集群。在贵州省信息与计算科学重点实验室的脉冲星搜索计算集群中,当前主要使用自主搭建的分布式计算和存储系统如Craber计算加速系统,其均基于已有的计算节点,设计了特定的任务调度程序和数据库,实现了分布式计算方法和任务调度,辅助进行脉冲星搜索计算。针对于脉冲星搜索计算集群的特殊性,以半游离的管理方式设计一个脉冲星搜索计算服务平台对集群进行管理。一方面将节点的物理属性拆解,以逻辑计算机的方式进行管理,脉冲星搜索计算服务平台作为工厂,将原有的针对每个属性的管理指令解析之后重组发送到对应的节点上;另一方面,提出微服务模型,让原有的计算算法能够拆分结构成为计算元,再通过Docker等外层的包装,形成微服务。同时脉冲星搜索计算服务平台将整合数据展示的可视化计算管理和脉冲星搜索计算结果数据的检索,让原有的脉冲星计算过程能够直观感受和管理,在搜集了用户体验和反馈之后,对计算结果的搜索和标注进行优化整合,让平台能够管理从计算到搜索的过程。脉冲星搜索计算服务平台基于Docker容器技术,搭建一套B/S架构模式的服务,以实现快速部署、可视化操作和管理、简单操作复杂任务的目标,并注重软件和硬件的贴合以及更新迭代的可扩展性。从集群架构理念、微服务架构模型、平台架构出发,解释了脉冲星搜索计算服务平台关键技术和设计思路,并展示重要功能的研究和实现。脉冲星计算搜索平台在基本建成的情况下,能够满足研究人员对集群节点的管理、数据和集群可视化以及结果检索等应用需求,一体化的管理使得部署和扩展相对容易,为脉冲星搜索计算集群未来发展提供了平台。
基于Spark的工程机械设备监测大数据平台研究
这是一篇关于数据倾斜,分布式计算,分布式存储,大数据可视化,组件库的论文, 主要内容为在机械设备大数据计算中,数据倾斜一直都是最棘手的问题之一。目前企业拥有机械设备数据的种类和数据结构十分复杂,传统关系型数据库难以很好支持对半结构化和非结构化的数据的存储。并且传统定制式的机械设备数据可视化方式耗时多且对操作人员专业性要求高。除此之外,K-Means聚类算法严重依赖初始中心的确定,高斯混合聚类算法依赖数据样本的分布,难以稳定的对机械设备调度维修中心完成聚类。针对以上问题,本文完成了以下研究:(1)本文提出了一种分类处理的数据倾斜解决算法分类均衡法(Classification Balance Method,CFBM)。首先在抽样统计判别法(Sampling Statistics Discrimination Method,SSDM)的基础上提出了抽样统计抽取法(Sampling Statistics Extraction Method,SSEM),然后根据Spark程序发生倾斜的原因和常用的数据操作算子,将Spark数据倾斜分成五类并使用上述定义的两个方法对其进行判定。针对五类问题,提出数据倾斜的解决方法CFBM算法,该算法针对五类数据倾斜问题分别提出相应的解决方法。最后在某集团的数据集上对CFBM算法进行实验测试,实验结果表明,CFBM算法对于倾斜度严重的数据集有较好的优化效果。(2)本文基于K-Means算法和高斯混合算法GMM提出了面向工程机械设备调度的混合判定聚类算法(Hybrid Decision Clustering Algorithm,HDCA)。首先该算法以K-Means算法和GMM算法聚类的两个结果集为基础,通过计算两个结果集各类别之间的匹配度,划分并确定HDCA算法聚类类别的分布;再根据两类传统聚类算法数据判定的一致性,将数据样本划分为确定性数据和争议数据;然后通过确定性数据确定各类别的中心点,再通过距离判定法将争议数据进行类别划分。最后对HDCA算法进行了正确率对比实验,实验结果表明HDCA算法的正确率远高于两种传统聚类算法,同时略优于其他研究者所研究的算法。(3)设计实现了可视化网页组件库,以组件库为核心实现了一个可定制大数据平台,并以该平台为依托实现了工程机械设备大数据监测业务。本文将构成网页的所有元素进行了提取和归类,将其分为常规图表、地图、辅助图片、文字、媒体和自定义组件等六大类,六大类中又根据各元素属性的不同分为若干小类。组件库采用类似于Vue框架的MVVM模型架构,通过监听的方式实现组件显示、组件状态树和组件参数配置模块三者之间数据的实时同步。本文还以Hadoop作为数据存储支撑,以Spark分布式计算引擎作为计算基础,以Vue前端框架作为技术支撑实现了一个可定制大数据平台,并通过该平台实现工程机械设备大数据监测业务的数据展示。
基于配电网运维管控平台的电力负荷预测研究
这是一篇关于分布式计算,负荷预测,大数据,深度学习,Kmeans-LSTM的论文, 主要内容为随着大数据技术的不断发展,采用大数据技术对电力负荷进行预测将是未来研究的一个重要课题。本文基于配网运维管控平台,研究基于大数据分布式计算的负荷预测系统,将用户历史负荷数据,采用大数据、机器学习、数据挖掘等技术构建相应的负荷预测模型,逐一分析用户的用电特性并进行用户负荷预测,最终将用户的负荷预测数据累加得到全网负荷预测结果。结果表明该模型能够较大的提升负荷预测的速度和精度。其主要研究内容如下。1、基于配网运维管控平台硬件基础,提出一种基于分布式计算技术的机器学习、深度学习的用户侧负荷预测算法,既要达到运算速度快,系统稳定可靠,又要达到结果准确率高,算法调试灵活。2、构建基于Hadoop、Spark框架的大数据分布式计算平台,结合负荷预测的使用场景、功能需求、性能要求等分析,设计包含数据吸收、分布式系统、算法模型、组件集成、服务应用的架构体系。3、设计并实现基于深度学习的负荷大数据预测系统,利用Hadoop、Spark等主流的大数据分布式计算技术,基于JAVA、Scala语言等编程开发语言,解决负荷预测的分布式并行计算问题,并提高负荷预测的速度和精度。4、设计并实现基于配网运维管控平台的负荷预测可视化模块,具备便捷的用户交互方式,降低使用者的使用成本和操作复杂度。模块基于B/S结构开发,综合采用Java Script、HTML、CSS等编程语言,支持浏览器多用户并发访问和远程访问。
游戏日志大数据分析系统的设计与实现
这是一篇关于Hadoop框架,Hive数据仓库,分布式计算,日志分析的论文, 主要内容为日益增长的日志数据,给国内外互联网公司都带来了巨大的挑战,如何快速处理和高效分析这些日志数据成为了他们首要面临的问题。就拿国内著名互联网公司百度公司来说,百度公司每天大约有700GB的日志数据量,节假日期间日志数据量可能达到TB级别,传统的日志分析方式在如此巨大的日志数据量面前,显然已经乏力了。当前最流行的两款分布式计算分析框架Hadoop和Spark已经逐渐成熟,利用分布式技术对日志进行分析已经成为了各个企业研究重点。广州某游戏公司为了解决对日益增多的游戏日志分析,提出了基于Hadoop、Hive和Spark等分布式计算技术的日志处理方案,也就是游戏日志大数据分析系统的设计与实现。通过网络资源和图书馆资源,针对大数据分析查阅大量的相关资料和相关文献,分析和研究离线大数据分析处理工具Hadoop框架和Hive数据仓库以及实时大数据分析处理工具Spark和Kafka。游戏日志大数据分析系统主要依据SpringMVC+Hibernate+Spring进行搭建的Web系统,数据库选择MySql5.6。按照软件工程的方式,首先对系统进行了需求分析包括功能需求分析和性能需求分析,并且使用微软的Visio画图工具,画出了一些用例图,然后对系统的体系结构、系统的数据库以及系统数据采集、系统数据存储、系统数据分析以及系统数据展示四个功能模块进行了设计。系统通过简洁友好的用户界面展示游戏日志分析的数据,并且为系统管理员提供了对用户的管理,系统菜单的管理以及用户菜单权限的管理。更为重要的是该系统为综合研发部第一次使用大数据来分析游戏日志,为今后的大数据相关的开发提供了一些经验。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://m.bishedaima.com/lunwen/47286.html