基于Spark的出租车大数据时空检索方法与可视化研究
这是一篇关于轨迹数据,时空编码,分布式列式存储,Hilbert分区,交互可视化的论文, 主要内容为近年来,随着居民出行的频繁、交通工具的多样化以及出行数据被密集的采集,轨迹数据呈爆炸式增长。在收集、管理、应用这些数据的过程中,由于轨迹大数据更新速度快、数据量巨大,适用大数据技术处理和分布式数据库存储。但轨迹大数据分布不均匀,存在时空特征,这就导致在组织管理过程中出现了数据写入热、存储倾斜、I/O开销大和检索速度慢等问题。为了解决上述问题,本文对轨迹大数据的存储、时空索引以及可视化现状进行了深入研究,深挖大数据技术和分布式数据库存储的技术原理,研究构建了一种融合数据分区和时空多角度分层组织的轨迹大数据模型,并进一步研究实现了轨迹大数据时空检索方法和交互可视化方法。本文以厦门市出租车轨迹大数据作为数据基础,部署分布式集群,基于Spark计算框架,从时间和空间角度组织管理海量的轨迹数据,探索时空检索方法,并结合多种可视化技术挖掘轨迹蕴含的信息。本文的研究内容主要概括为以下三个方面:(1)构建融合数据分区和时空多维度分层组织的数据存储模型搭建一个主节点两个从节点的Hadoop分布式计算集群,基于Spark计算框架,完成轨迹大数据的预处理和入库。在空间层面,探究基于Hilbert曲线对轨迹数据分区的算法流程,结合预分区机制解决分布式数据库HBase写入热和存储倾斜的问题。在时间层面,本文以天为组织管理单元,按分钟制精细化编码存储,形成全局时空细分方案,提出了基于时空多角度分层组织的数据存储模型。该模型大幅度提升轨迹大数据的存储和计算效率,可为轨迹大数据挖掘与分析提供高效的数据管理模型支持。(2)设计行键结构,构建时空混合编码,探究时空检索模式基于HBase的索引规则,设计行键结构,然后融合数据分区构建时空混合编码,将多维时空数据降维存储到分布式数据库HBase中,对比写入速度。探究精确点查询和时空范围查询模式,通过检索效率对比,表现出良好的查询性能。对轨迹大数据进行分层组织管理,解决轨迹大数据的高效存储和检索问题。实验结果表明,该索引在精确点查询和时空范围查询等方面均表现出良好的查询性能。该模型在不同数量级下均能够有效提升轨迹大数据检索速度,同时保证写入和查询速度相对稳定,可为轨迹大数据挖掘与分析提供高效的检索。(3)搭建前后端完全分离的出租车轨迹大数据可视化平台根据用户对出租车轨迹大数据的使用需求进行需求分析,设计交互可视化方法。后端基于Spring Boots+My Batis组合框架,前端结合Vue2.0架构,搭建一个前后端完全分离的出租车轨迹大数据可视化平台。后端基于融合数据分区和时空多维度分层组织的数据存储模型,通过时空混合索引检索精确点数据和时空范围数据,传输到前端,结合Echarts、逆向热力图等方法完成交互可视化。整个过程便于分析结果可视化、探究出租车的时空分布特征,为多源异构海量时空大数据的可视化分析起到的平台支撑和应用示范的作用。
基于轨迹数据分析的兴趣点推荐系统的设计与实现
这是一篇关于兴趣点推荐,轨迹数据,停留点,SSM框架的论文, 主要内容为随着智能终端的普及和移动定位技术的不断成熟,产生了大量的融合了地理位置信息的数据,轨迹数据就是其中的一种。轨迹数据能够代表具有移动能力的物体(如人类、动物和交通工具)的移动性,在基于地理位置的服务领域具有很高的挖掘价值。目前,轨迹数据挖掘领域已经出现了很多应用,比如对于兴趣点的推荐,即向用户推荐符合他意愿的一个地点,同时,兴趣点推荐也是随着基于位置的社交网络不断发展而出现的一种常见应用。兴趣点推荐不仅能让用户在这个数据爆炸的时代找到符合自身意愿的地点,而且可以为商家提供可观的经济效益。传统的兴趣点推荐方法大多基于位置社交网络中产生的签到数据做出推荐,即根据用户的历史签到信息来推断用户对于其他尚未签到的地点的偏好。然而,签到数据的产生依赖于用户对于地点的签到意愿,具有稀疏性。用户日常出行的轨迹数据则能客观的显示用户的行为规律,暴露用户对于过去已访问地点的偏好。因此,本文将设计并实现一种基于轨迹数据做出的推荐系统,根据用户轨迹数据分析出历史兴趣点再进行推荐。首先,介绍轨迹数据的预处理、停留点提取、停留点聚类等对于轨迹数据的处理算法以及目前现有的推荐算法。然后,使用轨迹数据集对算法加以验证。最后,阐述基于轨迹数据分析的兴趣点推荐系统的系统需求,并按照系统需求进行详细的功能模块划分,完成系统的架构设计、数据库设计和接口设计,且使用SSM框架实现系统。本论文在算法研究阶段使用准确率与召回率评估推荐算法,实验证明推荐效果符合系统的使用要求。最后对基于轨迹数据分析的兴趣点推荐系统进行功能测试,验证了系统的功能并且表明系统可以正常使用。
道路网轨迹相似度计算方法
这是一篇关于轨迹数据,道路网,轨迹相似度,移动对象,向量表示的论文, 主要内容为轨迹相似度计算是轨迹数据分析的主要内容之一,其广泛地应用于轨迹聚类、轨迹模式挖掘等应用。现有的轨迹相似度计算方法在计算道路网轨迹相似度时,算法复杂度高且没有考虑轨迹之间的路网距离。为了解决这个问题,本文提出了一种基于Seq2Seq技术的道路网轨迹相似度计算方法,将道路网轨迹映射成高维空间向量,通过比较高维空间向量之间的距离得到原轨迹之间的相似度。主要研究内容如下:(1)由于道路网轨迹相似度计算首先需要确定轨迹采样点在路网中的位置,为了能够快速地将轨迹采样点匹配到路网上,本文提出了一种基于GRU模型的粗粒度实时路网匹配方法。该方法将轨迹采样点的经纬度信息归一化之后输入GRU模型中,模型结合上一时间的隐含状态能够快速地定位该采样点所在路网中的路段,加速路网匹配过程。(2)为了将路段序列输入到Seq2Seq模型中进行训练,对道路网中的路段进行向量化编码。本文采用skip-gram模型并优化目标函数的设置,对道路网上的所有路段进行向量化编码,使得道路网中距离相近的路段具有相似的向量化编码。(3)将轨迹的路段序列输入Seq2Seq模型进行训练,得到轨迹向量化的编码器。利用该编码器将轨迹编码成高维空间向量,通过比较向量距离得到轨迹的相似度。采用南京市出租车轨迹数据进行测试,实验表明这种相似度计算方法能够大大加快轨迹相似度的计算。(4)为了能够更好地对轨迹等时空数据进行可视化,本文设计并实现了一种基于B-S架构的时空数据可视化工具,此工具能够根据用户提供的数据生成热力图、路线图、动态热力图以及各种辅助表格,为用户提供数据的分析结果并展示。
基于HBase的轨迹大数据查询系统研究与实现
这是一篇关于轨迹数据,轨迹数据索引,时空范围查询,Geohash编码预分区的论文, 主要内容为随着定位技术的广泛应用,海量的移动对象生成了海量的移动轨迹数据。这些轨迹数据中蕴含着丰富的知识与规律,亟待得以高效地利用。轨迹大数据不仅具有大数据的特征,还具有轨迹数据独有的特点,如时空序列性,时空分布不均匀等。轨迹大数据查询系统的构建具有诸多难点,如大数据技术框架下轨迹大数据噪声点的清洗、轨迹大数据的索引与查询等。为了准确高效地查询到满足查询条件的轨迹数据,本文借助Hadoop平台具有的处理、存储大数据的能力,设计并实现了一个基于HBase的轨迹大数据查询系统,并基于实验室积累的海量真实轨迹数据进行了实验验证。轨迹大数据查询系统是轨迹大数据应用的基础与支撑,本文以构建轨迹大数据查询系统为出发点,重点研究了系统构建过程中几个重要模块,包括轨迹清洗、轨迹索引和轨迹查询。具体工作围绕以下三个方面开展:(1)结合原始轨迹数据存在的典型数据质量问题,提出了一种轨迹数据清洗流程。在该清洗流程中,根据原始轨迹数据异常种类的不同,将其分为两类分别进行处理,第一类是根据导入数据的时空边界对轨迹数据进行筛选,将不在时空采集区间上的轨迹数据过滤。第二类则是针对轨迹中出现的漂移点问题,通过设置速度与加速度阈值的方法,由满足阈值条件的最长的子轨迹先作为基准轨迹,通过向两端拓展的方式,完成对轨迹数据的二次筛选。(2)针对轨迹大数据面向对象-时间范围查询与面向时间-空间范围查询两类查询,分别设计了相应的索引结构与存储模型,并对分布架构下的查询方法做出优化。特别是针对时间-空间范围查询的查询需求,创新性提出了一种基于历史数据预分区的索引方法,通过构建辅助二级索引结构,对轨迹大数据的存储进行了优化,从而提升查询的效率,并基于该索引结构提出了空间冗余与空间切割的两种查询方法。通过实验的验证,本文提出的索引及查询方法,可以有效提升具有不均匀分布特征的轨迹大数据的时空查询性能,在保证查询结果准确性的同时,最大限度地减少生成子查询的数量。(3)设计并实现了轨迹大数据查询系统。系统基于Spring Boot开发,利用了Hadoop生态中的Map Reduce、HBase和Flume等组件,实现了轨迹数据从清洗、索引到查询可视化的全生命周期管理,可为后续的分析与挖掘提供保证。系统在应用于疫情防控的查询需求时,针对导入的海量轨迹数据,对象-时间范围查询与时间-空间范围两类查询都可以得到良好的查询时间响应。
基于轨迹数据分析的兴趣点推荐系统的设计与实现
这是一篇关于兴趣点推荐,轨迹数据,停留点,SSM框架的论文, 主要内容为随着智能终端的普及和移动定位技术的不断成熟,产生了大量的融合了地理位置信息的数据,轨迹数据就是其中的一种。轨迹数据能够代表具有移动能力的物体(如人类、动物和交通工具)的移动性,在基于地理位置的服务领域具有很高的挖掘价值。目前,轨迹数据挖掘领域已经出现了很多应用,比如对于兴趣点的推荐,即向用户推荐符合他意愿的一个地点,同时,兴趣点推荐也是随着基于位置的社交网络不断发展而出现的一种常见应用。兴趣点推荐不仅能让用户在这个数据爆炸的时代找到符合自身意愿的地点,而且可以为商家提供可观的经济效益。传统的兴趣点推荐方法大多基于位置社交网络中产生的签到数据做出推荐,即根据用户的历史签到信息来推断用户对于其他尚未签到的地点的偏好。然而,签到数据的产生依赖于用户对于地点的签到意愿,具有稀疏性。用户日常出行的轨迹数据则能客观的显示用户的行为规律,暴露用户对于过去已访问地点的偏好。因此,本文将设计并实现一种基于轨迹数据做出的推荐系统,根据用户轨迹数据分析出历史兴趣点再进行推荐。首先,介绍轨迹数据的预处理、停留点提取、停留点聚类等对于轨迹数据的处理算法以及目前现有的推荐算法。然后,使用轨迹数据集对算法加以验证。最后,阐述基于轨迹数据分析的兴趣点推荐系统的系统需求,并按照系统需求进行详细的功能模块划分,完成系统的架构设计、数据库设计和接口设计,且使用SSM框架实现系统。本论文在算法研究阶段使用准确率与召回率评估推荐算法,实验证明推荐效果符合系统的使用要求。最后对基于轨迹数据分析的兴趣点推荐系统进行功能测试,验证了系统的功能并且表明系统可以正常使用。
基于Spark的出租车大数据时空检索方法与可视化研究
这是一篇关于轨迹数据,时空编码,分布式列式存储,Hilbert分区,交互可视化的论文, 主要内容为近年来,随着居民出行的频繁、交通工具的多样化以及出行数据被密集的采集,轨迹数据呈爆炸式增长。在收集、管理、应用这些数据的过程中,由于轨迹大数据更新速度快、数据量巨大,适用大数据技术处理和分布式数据库存储。但轨迹大数据分布不均匀,存在时空特征,这就导致在组织管理过程中出现了数据写入热、存储倾斜、I/O开销大和检索速度慢等问题。为了解决上述问题,本文对轨迹大数据的存储、时空索引以及可视化现状进行了深入研究,深挖大数据技术和分布式数据库存储的技术原理,研究构建了一种融合数据分区和时空多角度分层组织的轨迹大数据模型,并进一步研究实现了轨迹大数据时空检索方法和交互可视化方法。本文以厦门市出租车轨迹大数据作为数据基础,部署分布式集群,基于Spark计算框架,从时间和空间角度组织管理海量的轨迹数据,探索时空检索方法,并结合多种可视化技术挖掘轨迹蕴含的信息。本文的研究内容主要概括为以下三个方面:(1)构建融合数据分区和时空多维度分层组织的数据存储模型搭建一个主节点两个从节点的Hadoop分布式计算集群,基于Spark计算框架,完成轨迹大数据的预处理和入库。在空间层面,探究基于Hilbert曲线对轨迹数据分区的算法流程,结合预分区机制解决分布式数据库HBase写入热和存储倾斜的问题。在时间层面,本文以天为组织管理单元,按分钟制精细化编码存储,形成全局时空细分方案,提出了基于时空多角度分层组织的数据存储模型。该模型大幅度提升轨迹大数据的存储和计算效率,可为轨迹大数据挖掘与分析提供高效的数据管理模型支持。(2)设计行键结构,构建时空混合编码,探究时空检索模式基于HBase的索引规则,设计行键结构,然后融合数据分区构建时空混合编码,将多维时空数据降维存储到分布式数据库HBase中,对比写入速度。探究精确点查询和时空范围查询模式,通过检索效率对比,表现出良好的查询性能。对轨迹大数据进行分层组织管理,解决轨迹大数据的高效存储和检索问题。实验结果表明,该索引在精确点查询和时空范围查询等方面均表现出良好的查询性能。该模型在不同数量级下均能够有效提升轨迹大数据检索速度,同时保证写入和查询速度相对稳定,可为轨迹大数据挖掘与分析提供高效的检索。(3)搭建前后端完全分离的出租车轨迹大数据可视化平台根据用户对出租车轨迹大数据的使用需求进行需求分析,设计交互可视化方法。后端基于Spring Boots+My Batis组合框架,前端结合Vue2.0架构,搭建一个前后端完全分离的出租车轨迹大数据可视化平台。后端基于融合数据分区和时空多维度分层组织的数据存储模型,通过时空混合索引检索精确点数据和时空范围数据,传输到前端,结合Echarts、逆向热力图等方法完成交互可视化。整个过程便于分析结果可视化、探究出租车的时空分布特征,为多源异构海量时空大数据的可视化分析起到的平台支撑和应用示范的作用。
基于轨迹数据分析的兴趣点推荐系统的设计与实现
这是一篇关于兴趣点推荐,轨迹数据,停留点,SSM框架的论文, 主要内容为随着智能终端的普及和移动定位技术的不断成熟,产生了大量的融合了地理位置信息的数据,轨迹数据就是其中的一种。轨迹数据能够代表具有移动能力的物体(如人类、动物和交通工具)的移动性,在基于地理位置的服务领域具有很高的挖掘价值。目前,轨迹数据挖掘领域已经出现了很多应用,比如对于兴趣点的推荐,即向用户推荐符合他意愿的一个地点,同时,兴趣点推荐也是随着基于位置的社交网络不断发展而出现的一种常见应用。兴趣点推荐不仅能让用户在这个数据爆炸的时代找到符合自身意愿的地点,而且可以为商家提供可观的经济效益。传统的兴趣点推荐方法大多基于位置社交网络中产生的签到数据做出推荐,即根据用户的历史签到信息来推断用户对于其他尚未签到的地点的偏好。然而,签到数据的产生依赖于用户对于地点的签到意愿,具有稀疏性。用户日常出行的轨迹数据则能客观的显示用户的行为规律,暴露用户对于过去已访问地点的偏好。因此,本文将设计并实现一种基于轨迹数据做出的推荐系统,根据用户轨迹数据分析出历史兴趣点再进行推荐。首先,介绍轨迹数据的预处理、停留点提取、停留点聚类等对于轨迹数据的处理算法以及目前现有的推荐算法。然后,使用轨迹数据集对算法加以验证。最后,阐述基于轨迹数据分析的兴趣点推荐系统的系统需求,并按照系统需求进行详细的功能模块划分,完成系统的架构设计、数据库设计和接口设计,且使用SSM框架实现系统。本论文在算法研究阶段使用准确率与召回率评估推荐算法,实验证明推荐效果符合系统的使用要求。最后对基于轨迹数据分析的兴趣点推荐系统进行功能测试,验证了系统的功能并且表明系统可以正常使用。
基于Spark的出租车大数据时空检索方法与可视化研究
这是一篇关于轨迹数据,时空编码,分布式列式存储,Hilbert分区,交互可视化的论文, 主要内容为近年来,随着居民出行的频繁、交通工具的多样化以及出行数据被密集的采集,轨迹数据呈爆炸式增长。在收集、管理、应用这些数据的过程中,由于轨迹大数据更新速度快、数据量巨大,适用大数据技术处理和分布式数据库存储。但轨迹大数据分布不均匀,存在时空特征,这就导致在组织管理过程中出现了数据写入热、存储倾斜、I/O开销大和检索速度慢等问题。为了解决上述问题,本文对轨迹大数据的存储、时空索引以及可视化现状进行了深入研究,深挖大数据技术和分布式数据库存储的技术原理,研究构建了一种融合数据分区和时空多角度分层组织的轨迹大数据模型,并进一步研究实现了轨迹大数据时空检索方法和交互可视化方法。本文以厦门市出租车轨迹大数据作为数据基础,部署分布式集群,基于Spark计算框架,从时间和空间角度组织管理海量的轨迹数据,探索时空检索方法,并结合多种可视化技术挖掘轨迹蕴含的信息。本文的研究内容主要概括为以下三个方面:(1)构建融合数据分区和时空多维度分层组织的数据存储模型搭建一个主节点两个从节点的Hadoop分布式计算集群,基于Spark计算框架,完成轨迹大数据的预处理和入库。在空间层面,探究基于Hilbert曲线对轨迹数据分区的算法流程,结合预分区机制解决分布式数据库HBase写入热和存储倾斜的问题。在时间层面,本文以天为组织管理单元,按分钟制精细化编码存储,形成全局时空细分方案,提出了基于时空多角度分层组织的数据存储模型。该模型大幅度提升轨迹大数据的存储和计算效率,可为轨迹大数据挖掘与分析提供高效的数据管理模型支持。(2)设计行键结构,构建时空混合编码,探究时空检索模式基于HBase的索引规则,设计行键结构,然后融合数据分区构建时空混合编码,将多维时空数据降维存储到分布式数据库HBase中,对比写入速度。探究精确点查询和时空范围查询模式,通过检索效率对比,表现出良好的查询性能。对轨迹大数据进行分层组织管理,解决轨迹大数据的高效存储和检索问题。实验结果表明,该索引在精确点查询和时空范围查询等方面均表现出良好的查询性能。该模型在不同数量级下均能够有效提升轨迹大数据检索速度,同时保证写入和查询速度相对稳定,可为轨迹大数据挖掘与分析提供高效的检索。(3)搭建前后端完全分离的出租车轨迹大数据可视化平台根据用户对出租车轨迹大数据的使用需求进行需求分析,设计交互可视化方法。后端基于Spring Boots+My Batis组合框架,前端结合Vue2.0架构,搭建一个前后端完全分离的出租车轨迹大数据可视化平台。后端基于融合数据分区和时空多维度分层组织的数据存储模型,通过时空混合索引检索精确点数据和时空范围数据,传输到前端,结合Echarts、逆向热力图等方法完成交互可视化。整个过程便于分析结果可视化、探究出租车的时空分布特征,为多源异构海量时空大数据的可视化分析起到的平台支撑和应用示范的作用。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设海岸 ,原文地址:https://m.bishedaima.com/lunwen/47812.html