游客行为数据接入与智能推荐方法研究
这是一篇关于旅游推荐服务,数据接入服务,序列推荐,流式推荐,分布式机器学习的论文, 主要内容为随着“互联网+”不断为旅游业赋能,并由机器学习、大数据从软件层面为旅游业发展提供动力,对传统的旅游领域带来了深刻的变革,在由旅行社主导的传统的跟团游之外,个性化出游愈加的成为人们的出游选择,同时在线旅游整合旅游景点门票、酒店、餐饮、游玩资源的线上销售模式中,产生了大量的游客行为数据,如何对这些数据进行准确的收集获取,进而对用户偏好进行细粒度的捕获成为亟待解决的问题。由于现有的序列推荐算法大多着眼于从整个交互序列提取单一的向量表征用户偏好,对其他辅助信息难以做到充分利用。本文首先针对在线旅游领域的特殊性,选用自注意力机制和商品分类信息的序列推荐方法实现对旅游电商平台的高性能推荐。同时随着游客行为数据的激增,在构建推荐服务时,推荐模型的训练在单机模式下难以满足数据量和时效的需求。为解决上述问题,引入分布式流式处理模式,将游客行为数据建模为时序数据模型,提出了一种基于Spark生态系统的分布式流式推荐模型,运用变分推断结合隐因子模型进行商品推荐。本文的主要工作和贡献如下:(1)为实现游客行为数据的收集工作,实现了基于Flume+Kafka+Spark Streaming的游客行为数据的接入服务,并构建游客行为大数据云平台,运用可视化技术,实现对旅游行业的大数据分析监控。同时在充分分析、整理和研究的基础上,经过脱敏处理后,提取有效字段,分析游客行为特征,构建了基于游客行为的旅游推荐数据集。(2)提出了面向旅游电商领域的基于自注意力机制和商品分类信息的序列推荐算法(Self-attention based Multi-hop Sequence Recommendation for Tourism E-commerce,SATMSRec),STMSRec充分考虑用户交互序列间的时间间隔和序列的绝对位置对输入序列运用自注意力机制进行特征处理,随后将序列输入GRU网络学习全局偏好,然后结合商品层次性分类信息构建多跳推理模型学习多跳偏好,以达到多层次对用户偏好进行捕获。(3)为解决海量数据的训练任务同时适配旅游流式场景,依托Spark生态,提出了基于时序变分推断的流式推荐模型(Temporal Variational Inference based Distributed Tourism Streaming Recommender,TDTSR),使用Mongo DB和HDFS作为分布式数据存储,通过Spark RDD进行数据的流式输入处理,流式推荐模块在深度贝叶斯学习范式下结合深度因子分解模型,运用GRU神经网络结合变分推断构建预测过程,最后将模型运行于Spark On Tensorflow下实现并行化训练。
基于区块链的智能分布式信息共享系统设计与实现
这是一篇关于区块链,分布式机器学习,超级账本Fabric,Kafka的论文, 主要内容为随着信息技术的飞速发展,接入互联网的用户和设备数量激增,万物互联的网络架构为全球新一轮科技革命和产业变革带来了发展动力。而用户、设备数据和信息的安全高效流通和共享是这一发展趋势的核心驱动力,是推动自动化、智能化、信息化建设与发展的重要技术保证。然而异构的系统、庞大的多样性数据、潜在的巨大通信开销为信息共享的有效性、可靠性带来极大挑战。面对这一需求和挑战,人们逐渐聚焦于分布式技术,以期于采用分布式存储、计算、网络架构来实现大规模的、安全有效的信息共享和信息价值获取。由此,本文提出基于分布式区块链技术(超级账本Fabric联盟链),并结合分布式文件存储(星际文件系统IPFS)、分布式机器学习算法等设计智能分布式信息共享系统。该系统主要分为数据处理、数据共享、数据展示三层架构,分别完成数据的采集与模型训练、基于区块链与IPFS的分布式存储和管理,以及区块链信息的展示。作为数据共享的核心,区块链技术的块链式信息存储结构、一致性的分布式节点共识协议、加密的传输和访问机制、自动化操作的智能合约等特征,使其成为支撑分布式信息共享的基础架构;结合IPFS,将文件分割成块,分散地存储到分布式节点中,将每一个文件唯一的Hash值作为寻址地址,存储在区块链中,实现存储的容灾备份机制;在此基础上,采用分布式机器学习实现分布式存储的数据模型分析和共享;最终实现可靠的分布式信息共享系统。针对所构建的系统,研究区块链的共识协议,通过优化共识算法,提高系统效率。具体的,针对Fabric联盟链采用的Kafka共识算法中负载均衡导致消费者消息处理效率下降的问题,优化其负载以改善其均衡性,即根据不同的负载均衡场景优化调整消费者数目,按照业务负载倒序的方式更新消费者和分区的对应关系,优先处理负载较大的业务分区,提高消息传输效率。通过区块链网络实测对所提方法的进行验证,结果表明提出算法在CPU资源消耗比其他算法低5%的情况下,共识速度提升了2%-7%,并且在6个Kafka节点中3个宕机的情况下仍然能共识上链,提升了Kafka负载均衡算法的效率和稳定性。基于提出的系统架构和系统优化方法,采用超级账本Fabric联盟链开发框架,实现了面向智能体数据采集和模型学习的分布式信息共享系统。通过智能体训练模型的实时共享和区块链可视化后台管理系统展示,测试了系统信息存储、传输、共享的安全、可靠。
游客行为数据接入与智能推荐方法研究
这是一篇关于旅游推荐服务,数据接入服务,序列推荐,流式推荐,分布式机器学习的论文, 主要内容为随着“互联网+”不断为旅游业赋能,并由机器学习、大数据从软件层面为旅游业发展提供动力,对传统的旅游领域带来了深刻的变革,在由旅行社主导的传统的跟团游之外,个性化出游愈加的成为人们的出游选择,同时在线旅游整合旅游景点门票、酒店、餐饮、游玩资源的线上销售模式中,产生了大量的游客行为数据,如何对这些数据进行准确的收集获取,进而对用户偏好进行细粒度的捕获成为亟待解决的问题。由于现有的序列推荐算法大多着眼于从整个交互序列提取单一的向量表征用户偏好,对其他辅助信息难以做到充分利用。本文首先针对在线旅游领域的特殊性,选用自注意力机制和商品分类信息的序列推荐方法实现对旅游电商平台的高性能推荐。同时随着游客行为数据的激增,在构建推荐服务时,推荐模型的训练在单机模式下难以满足数据量和时效的需求。为解决上述问题,引入分布式流式处理模式,将游客行为数据建模为时序数据模型,提出了一种基于Spark生态系统的分布式流式推荐模型,运用变分推断结合隐因子模型进行商品推荐。本文的主要工作和贡献如下:(1)为实现游客行为数据的收集工作,实现了基于Flume+Kafka+Spark Streaming的游客行为数据的接入服务,并构建游客行为大数据云平台,运用可视化技术,实现对旅游行业的大数据分析监控。同时在充分分析、整理和研究的基础上,经过脱敏处理后,提取有效字段,分析游客行为特征,构建了基于游客行为的旅游推荐数据集。(2)提出了面向旅游电商领域的基于自注意力机制和商品分类信息的序列推荐算法(Self-attention based Multi-hop Sequence Recommendation for Tourism E-commerce,SATMSRec),STMSRec充分考虑用户交互序列间的时间间隔和序列的绝对位置对输入序列运用自注意力机制进行特征处理,随后将序列输入GRU网络学习全局偏好,然后结合商品层次性分类信息构建多跳推理模型学习多跳偏好,以达到多层次对用户偏好进行捕获。(3)为解决海量数据的训练任务同时适配旅游流式场景,依托Spark生态,提出了基于时序变分推断的流式推荐模型(Temporal Variational Inference based Distributed Tourism Streaming Recommender,TDTSR),使用Mongo DB和HDFS作为分布式数据存储,通过Spark RDD进行数据的流式输入处理,流式推荐模块在深度贝叶斯学习范式下结合深度因子分解模型,运用GRU神经网络结合变分推断构建预测过程,最后将模型运行于Spark On Tensorflow下实现并行化训练。
基于区块链的智能分布式信息共享系统设计与实现
这是一篇关于区块链,分布式机器学习,超级账本Fabric,Kafka的论文, 主要内容为随着信息技术的飞速发展,接入互联网的用户和设备数量激增,万物互联的网络架构为全球新一轮科技革命和产业变革带来了发展动力。而用户、设备数据和信息的安全高效流通和共享是这一发展趋势的核心驱动力,是推动自动化、智能化、信息化建设与发展的重要技术保证。然而异构的系统、庞大的多样性数据、潜在的巨大通信开销为信息共享的有效性、可靠性带来极大挑战。面对这一需求和挑战,人们逐渐聚焦于分布式技术,以期于采用分布式存储、计算、网络架构来实现大规模的、安全有效的信息共享和信息价值获取。由此,本文提出基于分布式区块链技术(超级账本Fabric联盟链),并结合分布式文件存储(星际文件系统IPFS)、分布式机器学习算法等设计智能分布式信息共享系统。该系统主要分为数据处理、数据共享、数据展示三层架构,分别完成数据的采集与模型训练、基于区块链与IPFS的分布式存储和管理,以及区块链信息的展示。作为数据共享的核心,区块链技术的块链式信息存储结构、一致性的分布式节点共识协议、加密的传输和访问机制、自动化操作的智能合约等特征,使其成为支撑分布式信息共享的基础架构;结合IPFS,将文件分割成块,分散地存储到分布式节点中,将每一个文件唯一的Hash值作为寻址地址,存储在区块链中,实现存储的容灾备份机制;在此基础上,采用分布式机器学习实现分布式存储的数据模型分析和共享;最终实现可靠的分布式信息共享系统。针对所构建的系统,研究区块链的共识协议,通过优化共识算法,提高系统效率。具体的,针对Fabric联盟链采用的Kafka共识算法中负载均衡导致消费者消息处理效率下降的问题,优化其负载以改善其均衡性,即根据不同的负载均衡场景优化调整消费者数目,按照业务负载倒序的方式更新消费者和分区的对应关系,优先处理负载较大的业务分区,提高消息传输效率。通过区块链网络实测对所提方法的进行验证,结果表明提出算法在CPU资源消耗比其他算法低5%的情况下,共识速度提升了2%-7%,并且在6个Kafka节点中3个宕机的情况下仍然能共识上链,提升了Kafka负载均衡算法的效率和稳定性。基于提出的系统架构和系统优化方法,采用超级账本Fabric联盟链开发框架,实现了面向智能体数据采集和模型学习的分布式信息共享系统。通过智能体训练模型的实时共享和区块链可视化后台管理系统展示,测试了系统信息存储、传输、共享的安全、可靠。
无线环境中的多智能体半监督机器学习分析与验证
这是一篇关于分布式机器学习,半监督学习,无线通信网络,多智能体验证系统的论文, 主要内容为随着人工智能技术和机器人技术的迅速发展,在污染场地修复、自然灾害现场等有毒有害、危险性高的场景中使用无人设备代替人类工作逐渐成为共识,多智能设备协同工作的需求也日益高涨。然而,上述应用场景的地形地貌通常动态变化,环境中植被、动物、障碍物等也具有区域特色,因而对智能技术提出了更高要求。本文从多智能设备协同工作的场景出发,对无线通信支持的多智能体分布式机器学习问题进行分析验证研究,根据环境的动态变化特性和区域特点,引入基于伪标签的半监督学习技术,以达到根据应用场景实时采集样本、实时训练模型的目的,并最终实现了无线环境下多智能体分布式半监督机器学习系统的验证。本文的具体工作包括:(1)以污染场地修复场景为例,对无线环境中多智能体分布式机器学习验证系统的功能需求进行了分析,并对系统进行概要设计,拟定了分布式半监督机器学习算法设计与实现、无线环境中的分布式半监督机器学习算法分析与实现、多智能体半监督分布式机器学习验证系统交互界面三项主要功能,设计了层次化的系统结构,定义了各模块间的接口,制定了相应模块的研究、开发技术路线。(2)设计实现了一种分布式半监督机器学习算法。本文采用基于参数服务器的分布式机器学习架构,选定数据并行、同步通信的经典模式,分析了各智能体节点本地无标签样本的伪标签预测过程,定义了考虑伪标签样本的本地损失函数,推导了各节点利用本地样本执行随机梯度下降算法的模型参数更新过程,并给出了各智能体节点和参数聚合节点执行的算法。在此基础上,基于分布式Tensor Flow实现了分布式半监督机器学习仿真程序,对比了不同的聚合间隔和伪标签样本占比对分布式模型收敛性的影响。(3)研究了非理想无线传输环境对分布式半监督机器学习算法收敛速度的影响。由于实际场景中多智能体之间的通信只能通过无线通信实现,本文进一步分析了模型参数传输中无线链路失效因素对模型收敛性的影响,明确了无线链路失效概率与模型收敛速度之间的数学关系,并通过模拟无线链路失效的参数聚合过程仿真验证了分析的正确性,说明了无线环境下多智能体分布式机器学习实施的可行性。(4)设计了无线环境中多智能体分布式机器学习验证系统,拟定了页面数据和动画展示以及与分布式机器学习训练程序的数据交互实现方案,模拟了多智能体巡检小车本地训练更新和参数聚合的无线传输过程,展示了以污染场地修复为例的验证系统界面。页面搭建通过HTML、Java Script、CSS编程,实现的主要功能包括:对训练过程参数的控制、训练过程数据和结果数据的展示、聚合过程参数上传情况效果展示,以及智能巡检小车遭遇异常标志位检测并执行异常样本测试的过程。页面与后端DML程序的交互功能基于Flask框架实现,通过HTTP请求进行数据的传输,在Flask框架的视图函数中实现对后端程序模型训练函数的调用。最终实验展示表明,该系统准确地实现了分布式模型训练过程的可视化,具有良好的人机交互功能。
面向分布式边缘学习的混合测试平台设计与实现
这是一篇关于测试床,模拟器,边缘计算,分布式机器学习的论文, 主要内容为近年来,边缘计算的蓬勃发展给机器学习带来了新的挑战和机遇。传统的云端机器学习需要收集用户数据以完成模型训练,但这有泄露数据隐私的风险。而在边缘计算的场景下部署分布式机器学习,即分布式边缘学习,不需要收集用户数据便能完成模型训练。因此,该方案有望成为既能保护用户数据隐私,又能利用数据价值的下一代机器学习解决方案。然而,开发和测试分布式边缘学习面临着众多新的挑战。一方面,当前缺乏对分布式边缘学习通用功能的抽象和封装。研究人员只能依靠原生机器学习库和网络通信库来开发功能模块。这极大地增加了开发难度,不利于在同行之间验证实验。另一方面,边缘计算的测试环境需要拥有大规模、资源异构的节点,以及灵活的网络拓扑。然而,现有的测试平台都是单一架构,有着固有的优缺点。物理测试平台有较高的测试可信度,但往往规模小并且缺乏网络拓扑灵活性。仿真测试平台和模拟测试平台则在测试环境规模、网络拓扑灵活性上有较好的表现,但难以提供高可信度的测试结果。这些测试平台都难以提供理想的边缘计算测试环境。针对这些现状,本文提出Edge TB系统,以对分布式边缘学习的开发和测试提供支持,具体内容如下:(1)我们设计并实现了Edge TB系统,这是首个混合架构的测试平台,它提供了许多模拟节点来生成大规模和网络拓扑灵活的测试环境,同时结合物理节点来保证测试结果的可信度。Edge TB是第一个跨模拟器和物理边缘计算设备而构建的混合边缘计算测试平台,能提供理想的边缘计算测试环境。(2)我们提出面向角色开发的理念,并封装可重用库以支持分布式边缘学习应用的快速开发。这是第一个用于开发多种分布式边缘学习应用的通用库。我们进而开发出Federated Learning、Gossip Learning、E-Tree Learning等多种架构的分布式边缘学习应用。(3)我们提出了一种在大规模测试环境中将虚拟边缘节点映射到物理计算设备的映射算法。即使在测试环境所需资源接近物理环境拥有的资源的极端情况下,该算法也可以有效地找到可行的映射方案。(4)我们进行了广泛的案例研究和实验,以证明研究人员可以使用Edge TB系统开发分布式边缘学习应用并在高可信度、网络拓扑灵活的大规模测试环境对其进行测试。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工厂 ,原文地址:https://m.bishedaima.com/lunwen/55113.html