面向点击率预测模型的自动化机器学习管道的设计与实现
这是一篇关于自动化机器学习,点击率预测模型,超参数优化,数据预处理的论文, 主要内容为随着互联网上的信息量越来越大,如何在海量信息中找到最适合的信息成为了互联网用户的迫切需求,而推荐系统则是能够通过预测用户对信息的点击率进而为用户推荐特定的内容,从而提高用户体验。深度学习技术的发展能够大幅度提升推荐系统算法中点击率预测模型的表现。然而,构建基于深度学习的点击率预测模型仍然面临着很大的问题:(1)构建深度学习模型是一个需要大量重复的工作且十分耗时的过程;(2)推荐系统的工业实践中往往伴随着不断变化的新数据或者新任务,从而需要重新去调整相应的深度学习模型结构以及超参数。针对这样的问题,本课题提出了一个结合了自动化机器学习(Auto ML)和深度点击率预测模型构建(Deepctr)的管道,命名为:Auto-Deepctr。本文实现的Auto-Deepctr管道实现了全流程的深度点击率预测模型的自动化构建。Auto-Deepctr使用机器学习的方法对数据集中的数据特征类型进行预测,然后针对不同的特征类型进行相应的数据预处理操作,实现对数据预处理阶段的自动化。而后本文实现了11个在工业界或者学术界上都具有一定知名度的深度点击率预测模型,这11个模型都是由一系列用于构建深度点击率预测模型的组件而构成。这些组件不仅构成了深度点击率预测模型的层次结构,还定义了各自的超参数搜索空间。最后本文通过实现三个超参数优化算法:随机优化、贝叶斯优化以及遗传算法优化,使用这些超参数优化算法可以实现对各个深度点击率预测模型的超参数自动寻优。本文通过一系列实验证明了Auto-Deepctr管道对于大部分推荐系统数据集的点击率预测任务,都能够做到从输入数据集开始到输出最佳模型的端到端全流程自动化。另外,工程师还能够使用Auto-Deepctr管道中的构成模型的组件来灵活搭建自己的点击率预测模型,然后使用Auto-Deepctr管道的各个超参数寻优算法对该用户构建的模型进行自动寻优。除此之外,本文将Auto-Deepctr管道部署到了一个基于B/S架构的Web应用中去,能够使得非计算机相关的从业人员也能够通过简单的图形化操作使用Auto-Deepctr管道构建深度点击率预测模型。
基于AutoML的图表示学习算法的研究与实现
这是一篇关于图表示学习,AutoML,神经网络架构搜索,超参数优化,图神经网络,注意力机制,子图的论文, 主要内容为在现实世界中图数据无处不在,我们可以使用图数据来建模不同实体以及实体之间的复杂关系,小到蛋白质中的小分子和物理模拟中的粒子,大到全国范围内的大型电网和全球航空公司,由此可见,高效的图数据表示方式在学术界和工业界是重要的研究方向。随着机器学习的发展,图上的机器学习也即图表示学习能够高效地挖掘节点之间的依赖关系,并捕获图数据结构层面的信息,将图中的每个节点从高维空间映射到低维空间中,形成稠密的向量,从而可以将学习到的图表示应用到下游任务中。虽然图表示学习算法层出不穷,且都在下游任务中取得了很好的效果,但现有的研究严重依赖于手动的超参数或者架构设计来实现最佳性能。如果我们在为目标任务设计最佳算法时坚持使用手动调整,当针对各种图任务出现大量模型时,会导致耗费大量人力物力。近年来,自动机器学习(AutoML)已被广泛研究,以减少开发和部署机器学习模型的人力。完整的AutoML管道可以自动化机器学习的每一步,研究者只需要关注于输入以及任务,便可以得到最佳的机器学习模型。图上的自动机器学习,结合了AutoML和图表示学习的优点,正在受到研究界的关注。本文将A ut o ML的思想应用于图表示学习中,设计出自动图表示学习算法,在超参数优化以及神经网络架构搜索中,都能够针对不同领域、不同规模的图数据,在下游任务中得到良好的性能。本文的主要工作有以下三点:(1)提出了基于神经网络预测器的图神经网络架构搜索算法,该算法定义了可以生成拓扑结构的搜索空间,并对架构的节点特征以及边的特征进行了初始化。在搜索策略上,提出了考虑不同边类型信息的基于注意力机制的神经网络预测器,对架构进行了高效的嵌入表示。在节点分类以及链路预测的的下游任务上进行了对比实验,并通过不同的预测器以及架构特征进行消融实验,验证了算法的有效性。(2)提出了基于子图构建的图神经网络超参数优化算法,使用生成子图的方式对原始图数据生成保留结构信息的图概要,并对神经网络预测器进行扩展,在图概要上进行超参数优化过程。算法在不同图数据集上进行对比实验,证明了生成架构的有效性,以及在搜索时间上的高效。(3)设计并实现了自动图表示学习原型系统,提供用户管理、实验管理、算法功能,为用户提供了具有可视化、高度自定义、一站式的自动图表示学习算法应用平台。
基于并行粒子群优化的二阶隐特征分析模型的算法设计与分析
这是一篇关于高维不完备矩阵,隐特征分析,二阶优化算法,粒子群优化算法,超参数优化的论文, 主要内容为在推荐系统中,用户与信息条目的关系通常用高维不完备矩阵进行表征。由于高维不完备矩阵具有高维与不完备的特性,难以直接从高维不完备矩阵中抽取用户与信息条目的内在关系。隐特征分析方法能够通过低维近似的方式逼近原始矩阵,有效实现对高维不完备矩阵的低秩存储与海量缺失数据的预测。为了能够在稀疏数据场景下更精确地预测高维不完备矩阵中的缺失数据,基于免海森优化为代表的二阶隐特征分析模型正逐渐愈发受到关注。但是,基于免海森优化的二阶隐特征分析模型对缺失数据的低秩预测性能在很大程度上会受到模型的超参数选择的影响,不能自适应多种数据场景。粒子群优化可以在不显示表示优化函数的条件下实现对待优化函数的求解,故粒子群优化算法广泛应用于超参数优化。然而,由于粒子群优化算法存在收敛速度慢,以及容易早熟收敛陷入局部最优的缺点,直接利用粒子群优化算法优化二阶隐特征分析模型模型的超参数容易增加更多的时间成本和预测精度损失。因此,本文提出了一种基于分布式并行多阶段和多精英学习策略的粒子群优化的二阶隐特征分析模型,使得模型能更好地自适应多种数据场景。本文的主要研究内容如下:(1)提出了一种基于分布式并行粒子群优化的二阶隐特征分析模型。该模型将分布式并行粒子群优化算法最优化二阶隐特征分析模型的超参数,粒子种群中的每一个粒子的位置都是对二阶隐特征分析模型中一组超参数的抽象描述。通过迭代粒子个体和粒子种群间的最优经验共享,使得二阶隐特征分析模型的超参数能够自适应多种数据场景。(2)提出了一种基于分布式并行多阶段和多精英学习策略粒子群优化的二阶隐特征分析模型。该模型将二阶隐特征分析模型的超参数和隐空间矩阵用粒子的位置进行表示。在不同更新阶段采用不同的学习策略迭代优化二阶隐特征分析模型的超参数,以避免陷入早熟收敛的困境。融入集成学习的思想对不同阶段的粒子的隐特征矩阵进行集成,以获得模型对高维不完备矩阵缺失数据更精确的预测能力。(3)通过在多个真实工业场景产生的高维不完备矩阵上的进行实验,实验结果表明本文提出的基于分布式并行多阶段和多精英学习策略的粒子群优化的二阶隐特征分析模型能够实现超参数的自适应寻优,并且在对高维不完备矩阵的缺失数据具有良好的预测性能和收敛速度。
深度学习优化理论及其应用研究
这是一篇关于人工蜂群算法,神经网络,超参数优化,群体智能算法的论文, 主要内容为近年来,神经网络在各个领域得到了广泛应用,尤其在图像分类问题上表现出优异的性能。然而,神经网络的性能高度依赖于其超参数的选择,不同的超参数设置会导致不同的性能效果。超参数优化问题的特点是运算量大、相关参数相互依赖、范围广、网络架构设计复杂等。因此,传统的人工调参方法存在工作量巨大、计算时长长等问题,且最终结果高度依赖调参和设计者的水平和经验。相比之下,群体智能算法由于其强大的能力、高度的灵活性以及易于并行化等特点而备受各领域研究人员的关注。因此,本文旨在基于群体智能算法研究神经网络超参数的优化问题,并将其应用于图像分类。本文的主要工作包括:(1)针对给定神经网络模型的超参数优化,提出了一种全局最优逐维调整的人工蜂群算法(Artificial Bee Colony Algorithm for Dimensional Optimization of Gbest,GDABC),并将其应用于帕金森诊断上。GDABC算法基于传统人工蜂群算法提出了三点改进:混合编码策略将超参数映射到连续域,范围修剪策略加快算法的收敛,维度调整策略增强算法的局部开采能力。然后,利用该算法优化给定神经网络模型的超参数并在图像分类数据集MNIST上验证优化后的网络模型的性能。最后,针对帕金森在早期难以诊断的问题,利用该算法提出了一种基于深度学习超参数优化的帕金森辅助诊断系统,实验表明经过GDABC算法优化后的Res Net50网络的诊断准确率高于目前的主流的优化方法和帕金森诊断方法。(2)针对给定神经网络模型的超参数优化,提出了一种智能搜索调整的人工蜂群算法(Artificial Bee Colony Algorithm for Intelligent Search Optimization,ISABC),并将其应用于年龄不变的人脸识别上。考虑到GDABC算法后期在优化超参数时可能会陷入局部最优,ISABC算法对侦察蜂采用了反向学习策略有助于算法跳出局部最优。考虑到GDABC算法存在局部搜索能力有限的问题,ISABC算法对维度调整策略加入了圈内舞蹈策略进一步增强算法的开采能力。然后,利用该算法优化给定神经网络模型的超参数,实验证明该算法优化后的模型在图像分类数据集CIFAI10上有更好的性能。最后,针对年龄不变的人脸识别,利用该算法优化网络的超参数,实验表明经过ISABC算法优化后的Res Net18网络提高了人脸识别的准确率。(3)针对未给定神经网络模型的超参数优化(即神经网络结构的设计问题),提出了基于结构搜索的人工蜂群算法(Artificial Bee Colony Algorithm Based on Network Structural Search,NASABC),并将其应用于人体动作识别上。该算法在根据人工蜂群算法设计了编码策略以实现网络结构的编码,提出了新的更新策略以实现网络结构的搜索。最后,在UCI-HAR数据集上,利用NASABC算法自动设计了网络的结构,实现了人体动作行为识别。本文基于人工蜂群算法灵活性高、易于并行化等特点提出了用于优化神经网络超参数的三种智能算法,并利用提出的三种智能算法解决了实际的分类问题。该研究不仅为神经网络超参数优化提供了解决方案,还为提升分类准确率提供了新思路。
基于堆叠宽度学习的三维点云物体识别及其超参数优化研究
这是一篇关于堆叠宽度学习系统,点云,多元自适应回归样条,超参数优化,三维点云物体识别的论文, 主要内容为随着深度学习的不断发展,基于点云和多视角的三维点云识别模型不断被提出,一些研究通过融合点云和多视角数据进行识别,取得了显著成果。现有的方法通过复杂的深度学习结构融合两种模态的数据以学习统一的3D形状描述符,这增加了多模态特征融合的计算复杂性。因此在本文中,一种基于多视图和点云数据融合的三维点云物体识别算法被提出。堆叠宽度学习系统被证明对一维数据有效,因此该算法通过直接将拼接的多模态特征作为堆叠宽度学习系统的输入来快速执行三维点云物体识别。针对堆叠宽度学习系统超参数的设置问题,本文提出了一种参数区间自适应调整的基于多元自适应回归样条的超参数优化算法,该算法可以确定堆叠宽度学习系统中宽度学习块的最优超参数。本文的主要贡献如下:1、提出了一种基于数据驱动的自适应区间超参数优化算法。针对现有的基于多元自适应回归样条的超参数优化算法的不足,为堆叠宽度学习中的宽度学习块进行自适应区间超参数调优。通过将对超参数优化的昂贵黑盒函数优化问题的求解转化为对多元自适应回归样条回归模型的求解,减少进化算法的计算资源的消耗。为了验证算法的有效性,本文在NORB分类数据集和10个UCI回归数据集上与现有的算法比较。实验证明,该算法能取得更优的超参数。2、提出了一种基于多视图和点云数据的三维点云物体识别算法。首先,用Res Net提取多视图分支的多视图特征,然后与Point MLP提取的点云特征进行融合,最后输入到堆叠宽度学习系统之中。为了验证该算法的有效性,在公共点云数据集Model Net40和Scan Object NN上与最先进的方法进行比较。PVSBLS在Model Net40测试集上达到了95.5%的准确率,超越了已有的算法。PVSBLS在Scan Object NN测试集上达到了87.0%的准确率,在Point MLP准确率的基础上提升了1.6%。在最后与现有的基于多视图和点云数据的方法在时间效率上进行对比,实验证明本文提出的方法能有效的增加训练效率。3、本文基于三维点云物体识别的算法研究,开发了基于多视图数据和点云数据的物体识别系统。该系统采用了开源编程库Point Cloud Library(PCL)和C++图形用户界面库QT进行开发,实现了点云数据的读取与可视化、点云去噪、多视图生成和三维点云物体识别等功能。通过该系统,开发人员可以对三维点云物体识别进行相关研究工作,并使用其提供的基础测试工具对相关技术进行验证和优化。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码工坊 ,原文地址:https://m.bishedaima.com/lunwen/54408.html