双权重弹性网-逻辑回归多步筛选算法及其应用
这是一篇关于逻辑回归,正则化,高维数据,高相关性数据的论文, 主要内容为逻辑回归作为一种模型解释度高的分类算法,经常运用于很多领域中,可以得到很好的效果。不过,传统的逻辑回归在处理高维的且变量间相关性很强的数据时,效果不尽如人意。学者们提出过多种解决办法,正则化是其中效果较好的一种方法。本文拟采取正则化的方法,提出双权重弹性网-逻辑回归多步筛选算法。将一范数自适应权重、二范数相关性权重、多步迭代等思想引入逻辑回归模型的正则化惩罚中,实现逻辑回归在高维数据下获得稀疏解并具有较低的预测误差。本研究通过牛顿迭代法实现了算法求解;通过详细的理论推导证明了在适当条件下,本算法具有良好的理论性质,包括变量的符号一致性与估计一致性;将该算法应用在模拟的数据与真实的数据上,结果表明,本文提出的算法可以在逻辑回归模型中选出相对更正确的变量,且具有相对更小的系数估计误差,说明本算法拥有较好的选择变量能力和预测能力。
面向高维数据比较的联合t-分布随机邻近嵌入方法
这是一篇关于高维数据,投影,嵌入,t-分布随机邻近嵌入的论文, 主要内容为高维数据分析在推荐系统、社交网络、生物信息学等众多领域具有重要的研究意义和应用价值。对数据进行可视比较是高维数据分析最重要的任务之一,能够帮助人们确定它们之间的内在联系和共同规律。比如对多变量时序数据作比较,可以挖掘其中潜在的演变规律;或者对深度神经网络不同层的特征图作比较,可以帮助人们理解每个层对内部表示的变换。然而,由于高维数据的复杂性,直接对其进行比较是极其困难的。通过把数据投影到低维空间,人们能够实现比较任务,从而推测出数据本身的变化。对每个数据单独投影是实现该目标最简单的一种方法,但由于许多降维算法优化过程的随机性和不可预测性,这种方法通常会引入不符合需求的变化,比如具有完全相同特征的数据点在前后两次降维结果中可能出现在不同位置。因此,该方式不适用于比较任务。在现有的针对比较任务设计的降维方法中,动态t-分布随机邻近嵌入(Dynamic t-distributed Stochastic Neighbor Embedding,Dynamic t-SNE)是最先进和最具有代表性的工作之一。该方法在经典的t-SNE算法基础上引入一个额外的损失函数项来惩罚每个数据点在不同降维结果中位置的移动。尽管这种方式实现了视觉上的一致性,但对每个点绝对位置的严格约束很容易造成降维结果的失真。除此之外,Dynamic t-SNE要求一次性接收完整的高维数据序列进行优化,计算负担大,内存占用高,因此不适用于流式数据的降维。为了解决上述问题,本文主要工作如下:(1)提出了一种新的可比较降维方法——联合t-分布随机邻近嵌入(Joint t-SNE),它能够为多个高维数据集生成连贯的投影。该方法基于高维空间中的图元频率分布(Graphlet Frequency Distribution,GFD)来捕捉数据点在相邻时间帧之间的相似度,然后使用一个额外的损失项——向量约束,来指导优化过程,以保持跨数据帧中投影点之间的边向量。(2)通过定性和定量的评估,证明Joint t-SNE能够为多个数据集生成同时满足一致性和真实性的降维结果。Joint t-SNE解决了以往方法添加全局约束,不能够反映高维数据局部变化的缺点,更易于用户进行比较任务;同时每次只需要接收两帧数据进行计算,大幅降低了计算成本。(3)将基于GFD的相似度和向量约束应用到了另外几种常见的降维算法上,并通过大量实验证明了该方法的高度可扩展性。
双权重弹性网-逻辑回归多步筛选算法及其应用
这是一篇关于逻辑回归,正则化,高维数据,高相关性数据的论文, 主要内容为逻辑回归作为一种模型解释度高的分类算法,经常运用于很多领域中,可以得到很好的效果。不过,传统的逻辑回归在处理高维的且变量间相关性很强的数据时,效果不尽如人意。学者们提出过多种解决办法,正则化是其中效果较好的一种方法。本文拟采取正则化的方法,提出双权重弹性网-逻辑回归多步筛选算法。将一范数自适应权重、二范数相关性权重、多步迭代等思想引入逻辑回归模型的正则化惩罚中,实现逻辑回归在高维数据下获得稀疏解并具有较低的预测误差。本研究通过牛顿迭代法实现了算法求解;通过详细的理论推导证明了在适当条件下,本算法具有良好的理论性质,包括变量的符号一致性与估计一致性;将该算法应用在模拟的数据与真实的数据上,结果表明,本文提出的算法可以在逻辑回归模型中选出相对更正确的变量,且具有相对更小的系数估计误差,说明本算法拥有较好的选择变量能力和预测能力。
基于智能计算的特征选择研究
这是一篇关于人工蜂群算法,特征选择,高维数据,神经架构搜索的论文, 主要内容为分类是机器学习领域的一个重要课题。随着数据获取技术的快速发展,高维数据集越来越普遍,但并不是所有的特征都与分类目标相关。不相关和冗余的特征甚至会降低分类性能。特征选择作为数据挖掘和机器学习中一种重要的数据预处理方法,旨在选择较少的相关和非冗余的特征,以获得与使用所有特征相似甚至更好的分类性能。特征选择本质上是一个NP难问题。随着维数的增长,搜索空间呈指数增长,因此进行穷举搜索是不切实际的,而元启发式搜索技术被认为是替代传统优化技术寻找最优解的有效手段。人工蜂群(Artificial Bee Colony,ABC)算法作为一种元启发式算法,因其鲁棒性强、结构简单、控制参数少、空间探索能力强等优点已被成功应用于众多领域,但在特征选择方面的潜力尚未得到充分研究。本文提出一种基于ABC算法的方法来进行分类问题的特征选择。针对ABC算法收敛速度缓慢,开发能力不足、内存浪费等缺点,本文引入了一种新颖的基于层次的学习机制,将种群划分为若干个层次,各蜜蜂须向更高层次的较优蜜蜂学习;为了在不同的搜索阶段动态地调整算法的探索和开发能力,进一步提出了一种基于种群多样性的自适应层数确定法。此外,采用了一种准确度优先的更新策略,以获得错误率最低且特征数最少的最优特征子集。在12个广泛使用的高维数据集上与8种最先进的特征选择技术进行比较,实验结果表明改进后的ABC算法在分类精度、特征子集大小和计算时间方面均表现出优越性。对于元启发式算法,探索和开发的良好比例是确保成功解决特定优化问题的最重要标志。本文采用了基于多样性测量的实验分析方法,对改进后的ABC算法的探索和开发能力进行定量评价;并进一步评估了基于层次的学习机制、自适应层数确定法以及准确度优先的更新策略对于平衡算法探索和开发的贡献。实验结果表明上述改进有效提升了ABC算法的开发能力,并在搜索过程中实现了全局探索和局部开发之间的动态平衡。现有的大多数CNN架构搜索都是基于CNN组件或构造良好的块,这两种方法通常会生成无效的CNN架构或泛化能力较差的复杂CNN架构。针对此问题,本文基于改进后的ABC算法,提出了一种自动卷积神经网络(Convolutional Neural Network,CNN)架构设计方法,以有效解决图像分类任务。主要通过为ABC算法设计一种新的编码策略来对任意深度的CNN进行编码,以解决架构搜索中无法预知最佳CNN深度并指定编码长度的难题。同时结合跳跃连接促进产生更深的CNN以提升模型的泛化能力。在广泛使用的基准图像分类数据集上对该模型的性能进行验证,实验结果表明,该模型在分类精度、参数数量和消耗的计算资源方面优于现有的自动CNN架构设计算法,甚至能够取得与自动设计+手动调整CNN方法非常相近的分类精度。
基于近似近邻算法的图像检索研究与应用
这是一篇关于近似近邻检索,SSG,高维数据,K-means聚类,近邻图,图像检索的论文, 主要内容为随着大数据时代的到来,图像尤其是动物图像已经成为网络数据的重要组成部分。从已有的海量数据中有效地检索出动物图像,对于发现动物和保护动物具有重要的意义。由于科学技术的发展,现如今的图像检索普遍是基于内容的,近些年更是将深度神经网络与图像检索结合以获得更准确的检索结果。但是基于深度学习的方式获取的图像特征往往维度很高,而利用这种高维度的图像特征进行检索,在实际应用中往往会带来难以接受的时延问题。基于上述的问题和背景,本文对图像的相似度检索算法做了相关研究。论文完成了以下工作:(1)提出了基于NSSG近邻图结构的改进算法KI-NSSG。本文针对NSSG随机选择起始导航点的问题,提出了算法改进,通过K-means预先划分多个聚类,之后再由这些聚类的中心确定新的导航点集。这种方式会使得导航点在近邻图上的分布更加均匀。算法在检索阶段先用目标点与这些导航点对比,将最近的一个作为起始点再进行检索。上述改进降低了算法时延,提高了算法的可用性。(2)将其他基于近邻图结构的算法HNSW、NSG、NSSG与KI-NSSG进行性能对比实验。实验在四个不同维度的公共数据集:SIFT1M、GIST1M、Crawl、GLo Ve-100上进行,测试了上述算法的查准率、每秒查询数量等指标,并分析了相关算法的表现。实验结果表明了KI-NSSG的可用性。(3)探索KI-NSSG的导航点数量对查询效率的影响并进行实验。将导航点的数量设置为不同的k值,并在上述数据集中进行实验对比,引入NSSG的结果作为参考。实验结果表明,在一定的取值范围内,KI-NSSG算法的检索性能也会随着k值的增大而提高。(4)针对动物图像的检索问题,设计并实现了一个检索系统。系统引入了基于KI-NSSG的图像检索方法。整体采用B/S架构,使用Mysql数据库和文件磁盘存储图像数据,通过静态文件保存图索引,通过Flask+Sqlalchemy框架开发系统后端,前端使用Vue和Element_ui框架开发,并从索引构建、图像检索等功能模块介绍了系统的实现过程和效果。
基于智能计算的特征选择研究
这是一篇关于人工蜂群算法,特征选择,高维数据,神经架构搜索的论文, 主要内容为分类是机器学习领域的一个重要课题。随着数据获取技术的快速发展,高维数据集越来越普遍,但并不是所有的特征都与分类目标相关。不相关和冗余的特征甚至会降低分类性能。特征选择作为数据挖掘和机器学习中一种重要的数据预处理方法,旨在选择较少的相关和非冗余的特征,以获得与使用所有特征相似甚至更好的分类性能。特征选择本质上是一个NP难问题。随着维数的增长,搜索空间呈指数增长,因此进行穷举搜索是不切实际的,而元启发式搜索技术被认为是替代传统优化技术寻找最优解的有效手段。人工蜂群(Artificial Bee Colony,ABC)算法作为一种元启发式算法,因其鲁棒性强、结构简单、控制参数少、空间探索能力强等优点已被成功应用于众多领域,但在特征选择方面的潜力尚未得到充分研究。本文提出一种基于ABC算法的方法来进行分类问题的特征选择。针对ABC算法收敛速度缓慢,开发能力不足、内存浪费等缺点,本文引入了一种新颖的基于层次的学习机制,将种群划分为若干个层次,各蜜蜂须向更高层次的较优蜜蜂学习;为了在不同的搜索阶段动态地调整算法的探索和开发能力,进一步提出了一种基于种群多样性的自适应层数确定法。此外,采用了一种准确度优先的更新策略,以获得错误率最低且特征数最少的最优特征子集。在12个广泛使用的高维数据集上与8种最先进的特征选择技术进行比较,实验结果表明改进后的ABC算法在分类精度、特征子集大小和计算时间方面均表现出优越性。对于元启发式算法,探索和开发的良好比例是确保成功解决特定优化问题的最重要标志。本文采用了基于多样性测量的实验分析方法,对改进后的ABC算法的探索和开发能力进行定量评价;并进一步评估了基于层次的学习机制、自适应层数确定法以及准确度优先的更新策略对于平衡算法探索和开发的贡献。实验结果表明上述改进有效提升了ABC算法的开发能力,并在搜索过程中实现了全局探索和局部开发之间的动态平衡。现有的大多数CNN架构搜索都是基于CNN组件或构造良好的块,这两种方法通常会生成无效的CNN架构或泛化能力较差的复杂CNN架构。针对此问题,本文基于改进后的ABC算法,提出了一种自动卷积神经网络(Convolutional Neural Network,CNN)架构设计方法,以有效解决图像分类任务。主要通过为ABC算法设计一种新的编码策略来对任意深度的CNN进行编码,以解决架构搜索中无法预知最佳CNN深度并指定编码长度的难题。同时结合跳跃连接促进产生更深的CNN以提升模型的泛化能力。在广泛使用的基准图像分类数据集上对该模型的性能进行验证,实验结果表明,该模型在分类精度、参数数量和消耗的计算资源方面优于现有的自动CNN架构设计算法,甚至能够取得与自动设计+手动调整CNN方法非常相近的分类精度。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设港湾 ,原文地址:https://m.bishedaima.com/lunwen/52584.html