基于视觉Transformer的深度哈希图像检索算法
这是一篇关于图像检索,视觉Transformer,深度哈希,注意力模块的论文, 主要内容为随着互联网技术和移动设备的普及,越来越多的图像和视频被上传至互联网,面对海量的图像数据,快速准确地检索图像变得越来越重要。基于深度哈希算法的图像检索模型通过哈希学习将图像编码为一个固定长度的哈希码来快速检索和匹配,以此解决大数据时代图像检索复杂度高和检索效率低的问题。深度哈希检索算法有两个关键点:特征提取网络和哈希学习。特征提取网络的性能决定了检索模型对图像特征的表征能力和对语义信息的建模能力,哈希学习算法的优劣则决定了生成的哈希码的判别力,进一步影响哈希码匹配的准确率。以往的深度哈希检索模型使用卷积神经网络,利用卷积与池化技术去提取图像的局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这会带来较高的复杂度与计算量。而基于自注意力的视觉Transformer模型能够有效地学习图像的长依赖关系,并且在各种图像任务上表现出了优秀的性能。针对以上问题,本文对深度哈希图像检索算法的两个关键点进行了研究:1、设计了一种注意力增强的视觉Transformer图像检索网络——AE-Vi T。针对视觉Transformer能够有效地学习图像特征的长依赖关系却无法高效地对图像空间局部特征进行建模的问题,在本文提出的AE-Vi T中设计了一个注意力增强模块——AEM,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力以及提升模型收敛速度。实验在不同的哈希码长度下,分别在两种基准数据集上,将AE-Vi T、Alex Net和Res Net作为骨干网络进行对比,验证了AE-Vi T在图像检索任务上的有效性以及优越性,证明了基于视觉Transformer架构的检索模型相较于基于纯卷积神经网络架构的检索模型在图像检索任务上的性能优势。2、在本文提出的特征提取网络基础上,进一步设计了四种基于经典深度哈希损失的图像检索模型和一种基于联合损失的图像检索模型。一方面,通过对比实验,验证了AE-Vi T在不同深度哈希损失函数下的图像检索性能优越性。另一方面,针对分类标签信息没有被充分利用的问题,提出了结合分类损失的对比损失函数——HSC-Loss,实验对比多种经典的深度哈希检索方法和基于Transformer的哈希检索方法,验证了本文所提基于视觉Transformer的深度哈希图像检索算法的优越性。
基于ViT的图像分类算法研究
这是一篇关于图像识别,图像分类,视觉Transformer,迁移学习,数据增强的论文, 主要内容为随着深度学习技术的发展,基于卷积神经网络的图像分类技术已经趋于成熟,由自然语言处理领域引入的Transformer网络为计算机视觉领域的发展提供了新的技术路线。为了尽量保留原始Transformer模型特点而引入的Vision Transformer模型,其结构在处理图像信息的方法具有一定的缺陷,如其简单粗暴的图像分块方法会丢失部分图像信息,不利于图像特征的学习。本文深入学习深度学习技术,结合卷积神经网络基础对ViT网络进行分析,并基于该网络作图像分类研究。主要工作如下:1.通过不同网络模型的选择及对比实验,分析迁移学习方法对训练效果的不同影响。基于卷积神经网络和Transformer类网络设计了一系列对比实验,并在Image Net子集花分类数据集和Food-101数据集上进行训练。每个网络均使用在Image Net上的预训练权重,分析不同分类任务中不同网络的分类效果,并比对不使用预训练权重时各网络的训练效果,实验表明迁移学习的方法对训练效果的提升很大。2.基于数据增强的方法研究在噪声干扰条件下和扩充数据集的条件下网络的训练效果变化。通过引入随机噪点和扰动对原始花分类数据集进行数据增强处理,并基于卷积神经网络和Transformer类网络在新数据集上进行训练分析。实验表明Transformer类网络对局部噪声的扰动具有更强的鲁棒性,自注意力机制计算方法对比卷积计算方法更具优势,而ViT的图像分块操作不利于复杂图像特征的提取。3.设计了一种改进的HFE-ViT网络模型,给出基于该网络模型的图像分类算法,并在flower Aug数据集、Food-101数据集上进行训练和仿真实验。该网络模型中,其层级特征提取结构替换ViT的图像分块操作,并且仿真实验说明层级特征提取结构提升了ViT的训练效果,训练准确率和测试准确率都得到提升。
基于深度卷积神经网络的目标检测研究
这是一篇关于深度学习,卷积神经网络,目标检测,视觉Transformer的论文, 主要内容为随着计算机硬件和深度学习算法的快速发展,目标检测算法的精度越来越高、性能越来越好。然而尽管现有的目标检测技术已经能够应用于实际场景,其现有的性能依然无法达到人类视觉的水准,不能完全替代人工,存在巨大的改进空间。本文主要基于卷积神经网络,在大量研究现有的目标检测算法后,提出了新型的主干网络和新型的目标检测头部网络,并达到了较高的精度。本文具体的研究内容如下:(1)基于对主干网络的研究,受到Meta Former和Conv Ne Xt的启发,设计了纯卷积类似Transformer结构的新型主干网络Embed Former。首先分析了视觉Transformer与Conv Ne Xt的具体区别,提出利用添加嵌入层的深度卷积来作为令牌混合器,实例化一个纯卷积的Meta Former。提出的Embed Former在Image Net-1K图像分类任务中取得了81.7 Top-1准确率,比Swin Transformer高出0.4。在MS COCO目标检测与分割任务中,在Cascade Mask R-CNN算法中作为主干网络,Embed Former取得了48.6 Box AP和42.7 Mask AP。在ADE20K语义分割任务中,在UPer Net算法中作为主干网络,Embed Former取得了45.3 m Io U。实验证明了提出的Embed Former在视觉任务上有着出色的性能。(2)基于对两阶段目标检测算法Sparse R-CNN的研究,证明了现有的对特征金字塔的简单应用并不能很好地适合Sparse R-CNN,并提出区别利用特征金字塔不同特征层的概念。设计了双臂式动态实例交互头,利用特征金字塔底层和顶层分别进行目标位置和类别的预测,以更好地利用特征金字塔。将双臂式动态实例交互头应用在Sparse R-CNN的结构上,提出新型目标检测算法TASD,并在MS COCO数据集上进行验证。以Res Net-50作为主干网络的TASD,在建议数量设为100的条件下能达到44.0 m AP,高出Sparse R-CNN 1.4,而在建议数量为300的条件下更是取得了45.8的SOTA成绩,超越了大多主流的目标检测算法。(3)将提出的新型主干网络Embed Former和新型头部网络TASD组合起来得到一个目标检测模型,在MS COCO数据集上进行训练和验证,取得了46.7 m AP的成绩,并将检测结果可视化。综上,本文主要研究基于深度卷积网络的通用目标检测算法。基于对大量目标检测算法的研究,创新性地提出新型的目标检测网络模块,并在公开数据集上训练和验证了模型的可行性与高性能。
基于ViT的图像分类算法研究
这是一篇关于图像识别,图像分类,视觉Transformer,迁移学习,数据增强的论文, 主要内容为随着深度学习技术的发展,基于卷积神经网络的图像分类技术已经趋于成熟,由自然语言处理领域引入的Transformer网络为计算机视觉领域的发展提供了新的技术路线。为了尽量保留原始Transformer模型特点而引入的Vision Transformer模型,其结构在处理图像信息的方法具有一定的缺陷,如其简单粗暴的图像分块方法会丢失部分图像信息,不利于图像特征的学习。本文深入学习深度学习技术,结合卷积神经网络基础对ViT网络进行分析,并基于该网络作图像分类研究。主要工作如下:1.通过不同网络模型的选择及对比实验,分析迁移学习方法对训练效果的不同影响。基于卷积神经网络和Transformer类网络设计了一系列对比实验,并在Image Net子集花分类数据集和Food-101数据集上进行训练。每个网络均使用在Image Net上的预训练权重,分析不同分类任务中不同网络的分类效果,并比对不使用预训练权重时各网络的训练效果,实验表明迁移学习的方法对训练效果的提升很大。2.基于数据增强的方法研究在噪声干扰条件下和扩充数据集的条件下网络的训练效果变化。通过引入随机噪点和扰动对原始花分类数据集进行数据增强处理,并基于卷积神经网络和Transformer类网络在新数据集上进行训练分析。实验表明Transformer类网络对局部噪声的扰动具有更强的鲁棒性,自注意力机制计算方法对比卷积计算方法更具优势,而ViT的图像分块操作不利于复杂图像特征的提取。3.设计了一种改进的HFE-ViT网络模型,给出基于该网络模型的图像分类算法,并在flower Aug数据集、Food-101数据集上进行训练和仿真实验。该网络模型中,其层级特征提取结构替换ViT的图像分块操作,并且仿真实验说明层级特征提取结构提升了ViT的训练效果,训练准确率和测试准确率都得到提升。
基于视觉Transformer的深度哈希图像检索算法
这是一篇关于图像检索,视觉Transformer,深度哈希,注意力模块的论文, 主要内容为随着互联网技术和移动设备的普及,越来越多的图像和视频被上传至互联网,面对海量的图像数据,快速准确地检索图像变得越来越重要。基于深度哈希算法的图像检索模型通过哈希学习将图像编码为一个固定长度的哈希码来快速检索和匹配,以此解决大数据时代图像检索复杂度高和检索效率低的问题。深度哈希检索算法有两个关键点:特征提取网络和哈希学习。特征提取网络的性能决定了检索模型对图像特征的表征能力和对语义信息的建模能力,哈希学习算法的优劣则决定了生成的哈希码的判别力,进一步影响哈希码匹配的准确率。以往的深度哈希检索模型使用卷积神经网络,利用卷积与池化技术去提取图像的局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这会带来较高的复杂度与计算量。而基于自注意力的视觉Transformer模型能够有效地学习图像的长依赖关系,并且在各种图像任务上表现出了优秀的性能。针对以上问题,本文对深度哈希图像检索算法的两个关键点进行了研究:1、设计了一种注意力增强的视觉Transformer图像检索网络——AE-Vi T。针对视觉Transformer能够有效地学习图像特征的长依赖关系却无法高效地对图像空间局部特征进行建模的问题,在本文提出的AE-Vi T中设计了一个注意力增强模块——AEM,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力以及提升模型收敛速度。实验在不同的哈希码长度下,分别在两种基准数据集上,将AE-Vi T、Alex Net和Res Net作为骨干网络进行对比,验证了AE-Vi T在图像检索任务上的有效性以及优越性,证明了基于视觉Transformer架构的检索模型相较于基于纯卷积神经网络架构的检索模型在图像检索任务上的性能优势。2、在本文提出的特征提取网络基础上,进一步设计了四种基于经典深度哈希损失的图像检索模型和一种基于联合损失的图像检索模型。一方面,通过对比实验,验证了AE-Vi T在不同深度哈希损失函数下的图像检索性能优越性。另一方面,针对分类标签信息没有被充分利用的问题,提出了结合分类损失的对比损失函数——HSC-Loss,实验对比多种经典的深度哈希检索方法和基于Transformer的哈希检索方法,验证了本文所提基于视觉Transformer的深度哈希图像检索算法的优越性。
基于ViT的图像分类算法研究
这是一篇关于图像识别,图像分类,视觉Transformer,迁移学习,数据增强的论文, 主要内容为随着深度学习技术的发展,基于卷积神经网络的图像分类技术已经趋于成熟,由自然语言处理领域引入的Transformer网络为计算机视觉领域的发展提供了新的技术路线。为了尽量保留原始Transformer模型特点而引入的Vision Transformer模型,其结构在处理图像信息的方法具有一定的缺陷,如其简单粗暴的图像分块方法会丢失部分图像信息,不利于图像特征的学习。本文深入学习深度学习技术,结合卷积神经网络基础对ViT网络进行分析,并基于该网络作图像分类研究。主要工作如下:1.通过不同网络模型的选择及对比实验,分析迁移学习方法对训练效果的不同影响。基于卷积神经网络和Transformer类网络设计了一系列对比实验,并在Image Net子集花分类数据集和Food-101数据集上进行训练。每个网络均使用在Image Net上的预训练权重,分析不同分类任务中不同网络的分类效果,并比对不使用预训练权重时各网络的训练效果,实验表明迁移学习的方法对训练效果的提升很大。2.基于数据增强的方法研究在噪声干扰条件下和扩充数据集的条件下网络的训练效果变化。通过引入随机噪点和扰动对原始花分类数据集进行数据增强处理,并基于卷积神经网络和Transformer类网络在新数据集上进行训练分析。实验表明Transformer类网络对局部噪声的扰动具有更强的鲁棒性,自注意力机制计算方法对比卷积计算方法更具优势,而ViT的图像分块操作不利于复杂图像特征的提取。3.设计了一种改进的HFE-ViT网络模型,给出基于该网络模型的图像分类算法,并在flower Aug数据集、Food-101数据集上进行训练和仿真实验。该网络模型中,其层级特征提取结构替换ViT的图像分块操作,并且仿真实验说明层级特征提取结构提升了ViT的训练效果,训练准确率和测试准确率都得到提升。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://m.bishedaima.com/lunwen/48695.html