基于深度学习的眼底视网膜病变图像分类研究
这是一篇关于眼底图像,卷积神经网络(CNN),视觉Transformer,混合模型架构,眼底疾病分类的论文, 主要内容为病变的早期发现对于眼底疾病的治疗具有重要意义,眼底照相是一种有效且方便的筛查技术,通过它可以检测出常见的眼底疾病。本文旨在利用彩色眼底图像将多种病变眼底区分开来。现有的眼底疾病分类研究通过深度学习技术取得了一些成功,但仅采用全局建模能力有限的深度CNN架构,在分类模型评价指标上仍有很大提升空间,同时诊断多种眼底疾病仍然面临巨大挑战。本文针对眼底图像相较于自然图像存在的不同特点,从眼底数据集的预处理与构建、基于深度卷积神经网络和基于Transformer架构的特征提取器研究、基于混合架构的骨干网络设计等三个方面展开了研究。主要研究内容包括:(1)眼底图像数据集的预处理,包括定位眼底视网膜区域,对图像黑边进行裁剪;对图像进行形态学变换、采用直方图均衡化进行数据增强以实现数据扩充。经过实验验证,该数据扩充方式能有效提高模型的拟合程度并显著提高分类精度。(2)研究包括Goog LeNet、ResNet、Efficient Net等在内的基于深度卷积神经网络的特征提取器以及针对类别不平衡问题提出的加权损失函数,提出基于类别加权的CNN眼底疾病分类器,并分别在经过预处理的眼底图像数据集上验证各自的性能。(3)研究自注意力机制的工作原理以及包括Vi T、Coa T在内的特征提取器,提出基于Transformer架构的眼底疾病分类模型,设计包括全局平均池化层和全连接层在内的分类器,使之能实现分类多种眼底疾病,并使用眼底图像数据集评估它们的性能。(4)研究结合卷积神经网络和Transformer架构的混合架构模型,针对卷积神经网络因缺乏全局感受野而造成的精度损失提出一种结合Transformer自注意力模块的特征提取方法,卷积块提取出眼底图像的局部信息,进一步通过自注意力模块捕捉到不同空间位置之间复杂的相互关系,可以直接检测出视网膜眼底图像中的一种或多种眼底疾病。在特征提取的初始阶段,本文提出了一种多尺度特征融合茎干结构,采用不同尺度的卷积核提取输入图像的低级特征并加以融合,进一步提高了识别精度。实验结果表明,相比一些已提出的基于单一架构或混合架构的网络模型,本文提出的混合模型使用较少的参数量在多项衡量指标上均取得了最先进的性能。
基于视觉Transformer的深度哈希图像检索算法
这是一篇关于图像检索,视觉Transformer,深度哈希,注意力模块的论文, 主要内容为随着互联网技术和移动设备的普及,越来越多的图像和视频被上传至互联网,面对海量的图像数据,快速准确地检索图像变得越来越重要。基于深度哈希算法的图像检索模型通过哈希学习将图像编码为一个固定长度的哈希码来快速检索和匹配,以此解决大数据时代图像检索复杂度高和检索效率低的问题。深度哈希检索算法有两个关键点:特征提取网络和哈希学习。特征提取网络的性能决定了检索模型对图像特征的表征能力和对语义信息的建模能力,哈希学习算法的优劣则决定了生成的哈希码的判别力,进一步影响哈希码匹配的准确率。以往的深度哈希检索模型使用卷积神经网络,利用卷积与池化技术去提取图像的局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这会带来较高的复杂度与计算量。而基于自注意力的视觉Transformer模型能够有效地学习图像的长依赖关系,并且在各种图像任务上表现出了优秀的性能。针对以上问题,本文对深度哈希图像检索算法的两个关键点进行了研究:1、设计了一种注意力增强的视觉Transformer图像检索网络——AE-Vi T。针对视觉Transformer能够有效地学习图像特征的长依赖关系却无法高效地对图像空间局部特征进行建模的问题,在本文提出的AE-Vi T中设计了一个注意力增强模块——AEM,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力以及提升模型收敛速度。实验在不同的哈希码长度下,分别在两种基准数据集上,将AE-Vi T、Alex Net和Res Net作为骨干网络进行对比,验证了AE-Vi T在图像检索任务上的有效性以及优越性,证明了基于视觉Transformer架构的检索模型相较于基于纯卷积神经网络架构的检索模型在图像检索任务上的性能优势。2、在本文提出的特征提取网络基础上,进一步设计了四种基于经典深度哈希损失的图像检索模型和一种基于联合损失的图像检索模型。一方面,通过对比实验,验证了AE-Vi T在不同深度哈希损失函数下的图像检索性能优越性。另一方面,针对分类标签信息没有被充分利用的问题,提出了结合分类损失的对比损失函数——HSC-Loss,实验对比多种经典的深度哈希检索方法和基于Transformer的哈希检索方法,验证了本文所提基于视觉Transformer的深度哈希图像检索算法的优越性。
基于ViT的图像分类算法研究
这是一篇关于图像识别,图像分类,视觉Transformer,迁移学习,数据增强的论文, 主要内容为随着深度学习技术的发展,基于卷积神经网络的图像分类技术已经趋于成熟,由自然语言处理领域引入的Transformer网络为计算机视觉领域的发展提供了新的技术路线。为了尽量保留原始Transformer模型特点而引入的Vision Transformer模型,其结构在处理图像信息的方法具有一定的缺陷,如其简单粗暴的图像分块方法会丢失部分图像信息,不利于图像特征的学习。本文深入学习深度学习技术,结合卷积神经网络基础对ViT网络进行分析,并基于该网络作图像分类研究。主要工作如下:1.通过不同网络模型的选择及对比实验,分析迁移学习方法对训练效果的不同影响。基于卷积神经网络和Transformer类网络设计了一系列对比实验,并在Image Net子集花分类数据集和Food-101数据集上进行训练。每个网络均使用在Image Net上的预训练权重,分析不同分类任务中不同网络的分类效果,并比对不使用预训练权重时各网络的训练效果,实验表明迁移学习的方法对训练效果的提升很大。2.基于数据增强的方法研究在噪声干扰条件下和扩充数据集的条件下网络的训练效果变化。通过引入随机噪点和扰动对原始花分类数据集进行数据增强处理,并基于卷积神经网络和Transformer类网络在新数据集上进行训练分析。实验表明Transformer类网络对局部噪声的扰动具有更强的鲁棒性,自注意力机制计算方法对比卷积计算方法更具优势,而ViT的图像分块操作不利于复杂图像特征的提取。3.设计了一种改进的HFE-ViT网络模型,给出基于该网络模型的图像分类算法,并在flower Aug数据集、Food-101数据集上进行训练和仿真实验。该网络模型中,其层级特征提取结构替换ViT的图像分块操作,并且仿真实验说明层级特征提取结构提升了ViT的训练效果,训练准确率和测试准确率都得到提升。
数据高效的视觉Transformer网络优化研究
这是一篇关于小型数据集,视觉Transformer,图像分类,自注意力的论文, 主要内容为视觉Transformer是一种深度学习模型,最近在图像分类任务中取得了重大突破,并快速扩展到目标检测、语义分割、图像生成等其他计算机视觉任务。但是,视觉Transformer的性能提升需要大量训练数据的支持,这使得真实的视觉任务往往难以满足视觉Transformer对数据的需求。在部分科学、医学等领域,由于难以获得大量图像数据,这种情况尤为突出。此外,由于领域数据的内容跨度很大,已有在Image Net数据集上训练得到的预训练权重也很难迁移到这些领域。因此,研究数据高效的视觉Transformer以降低其数据需求,对于Transformer的实际应用落地具有重要意义。当前解决Transformer数据效率问题的方法一方面注重改变模型参数和训练策略,以提高模型的训练效率和泛化能力;另一方面则将卷积神经网络的优秀归纳偏置引入到Transformer中,以提高模型的学习效率。这些方法都可以在某种程度上提高视觉Transformer在小型图像数据集上的表现,但仍难以与先进的卷积神经网络方法相比。论文首次通过分析视觉Transformer自注意力头的注意距离分布,研究了它在不同规模数据集上的表现模式,并发现小型数据集训练的视觉Transformer相比于足量数据训练得到的模型缺乏局部范围注意的自注意力头。此外,与近期提出的基于局部窗口注意的视觉Transformer方法不同,原始的视觉Transformer无论在何种数据集上都具备全局范围的自注意力头。基于这两个观察,论文提出了一种适当抑制远距离注意的自注意力方法,称为多尺度焦点注意力(Multi-scale Focal Attention)方法。实验结果表明,该方法的准确率相对于基线Vi T在小型图像数据集CIFAR上提升了12%,但在中大型数据集Image Net上存在不到1%的性能损失。为了解决多尺度焦点注意力在中大型数据集上表现不佳的问题,本文在CIFAR数据集上进一步研究了注意力尺度对模型训练损失和精度的影响。实验表明短距离注意模型的精度更高,但长距离注意模型的训练损失更低。这一方面说明具有全局注意的Vi T在训练数据不足时产生了过拟合,另一方面也说明了全局注意的Vi T有更高的拟合能力。论文为此在前一工作的基础上提出了扩散焦点注意力(Swelling Focal Attention)方法。该方法在小型数据集CIFAR10和CIFAR100上分别达到最优分类准确率:98.32%和83.20%,而在中大型数据集(如Image Net)上的结果与现有Vi T性能相当。综上所述,论文从模型注意距离的角度解决了视觉Transformer数据利用效率低的问题。所提出的Swelling Focal Attention能够使视觉Transformer在任意规模的数据集上得到有效训练。
数据高效的视觉Transformer网络优化研究
这是一篇关于小型数据集,视觉Transformer,图像分类,自注意力的论文, 主要内容为视觉Transformer是一种深度学习模型,最近在图像分类任务中取得了重大突破,并快速扩展到目标检测、语义分割、图像生成等其他计算机视觉任务。但是,视觉Transformer的性能提升需要大量训练数据的支持,这使得真实的视觉任务往往难以满足视觉Transformer对数据的需求。在部分科学、医学等领域,由于难以获得大量图像数据,这种情况尤为突出。此外,由于领域数据的内容跨度很大,已有在Image Net数据集上训练得到的预训练权重也很难迁移到这些领域。因此,研究数据高效的视觉Transformer以降低其数据需求,对于Transformer的实际应用落地具有重要意义。当前解决Transformer数据效率问题的方法一方面注重改变模型参数和训练策略,以提高模型的训练效率和泛化能力;另一方面则将卷积神经网络的优秀归纳偏置引入到Transformer中,以提高模型的学习效率。这些方法都可以在某种程度上提高视觉Transformer在小型图像数据集上的表现,但仍难以与先进的卷积神经网络方法相比。论文首次通过分析视觉Transformer自注意力头的注意距离分布,研究了它在不同规模数据集上的表现模式,并发现小型数据集训练的视觉Transformer相比于足量数据训练得到的模型缺乏局部范围注意的自注意力头。此外,与近期提出的基于局部窗口注意的视觉Transformer方法不同,原始的视觉Transformer无论在何种数据集上都具备全局范围的自注意力头。基于这两个观察,论文提出了一种适当抑制远距离注意的自注意力方法,称为多尺度焦点注意力(Multi-scale Focal Attention)方法。实验结果表明,该方法的准确率相对于基线Vi T在小型图像数据集CIFAR上提升了12%,但在中大型数据集Image Net上存在不到1%的性能损失。为了解决多尺度焦点注意力在中大型数据集上表现不佳的问题,本文在CIFAR数据集上进一步研究了注意力尺度对模型训练损失和精度的影响。实验表明短距离注意模型的精度更高,但长距离注意模型的训练损失更低。这一方面说明具有全局注意的Vi T在训练数据不足时产生了过拟合,另一方面也说明了全局注意的Vi T有更高的拟合能力。论文为此在前一工作的基础上提出了扩散焦点注意力(Swelling Focal Attention)方法。该方法在小型数据集CIFAR10和CIFAR100上分别达到最优分类准确率:98.32%和83.20%,而在中大型数据集(如Image Net)上的结果与现有Vi T性能相当。综上所述,论文从模型注意距离的角度解决了视觉Transformer数据利用效率低的问题。所提出的Swelling Focal Attention能够使视觉Transformer在任意规模的数据集上得到有效训练。
基于ViT的多视图图像分类方法研究
这是一篇关于多视图,图像分类,视觉Transformer,多头自注意力的论文, 主要内容为在数字科技的推动下,文创产业与人工智能、大数据等数字科技相结合,逐渐形成了数字文创生态。当下,文创产业数字化制造过程需要加强对文化创意设计的保护,创意设计通常是针对立体对象外观而言由多个视图图像描述,由此针对创意设计的多视图图像分类方法的研究应运而生。传统的单视图图像分类方法难以描述立体对象各视图之间的关系,而多视图图像之间往往具有更多的空间位置信息,可以通过利用图像之间的关联关系进行高效分类,因此如何有效的识别并分类出多视图图像对应的物体是一项值得研究的课题。本文从多视图图像分类方法进行展开研究,论文主要工作有以下几个方面:(1)本文在基于多头自注意力的多视图图像分类方法中,首先提出了一种基于视图的自注意多视图卷积神经网络(Multi-View Convolutional Neural Network based on SelfAttention,MVCNN-SA),通过利用视觉Transformer(ViT)模型中的多头注意力机制评估不同视图之间的相关性,构建单独使用多头自注意力模块的网络模型。然后提出了一种基于深度卷积ViT多视图图像分类模型(Multi-view image classification model based on depth-wise convolution Vision Transformer,MViT),通过利用ViT架构及其多头注意力具有捕获全局特征的特性,解决了关于CNN多视图分类模型难以感知图像间的空间位置关系问题。同时由于ViT缺乏归纳偏置,导致对图像块的局部特征捕捉能力较差,通过在模块中引入深度卷积机制构造基于深度卷积的ViT模块DViT(Depth-wise convolution ViT module)捕捉其局部特性。为了进一步扩大不同样本的间距,缩小同一类样本的特征表达间的间距,引入了对比损失,从而进一步改善模型的分类效果。(2)本文在基于小波变换与全局滤波模块的多视图图像分类方法中,首先提出了一种基于全局滤波模块的ViT多视图分类模型(Multi-view image classification model based on the Global filtering Vision Transformer,MGViT),通过利用傅里叶变换能够学习频域中空间位置间相互作用的特性设计了一种全局滤波模块,利用位置编码和作用在频域上的傅里叶变换挖掘图像内部长距离依赖关系,遵循ViT没有设置归纳偏差的原则,将模型复杂度降低到对数线性复杂性。然后提出了一种联合小波变换的ViT多视图图像分类模型(Multi-view image classification model with joint Wavelet-mix Vision Transformer,MWViT),利用小波分解具有下采样的特性,实现特征图池化,从而能够有效减少特征信息的丢失,混合小波模块将小波分解的三个细节高频分量进行拼接融合再与低频分量拼接,最后在MGViT模型基础上通过融合策略实现整体模型同时能够学习空域特征和频域特征。本文实验在公开数据集Model Net40/10以及广东省知识产权大数据重点实验室的外观设计专利数据集Patent-MNIST上进行了分类任务和消融实验,结果表明了本文方法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码驿站 ,原文地址:https://m.bishedaima.com/lunwen/54481.html