给大家分享10篇关于Swin Transformer的计算机专业论文

今天分享的是关于Swin Transformer的10篇计算机毕业论文范文, 如果你的论文涉及到Swin Transformer等主题,本文能够帮助到你

基于Transformer的垃圾图像分类研究

这是一篇关于垃圾分类,图像识别,卷积神经网络,Transformer,Swin Transformer的论文, 主要内容为近年来,垃圾分类已成为我国绿色发展理念的重要组成部分。垃圾分类是将生活垃圾按照材质或成分进行分类,并进行资源化处理的过程。垃圾分类的有效实施可以减少土壤、水质、空气等环境的污染,有利于保护环境和维护生态平衡。然而,由于日常生活中产生的垃圾种类繁多,传统的人工分类方式效率低且容易出错。因此,本文基于深度学习技术,构建了基于Transformer框架的垃圾图像分类网络模型,帮助人们更好地完成日常垃圾分类工作。本文的主要研究内容如下:(1)针对垃圾图像分类模型的精度问题,本文研究了基于卷积神经网络的分类模型,包括Alex Net、VGGNet和Res Net模型。通过研究发现,这些模型在本文自制垃圾分类数据集上的识别准确率不高。因此,为了进一步提高垃圾分类网络模型的识别准确率,本文对Swin Transformer模型进行了详细的分析与研究,为进一步提高该模型的性能,本文融合了SPT(Shifted Patch Tokenization)与LSA(Locality Self Attention)算法思想,分析了它们在Swin Transformer模型上的最佳组合方案,并构建了改进后的Swin Transformer模型。最终本文改进后的Swin Transformer模型在自制垃圾分类数据集上达到了88.1%的准确率,相比Swin Transformer基础模型有进一步的提升。(2)针对Transformer垃圾图像分类模型的轻量化问题,本文构建的Swin Transformer模型参数量很大,这不利于模型部署在移动端场景。为了在保持高准确率的情况下,实现轻量化的模型部署,本文对Mobile Vi T垃圾分类网络模型进行了优化和改进,构建了一种具有较高识别准确率的轻量化垃圾图像分类模型。实验结果表明,与纯视觉Transformer网络模型相比,本文基于Mobile Vi T改进后的模型参数量减少近10倍,并且准确率仍能达到86.2%;与其他轻量化模型对比,基于本文构建的轻量化模型在垃圾分类任务上的准确率要高于Squeeze Net和Shuffle Net等网络模型。

基于Swin Transformer的单目深度估计研究

这是一篇关于单目深度估计,Swin Transformer,迁移学习,Grad-CAM,SimMIM的论文, 主要内容为单目深度估计任务是计算机视觉领域中的一个基本且重要的研究课题。其目的是在单个视角下从RGB图像中产生像素级深度图。这种深度信息有助于更好地理解三维场景,在场景重建、自动驾驶和机器人导航等领域有着广泛的应用。计算机视觉任务长期以来被深度卷积神经网络所主导,近年来,基于Transformer的深度学习网络架构在计算机视觉领域多个任务中表现出优越的性能。本文就Transformer的衍生架构Swin Transformer在单目深度估计任务的适用性和改良网络结构进行研究。在像素级图像任务如单目深度估计中,需要使用高分辨率图像作为输入,因此模型计算量和计算复杂度的设计是否恰当是决定是否可以训练得到兼具高效率和高精度网络模型的关键。针对单目深度估计任务,先前的一些工作致力于提出基于Vision Transformer的网络架构,然而,这些网络模型的计算量和复杂度大,对于密集预测视觉任务并不完全适用。对于有监督学习,本文采用一种分层的Transformer,即Swin Transformer,作为单目深度估计的特征提取编码器,针对编码器的不同变体,设计了一个基于空间重采样模块和Refine Net的可适应性解码器。为了验证网络结构的有效性,本文在单目深度估计公开数据集NYU Depth V2上进行实验分析,实验表明,本文提出的编解码器结构在数据集上进行微调,也能在单目深度估计这一密集预测任务中产生实质性改进,实验结果与Transformer模型DPT-Hybrid相比,能够达到更好的深度估计结果。此外,本文提出基于Grad-CAM的可视化评价模型,对本文提出的深度估计模型进行逐层可视化分析,逐步剖析其高可用性。近年来,NLP和计算机视觉在基本建模和学习算法以及多模态应用中出现越来越多的重叠。掩码图像建模MIM是掩码信号预测的一个子任务,它对部分输入图像进行掩码,让深度网络以可见图像为条件预测掩码图像,以无监督方式进行表示学习。本文提出基于Sim MIM的单目深度估计模型,通过将Sim MIM在Image Net数据集上进行无监督预训练的Swin Transformer模型参数进行迁移,对本文编码器进行权重初始化。实验结果表明,使用Swin Transformer作为基础架构的Sim MIM模型,能为单目深度估计中的有监督微调实验的预测结果带来性能上的提高,同时能在一定程度上解决由于模型容量增长而引起的数据饥渴问题。

基于Swin Transformer的单目深度估计研究

基于Transformer的垃圾图像分类研究

基于Transformer的条纹图去噪方法研究

这是一篇关于条纹图去噪,FFDNet,Swin Transformer,GoogLeNet,U-Net的论文, 主要内容为基于条纹图投影的三维测量技术具有非接触、高精度、高效率、低成本等优点,是应用最广泛的无损检测技术之一。在条纹图采集过程中,受到外界环境及设备自身的影响,采集的条纹图存在噪声。噪声会降低条纹图的质量,影响后续相位提取的精度,最终导致测量结果的准确度降低。近年来,基于深度学习的去噪方法在条纹图质量增强中取得了较好的效果,但是卷积核的平移不变性限制了卷积神经网络的去噪能力,而以自注意力机制为核心的Transformer具有获取全局信息的优势。因此,融合两者优点构建神经网络去噪模型,从而获得更好的去噪效果。本文的主要工作如下:(1)针对大多数的卷积神经网络模型不能很好处理空间变化噪声的问题,提出一种改进FFDNet的条纹图去噪方法。使用Leaky Re LU激活函数解决网络的神经元“死亡”问题,提高模型的正则效果。同时,使用Dense Net提高网络特征图的利用率,降低网络的参数量和计算成本。实验结果表明,相较于FFDNet,改进FFDNet的去噪效果提升了9.8%,而且参数量减少了75%。(2)针对卷积无法对图像信息之间的依赖进行建模的问题,提出一种FPD-Swin TG的条纹图去噪方法。首先,设计了由多个Swin Transformer层和一个Inception网络组成的LRST模块,能够实现图像信息之间的权值建模及上下文信息交互,并且加强网络的局部特征提取能力。然后,利用残差块将浅层特征与深层特征形成残差连接,缓解了网络过深造成的梯度消失问题。实验结果表明,相较于改进的FFDNet算法,Swin TG算法的去噪效果提升了10%,并且能很好地恢复条纹图中的边界信息。(3)针对FPD-Swin TG神经网络模型去噪速率较低的问题,提出一种FPD-SUNet的条纹图去噪方法。在FPD-Swin TG网络的基础上,构建了一个Swin-Incep模块,从而提高网络的计算效率及减少网络权重参数。并且,将Swin-Incep模块作为U-Net的特征提取模块,进一步提高网络的局部及非局部的建模能力。实验结果表明,相比FPD-Swin TG算法,FPD-SUNet算法的网络权重参数量减少了68%,去噪速率提高了50%。

基于改进HRNet网络的少数民族服饰图像检索技术研究

这是一篇关于民族服饰图像检索,HRNet,Vision Transformer,Swin Transformer,重排序的论文, 主要内容为我国少数民族的传统服饰纹饰复杂,构图特殊,对少数民族图像的检索任务是很大的挑战。一方面,当前基于图像内容的少数民族服饰图像检索算法性能有限。另一方面,由于少数民族服饰图像色彩丰富、款式多样,所以服饰图像包含丰富的语义特征,若使用传统的时尚服饰或日常服饰的检索算法,进行少数民族服饰检索任务时,往往会忽视服饰局部语义特征线索。普通的基于卷积神经网络的模型能够从服饰图像中提取深度语义特征,在普通的服饰图像检索算法在大型公共数据集的表现上较好,但忽略了少数民族服饰图像各个部件与配饰的细粒度特征,检索效果并不理想。因此本文提出了一个基于改进HRNet网络的少数民族服饰图像检索算法,并实现了一个基于改进HRNet网络的少数民族服饰图像检索系统。主要的工作围绕以下4点展开:(1)建了一个少数民族服饰图像数据库。将2096张少数民族服饰图像按服装款式分为了50类。将所有服饰图片的关键点按头饰、左肩、右肩、左腕、右腕、左裤脚、右裤脚等7个关键点做好标注,将所有标注信息(包括边界框、人体遮罩和关键点标注)以文件的形式保存在数据集中,建立了一个包含民族服饰图像、民族服饰类别和关键点等标注的民族服饰图像资源库。(2)分别使用特征描述子Hog、Daisy和基于Vision Transformer模型的改进网络在图像数据库中提取图像特征。将所有标注信息(包括边界框、人体遮罩和关键点标注)以文件的形式保存在一个包含民族服饰图像、民族服饰类别和关键点等标注的民族服饰图像资源库中。本文提取了所有数据集图像的HOG和Daisy特征并保存下来,然后,将数据集图像图输入一组改进Vision Transformer中提取另一组特征。按照少数民族分类的方法训练了Vision Transformer模型,待该模型训练完成后,从最后一个隐藏层提取一组输出特征并保存,这些特征将用于检索过程中的图像重排序。(3)提出了一种基于改进HRNet网络的少数民族服饰图像检索算法。通过改进的HRNet识别出服饰关键点,并将改进的HRNet作为整个网络的骨干网络用来提取特征,骨干网络的输出直接作为一组特征向量。然后将服饰关键点信息和特征图输入到一个改进的Swin Transformer编码器进行序列化编码,并得到另一组特征向量。将两组输出拼接起来,得到检索特征。使用检索特征间的欧氏距离作为服饰图像检索的主要依据,在辅以输入图像的其它特征对检索结果进行重排序。在少数民族服饰数据集上以Top-k准确度作为评估指标,结果表明本文方法比Deepfashion、DARN等传统检索方法性能更好,在数据集上的Top-20高达99.0%。(4)基于改进HRNet网络的少数民族服饰图像检索系统的设计和实现。用户输入一张服饰图像,就能通过本系统检索相似图像。该系统采用Py Qt5实现前端可视化效果,集成了显示与交互功能、加载检索模型权重功能、特征处理功能、关键点检测功能和图像检索功能。该系统达到了为用户提供用户界面友好、交互性强的民族服饰图像检索系统的效果。

基于Swin Transformer的单目深度估计研究

基于改进HRNet网络的少数民族服饰图像检索技术研究

基于Transformer和CNN融合的脑肿瘤分割算法研究

这是一篇关于脑肿瘤分割,卷积神经网络,Swin Transformer,注意力机制的论文, 主要内容为基于深度学习的卷积神经网络被广泛地应用于医学图像领域。由于卷积运算不能很好学习全局的和长序列的语义信息,限制了其在脑肿瘤图像分割上的表现。Transformer将图像处理成图像块序列去做预测,其内部使用的自注意力机制,加强了对图像全局特征信息的提取,但其低层次细节处理能力相对有限。为解决上述问题,将Transformer处理的全局图像信息和CNN处理的低层次细节特征结合在一起,可以更好、更有效的捕获脑肿瘤图像特征。而Swin Transformer以层次化的方式构建Transformer,内部的基于移动窗口的多头自注意力机制(SW-MSA)可以很好的加强图像块之间的信息交流。所以本文拟设计一种基于改进Transformer和CNN融合的脑肿瘤分割算法。主要工作如下:(1)提出一种新的并行融合网络,将Swin Transformer不同层次提取的全局语义信息和Resnet101提取的不同尺度细节特征结合起来。既保证了分割区域信息的完整性,又克服了传统卷积运算的局限性。(2)提出的一种新的融合模块CSM,以并行的方式融合了Swin Transformer的通道注意力信息和CNN的空间注意力信息,使整个网络更多关注于脑肿瘤图像中有用的通道信息和空间信息,并抑制非目标区域的无关信息。基于上述两个工作的整合,本文提出的基于Swin Transformer和CNN融合网络相比去年的Trans Fuse,脑肿瘤分割的平均Dice从93.92%提升到了95.28%,平均Io U从88.65%提升到了91.05%,相比U-Net脑肿瘤分割的平均Dice提升了4.02%,平均Io U提升了6.31%。