9篇关于Swin Transformer的计算机毕业论文

今天分享的是关于Swin Transformer的9篇计算机毕业论文范文, 如果你的论文涉及到Swin Transformer等主题,本文能够帮助到你 基于深度学习的葡萄病害识别研究 这是一篇关于葡萄病害识别

今天分享的是关于Swin Transformer的9篇计算机毕业论文范文, 如果你的论文涉及到Swin Transformer等主题,本文能够帮助到你

基于深度学习的葡萄病害识别研究

这是一篇关于葡萄病害识别,Swin Transformer,注意力机制,语义分割的论文, 主要内容为我国作为世界上最大的葡萄生产国和消费国,葡萄产业已经成为很多地方脱贫致富的支柱产业,但是葡萄病害影响葡萄品质和果实产量,因此快速而精准地识别葡萄病害类型及病害程度是增产增收的重要保障。本文针对葡萄病害防治重点研究基于深度学习的葡萄叶片病害识别以及病害图像语义分割,解决种植户长期依赖经验进行鉴别而出现误判的情况,为实现葡萄叶片病害的自动、高效、准确的诊断提供技术支持。论文的主要研究内容和结果如下:(1)构建葡萄病害数据集并完成分类识别。使用数据增强技术完成对搜集的病害样本图片进行扩充,建立了葡萄病害叶片的数据集。结合Res Net网络残差结构能够使特征充分流通和Swin Tansformer参数少、运算快的特点,构建残差结构的Swin transformer网络,最终对葡萄病害数据集分类准确率达到了97.138%。(2)构建语义分割网络,完成对葡萄病害图像的语义分割。将Swin Transformer和注意力机制分别融入到U-Net网络的编码器与解码器中,并通过实验证明了在小尺寸的特征图上使用通道注意力和在较大特征图上使用空间注意力能够在更少的参数情况下提升编码器的性能。最终得到的MIo U与MAP分别为87.82%和97.60%。(3)葡萄叶片病害识别系统设计与实现。移动端基于微信小程序进行部署,能够方便的完成叶片采集工作。管理平台采用Vue框架并使用HTML、CSS、Javascript进行编写,能够完成对病害区域的管理及识别模型的更新。后端采用Spring框架,开发语言为JAVA,通过Flask完成SW-Unet在服务端的部署。

基于深度学习跨模态技术的图文检索研究

这是一篇关于深度学习,图像检索,Swin Transformer,图文跨模态检索,相似度计算的论文, 主要内容为网上社交媒体平台上文本、图像、音频、视频等多模态数据的增长迅猛,传统的单一模态数据检索已经无法满足当今社会的需求,跨模态检索应运而生。多模态数据往往具有很高的维度,使其难以有效检索。为了有效地组织、管理和检索在文本、图像的语义之间相互关联的有效数据,跨模态检索已经成为了当今学术界和工业界的热门话题。本文以跨模态图文检索技术为重点,结合多模态数据的特点,研究提高跨模态图文检索的精度问题,设计和开发跨模态图文检索系统,便于用户查询同一语义下的多种模态数据。本文主要做了以下工作:(1)针对于图像类内差异相对较大、传统的细粒度图像检索方法识别分类能力差的问题,提出了改进的Swin Transformer图像检索模型,利用Swin Transformer作为特征提取的主干网络,结合注意力机制,充分提取图像局部和整体的信息,提高了图像检索的精度和效率;在此基础上,引入FPN模块融合多尺度图像信息,有利于小目标和多尺度特征物体的图像检索;引入了RPN模块,实现了端到端的训练,可以根据不同的尺度和长宽比得到较为准确的预测框;引入ROI池化层能够实现抑制噪声,生成固定大小的特征建议图。在MS COCO数据集和民国纸币自建数据集的对比实验结果验证了改进的Swin Transformer模型在图像检索模型中具有较好的优越性。(2)为了解决图像文本两种模态之间的异构鸿沟以及图文局部相似和全局相似关联的问题,提出了基于Transformer的细粒度跨模态图文检索模型FCRMT,在使用改进的Swin Transformer和BERT进行图像和文本特征提取的基础上,使用Transformer作为推理模型对图像和文本特征进行推理;同时使用普遍求和进行图像文本特征聚合,建立图文局部和全局的跨模态关系;使用多重相似性计算进行对比,充分学习两个模态之间的全局对齐关系,实现跨模态的细粒度图像文本的检索;设置损失函数边界值α进行对比实验,使模型更好地学习样本之间的差异。在数据集MS-COCO和Flickr30K数据集进行了大量实验比较,实验结果证明FCRMT在跨模态图文检索中表现良好。(3)设计并实现了图像文本检索系统,系统开发使用flask技术,实现“以图搜图”、“以图搜文”和“以文搜图”三个功能。该系统可以应用于搜索引擎、电子商务、信息管理、图文智慧问答、字幕生成等场合,帮助用户实现跨模态图文检索,并使用户摆脱媒体类型的限制。

基于Swin Transformer的嵌入式零样本学习方法研究

这是一篇关于零样本学习,Swin Transformer,图像分类,特征融合的论文, 主要内容为传统的图像分类任务通常需要使用大量带有标签的数据来训练模型,但在现实生活中,数据的采集和标注十分困难。因此,如何在没有样本的情况下对物体进行识别的零样本学习算法成为研究热点。零样本学习旨在解决样本缺失情况下的分类问题,通过使用类级别的语义信息在可见类与未见类之间建立联系进而实现对未见类的识别。现有的零样本学习算法多使用Image Net预训练的深度卷积网络来提取特征,这种做法忽略了Image Net和零样本学习基准数据集之间分布的不一致性,针对此问题本文采用Swin Transformer作为新的骨干网络,将其应用到零样本学习领域中,输入原始图片利用自注意力机制得到基于语义信息的视觉特征。且在此基础上提出两种嵌入式的零样本学习算法,主要研究工作如下:(1)提出了基于多标签语义引导的嵌入式零样本学习算法。该算法在可见类上构造视觉特征与语义信息的嵌入空间时,同时计算可见类与未见类语义空间的相似度,引导模型同时考虑与当前可见类语义上相似的未见类,进而将语义空间的相似性迁移到最终执行分类的嵌入空间,缓解了域偏移问题,从而实现更准确的分类。(2)提出了基于多尺度特征融合的嵌入式零样本学习算法。利用Swin Transformer的层级结构从图像中提取丰富的属性特征,再将属性特征与属性原型对齐优化整个网络使得全局特征包含更多细节信息以区分细粒度语义属性,缓解了过去方法使用图像深度特征带来的细节表征能力不足的问题。同时,本文在鸟类数据集(CUB)、场景数据集(SUN)和动物数据集(AWA2)上对所提两种算法进行了相关的实验验证,结果表明,两种算法均能实现良好的零样本分类效果。

基于Transformer和CNN融合的脑肿瘤分割算法研究

这是一篇关于脑肿瘤分割,卷积神经网络,Swin Transformer,注意力机制的论文, 主要内容为基于深度学习的卷积神经网络被广泛地应用于医学图像领域。由于卷积运算不能很好学习全局的和长序列的语义信息,限制了其在脑肿瘤图像分割上的表现。Transformer将图像处理成图像块序列去做预测,其内部使用的自注意力机制,加强了对图像全局特征信息的提取,但其低层次细节处理能力相对有限。为解决上述问题,将Transformer处理的全局图像信息和CNN处理的低层次细节特征结合在一起,可以更好、更有效的捕获脑肿瘤图像特征。而Swin Transformer以层次化的方式构建Transformer,内部的基于移动窗口的多头自注意力机制(SW-MSA)可以很好的加强图像块之间的信息交流。所以本文拟设计一种基于改进Transformer和CNN融合的脑肿瘤分割算法。主要工作如下:(1)提出一种新的并行融合网络,将Swin Transformer不同层次提取的全局语义信息和Resnet101提取的不同尺度细节特征结合起来。既保证了分割区域信息的完整性,又克服了传统卷积运算的局限性。(2)提出的一种新的融合模块CSM,以并行的方式融合了Swin Transformer的通道注意力信息和CNN的空间注意力信息,使整个网络更多关注于脑肿瘤图像中有用的通道信息和空间信息,并抑制非目标区域的无关信息。基于上述两个工作的整合,本文提出的基于Swin Transformer和CNN融合网络相比去年的Trans Fuse,脑肿瘤分割的平均Dice从93.92%提升到了95.28%,平均Io U从88.65%提升到了91.05%,相比U-Net脑肿瘤分割的平均Dice提升了4.02%,平均Io U提升了6.31%。

基于Transformer的垃圾图像分类研究

这是一篇关于垃圾分类,图像识别,卷积神经网络,Transformer,Swin Transformer的论文, 主要内容为近年来,垃圾分类已成为我国绿色发展理念的重要组成部分。垃圾分类是将生活垃圾按照材质或成分进行分类,并进行资源化处理的过程。垃圾分类的有效实施可以减少土壤、水质、空气等环境的污染,有利于保护环境和维护生态平衡。然而,由于日常生活中产生的垃圾种类繁多,传统的人工分类方式效率低且容易出错。因此,本文基于深度学习技术,构建了基于Transformer框架的垃圾图像分类网络模型,帮助人们更好地完成日常垃圾分类工作。本文的主要研究内容如下:(1)针对垃圾图像分类模型的精度问题,本文研究了基于卷积神经网络的分类模型,包括Alex Net、VGGNet和Res Net模型。通过研究发现,这些模型在本文自制垃圾分类数据集上的识别准确率不高。因此,为了进一步提高垃圾分类网络模型的识别准确率,本文对Swin Transformer模型进行了详细的分析与研究,为进一步提高该模型的性能,本文融合了SPT(Shifted Patch Tokenization)与LSA(Locality Self Attention)算法思想,分析了它们在Swin Transformer模型上的最佳组合方案,并构建了改进后的Swin Transformer模型。最终本文改进后的Swin Transformer模型在自制垃圾分类数据集上达到了88.1%的准确率,相比Swin Transformer基础模型有进一步的提升。(2)针对Transformer垃圾图像分类模型的轻量化问题,本文构建的Swin Transformer模型参数量很大,这不利于模型部署在移动端场景。为了在保持高准确率的情况下,实现轻量化的模型部署,本文对Mobile Vi T垃圾分类网络模型进行了优化和改进,构建了一种具有较高识别准确率的轻量化垃圾图像分类模型。实验结果表明,与纯视觉Transformer网络模型相比,本文基于Mobile Vi T改进后的模型参数量减少近10倍,并且准确率仍能达到86.2%;与其他轻量化模型对比,基于本文构建的轻量化模型在垃圾分类任务上的准确率要高于Squeeze Net和Shuffle Net等网络模型。

基于Swin Transformer的单目深度估计研究

这是一篇关于单目深度估计,Swin Transformer,迁移学习,Grad-CAM,SimMIM的论文, 主要内容为单目深度估计任务是计算机视觉领域中的一个基本且重要的研究课题。其目的是在单个视角下从RGB图像中产生像素级深度图。这种深度信息有助于更好地理解三维场景,在场景重建、自动驾驶和机器人导航等领域有着广泛的应用。计算机视觉任务长期以来被深度卷积神经网络所主导,近年来,基于Transformer的深度学习网络架构在计算机视觉领域多个任务中表现出优越的性能。本文就Transformer的衍生架构Swin Transformer在单目深度估计任务的适用性和改良网络结构进行研究。在像素级图像任务如单目深度估计中,需要使用高分辨率图像作为输入,因此模型计算量和计算复杂度的设计是否恰当是决定是否可以训练得到兼具高效率和高精度网络模型的关键。针对单目深度估计任务,先前的一些工作致力于提出基于Vision Transformer的网络架构,然而,这些网络模型的计算量和复杂度大,对于密集预测视觉任务并不完全适用。对于有监督学习,本文采用一种分层的Transformer,即Swin Transformer,作为单目深度估计的特征提取编码器,针对编码器的不同变体,设计了一个基于空间重采样模块和Refine Net的可适应性解码器。为了验证网络结构的有效性,本文在单目深度估计公开数据集NYU Depth V2上进行实验分析,实验表明,本文提出的编解码器结构在数据集上进行微调,也能在单目深度估计这一密集预测任务中产生实质性改进,实验结果与Transformer模型DPT-Hybrid相比,能够达到更好的深度估计结果。此外,本文提出基于Grad-CAM的可视化评价模型,对本文提出的深度估计模型进行逐层可视化分析,逐步剖析其高可用性。近年来,NLP和计算机视觉在基本建模和学习算法以及多模态应用中出现越来越多的重叠。掩码图像建模MIM是掩码信号预测的一个子任务,它对部分输入图像进行掩码,让深度网络以可见图像为条件预测掩码图像,以无监督方式进行表示学习。本文提出基于Sim MIM的单目深度估计模型,通过将Sim MIM在Image Net数据集上进行无监督预训练的Swin Transformer模型参数进行迁移,对本文编码器进行权重初始化。实验结果表明,使用Swin Transformer作为基础架构的Sim MIM模型,能为单目深度估计中的有监督微调实验的预测结果带来性能上的提高,同时能在一定程度上解决由于模型容量增长而引起的数据饥渴问题。

基于Swin Transformer的单目深度估计研究

这是一篇关于单目深度估计,Swin Transformer,迁移学习,Grad-CAM,SimMIM的论文, 主要内容为单目深度估计任务是计算机视觉领域中的一个基本且重要的研究课题。其目的是在单个视角下从RGB图像中产生像素级深度图。这种深度信息有助于更好地理解三维场景,在场景重建、自动驾驶和机器人导航等领域有着广泛的应用。计算机视觉任务长期以来被深度卷积神经网络所主导,近年来,基于Transformer的深度学习网络架构在计算机视觉领域多个任务中表现出优越的性能。本文就Transformer的衍生架构Swin Transformer在单目深度估计任务的适用性和改良网络结构进行研究。在像素级图像任务如单目深度估计中,需要使用高分辨率图像作为输入,因此模型计算量和计算复杂度的设计是否恰当是决定是否可以训练得到兼具高效率和高精度网络模型的关键。针对单目深度估计任务,先前的一些工作致力于提出基于Vision Transformer的网络架构,然而,这些网络模型的计算量和复杂度大,对于密集预测视觉任务并不完全适用。对于有监督学习,本文采用一种分层的Transformer,即Swin Transformer,作为单目深度估计的特征提取编码器,针对编码器的不同变体,设计了一个基于空间重采样模块和Refine Net的可适应性解码器。为了验证网络结构的有效性,本文在单目深度估计公开数据集NYU Depth V2上进行实验分析,实验表明,本文提出的编解码器结构在数据集上进行微调,也能在单目深度估计这一密集预测任务中产生实质性改进,实验结果与Transformer模型DPT-Hybrid相比,能够达到更好的深度估计结果。此外,本文提出基于Grad-CAM的可视化评价模型,对本文提出的深度估计模型进行逐层可视化分析,逐步剖析其高可用性。近年来,NLP和计算机视觉在基本建模和学习算法以及多模态应用中出现越来越多的重叠。掩码图像建模MIM是掩码信号预测的一个子任务,它对部分输入图像进行掩码,让深度网络以可见图像为条件预测掩码图像,以无监督方式进行表示学习。本文提出基于Sim MIM的单目深度估计模型,通过将Sim MIM在Image Net数据集上进行无监督预训练的Swin Transformer模型参数进行迁移,对本文编码器进行权重初始化。实验结果表明,使用Swin Transformer作为基础架构的Sim MIM模型,能为单目深度估计中的有监督微调实验的预测结果带来性能上的提高,同时能在一定程度上解决由于模型容量增长而引起的数据饥渴问题。

基于改进HRNet网络的少数民族服饰图像检索技术研究

这是一篇关于民族服饰图像检索,HRNet,Vision Transformer,Swin Transformer,重排序的论文, 主要内容为我国少数民族的传统服饰纹饰复杂,构图特殊,对少数民族图像的检索任务是很大的挑战。一方面,当前基于图像内容的少数民族服饰图像检索算法性能有限。另一方面,由于少数民族服饰图像色彩丰富、款式多样,所以服饰图像包含丰富的语义特征,若使用传统的时尚服饰或日常服饰的检索算法,进行少数民族服饰检索任务时,往往会忽视服饰局部语义特征线索。普通的基于卷积神经网络的模型能够从服饰图像中提取深度语义特征,在普通的服饰图像检索算法在大型公共数据集的表现上较好,但忽略了少数民族服饰图像各个部件与配饰的细粒度特征,检索效果并不理想。因此本文提出了一个基于改进HRNet网络的少数民族服饰图像检索算法,并实现了一个基于改进HRNet网络的少数民族服饰图像检索系统。主要的工作围绕以下4点展开:(1)建了一个少数民族服饰图像数据库。将2096张少数民族服饰图像按服装款式分为了50类。将所有服饰图片的关键点按头饰、左肩、右肩、左腕、右腕、左裤脚、右裤脚等7个关键点做好标注,将所有标注信息(包括边界框、人体遮罩和关键点标注)以文件的形式保存在数据集中,建立了一个包含民族服饰图像、民族服饰类别和关键点等标注的民族服饰图像资源库。(2)分别使用特征描述子Hog、Daisy和基于Vision Transformer模型的改进网络在图像数据库中提取图像特征。将所有标注信息(包括边界框、人体遮罩和关键点标注)以文件的形式保存在一个包含民族服饰图像、民族服饰类别和关键点等标注的民族服饰图像资源库中。本文提取了所有数据集图像的HOG和Daisy特征并保存下来,然后,将数据集图像图输入一组改进Vision Transformer中提取另一组特征。按照少数民族分类的方法训练了Vision Transformer模型,待该模型训练完成后,从最后一个隐藏层提取一组输出特征并保存,这些特征将用于检索过程中的图像重排序。(3)提出了一种基于改进HRNet网络的少数民族服饰图像检索算法。通过改进的HRNet识别出服饰关键点,并将改进的HRNet作为整个网络的骨干网络用来提取特征,骨干网络的输出直接作为一组特征向量。然后将服饰关键点信息和特征图输入到一个改进的Swin Transformer编码器进行序列化编码,并得到另一组特征向量。将两组输出拼接起来,得到检索特征。使用检索特征间的欧氏距离作为服饰图像检索的主要依据,在辅以输入图像的其它特征对检索结果进行重排序。在少数民族服饰数据集上以Top-k准确度作为评估指标,结果表明本文方法比Deepfashion、DARN等传统检索方法性能更好,在数据集上的Top-20高达99.0%。(4)基于改进HRNet网络的少数民族服饰图像检索系统的设计和实现。用户输入一张服饰图像,就能通过本系统检索相似图像。该系统采用Py Qt5实现前端可视化效果,集成了显示与交互功能、加载检索模型权重功能、特征处理功能、关键点检测功能和图像检索功能。该系统达到了为用户提供用户界面友好、交互性强的民族服饰图像检索系统的效果。

基于Zero-Unet的无监督低光照图像增强方法研究

这是一篇关于低光照图像增强,无监督学习,Swin Transformer,U-Net,图像质量评价的论文, 主要内容为伴随着现代科技的高速发展,图像在生产生活、科学研究等领域的应用也越来越广泛。但由于低光环境影响和拍摄技术的限制,导致捕获的图像经常存在诸如亮度低、噪声干扰和细节缺乏等问题。这不仅影响视觉效果,还会造成许多领域,如工业生产、遥感监控等应用中图像信息难以获取以及后续的信息加工困难。因此,采用合适的低光照图像增强技术对低光照图像进行图像恢复,例如增强图像亮度、降低图像噪声、提高图像质量等,可以为后续工作提供有力的数据支持,具有重要价值。近年来,低光照图像增强技术虽然取得了很大的进展,但利用现有算法增强图像后仍存在对比度低、过度调节和噪声放大等问题。针对上述问题,本文围绕当前低光照图像增强方法存在的问题展开研究,给出了基于Zero-Unet的无监督低光照图像增强方法,主要内容如下:(1)针对低光照图像增强过程中容易出现的局部信息损失问题,设计了一种无监督的低光照图像迭代增强网络模型。基于Swin-Unet框架和特定于图像的曲线函数迭代增强技术,将Swin Transformer Block与U-Net网络框架相结合用于图像增强时的特征提取部分,对不同尺度的特征进行融合处理以获取丰富的全局和局部特征,从而解决了低光照图像增强过程中出现的局部信息损失问题,有效恢复图像的局部细节。实验结果表明,该网络结构在训练过程中不需要成对的训练数据,模型运行速度快、资源消耗少,在有效提高低光照图像亮度的同时,可以保留局部纹理信息。(2)针对低光照图像质量增强过程中,极端黑暗等复杂光照条件下的图像增强效果不佳问题,在特征提取网络Swin-Unet结构中的Swin Transformer Block引入半实例规范化模块,用以恢复图像的浅层特征,提升目标图像质量。实验结果表明,该方法解决了低光照图像增强过程中容易出现的纹理细节不丰富等问题,且通过对比实验,验证了在极端黑暗条件下的图像增强效果。(3)采用上述所给的低光照图像增强方法,基于低光照图像增强应用系统的功能需求与可行性分析研究,设计、开发了相应的低光照图像增强应用软件,通过向系统中嵌入基于本文研究内容的低光照图像增强算法,可以实现低光照图像的增强处理任务以及图像质量评价结果展示,满足了基于Zero-Unet的无监督低光照图像增强方法的实际应用需求。综上所述,基于Swin-Unet、Swin-HIN-Unet的零参考低光照图像增强网络为低光照图像增强问题提供了新的解决思路,而据此设计、开发的应用系统也为其实际应用提供了技术支持。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码向导 ,原文地址:https://m.bishedaima.com/lunwen/45287.html

相关推荐

发表回复

登录后才能评论