基于深度学习的多模态脑部图像融合算法研究
这是一篇关于脑部图像融合,深度学习,Patch-GAN,注意力模块,MLP的论文, 主要内容为医学影像技术可以为人体组织结构提供良好的认识,不同模态的医学图像因被广泛用于疾病诊断中而极大改善了临床诊断决策。例如,磁共振成像MRI(Magnetic resonance imaging)提供了高分辨率软组织信息,计算机断层扫描CT(Computerized tomography)提供了高质量骨骼致密信息,正电子发射断层扫描PET(Positron emission tomography)和单光子发射计算机体层扫描SPECT(Single photon emission computed tomography)能够提供组织器官的血流,代谢,甚至一些癌细胞的活动信息等。在一些复杂的诊断场景中,专家通常需要看到人体的不同深度的结构和组织信息,构建一个具备源图像互补信息和丰富细节的高质量多模态融合图像可为专家提供更多的信息参考,进而使临床诊断更加准确,诊断过程更加方便。本文旨在研究基于深度学习的多模态脑部图像融合算法,通过设计出高效、高质量的自监督融合模型有效整合不同模态图像的互补信息进而生成清晰的融合图像,以便更好地解决以往大多数融合方法易出现的适应性差、细节模糊或缺失、模型繁琐等弊端。研究内容如下:1.针对以往深度学习融合方法出现的融合结果清晰度不高、局部信息还原不够逼真、信息丢失等问题,设计了一种基于Patch-GAN的端到端融合模型用于各种模态的脑部图像融合(U-Patch GAN)。模型利用U-Net和马尔可夫判别器(Patch-GAN)完成双对抗融合机制。Patch-GAN能够有效促进网络对高频信息的注意进而加强融合细节。所设计的基于F范数的新型对抗损失和特征损失(特征匹配损失和VGG-16感知损失)能有效促进网络收敛、加强特征信息的交互、促进细节的整合。通过引入光谱归一化使网络满足Lipschitz连续性,进而促进训练平稳性。实验分析表明,模型各个模态的融合结果对软组织信息纹理和功能色度信息刻画极其优秀,并有着良好的信息视觉效果。2.为了增强U-Patch GAN模型对MRI骨密质信息的保存度(针对PET-MRI模态图像融合)、解决双对抗机制不稳定和模型较复杂的问题,本文提出了基于注意力机制的PET-MRI融合模型(Res-Attention Net)。通过引入注意力模块CBAM(Convolutional block attention module)、注意力门AG(Attention gate)、多尺度池化模块ASPP(Atrous spatial pyramid pooling)和残差结构动态突出显著特征、加强特征信息提取、减少计算开销。通过所设计的骨密质信息与融合区域分离的融合策略有效避免了MRI骨密质信息缺失的问题。实验结果表明,模型在刻画融细节、保持高融合效率方面表现优秀。3.针对Res-Attention Net融合模型对软组织的亮度信息和细节纹理表现不佳、模型本身缺乏泛化性,本文提出了基于多轴门控MLP(Multilayer perceptron)模型用于各个模态图像的融合(DAGM-Fusion)。模型为双路径(全局路径和增强路径)、三约束融合结构(全局约束、增强约束和整体约束)。全局路径弱监督增强路径的训练,三约束保证训练平稳度。模型利用所设计的多轴门控MLP模块(Ag-MLP),专注于一维特征提取,结合CNN使网络实现特征间的稀疏交互。Ag-MLP多轴的结构使MLP能够轻松在网络的较浅层次或像素级的小数据集任务中工作。另外,所设计的基于图像块的损失计算方式(Patch-loss)根据图像像素的强度为每个图像块自动生成损失权重,进而有效提高了融合自适应性和融合细节。大量实验表明模型在各个模态图像中均可实现高效率、高细节融合。
基于深度学习的茶叶嫩芽检测方法研究
这是一篇关于茶叶嫩芽检测,深度学习,YOLO-Tea,注意力模块,YOLO-Ghost的论文, 主要内容为茶叶嫩芽以其优良的品质以及精细的加工而深受欣赏。但是对于茶叶嫩芽的采摘方式目前仍然是处于人工采摘的阶段,导致存在劳动强度大、成本高且效率低的问题,无法满足市场需求。随着现代科技技术在农业领域的广泛应用,基于深度学习的自动采摘设备被用于茶叶嫩芽的智能化采摘中,而在设备研发过程中最具挑战性和关键性的问题是如何准确地识别和定位茶叶嫩芽以及将模型嵌入到移动端实现实时检测。本文针对现有的茶叶嫩芽检测算法检测精度低、泛化性能差且无法实现实时检测的问题,以中茶龙井108品种(中国农业科学院茶叶研究所,简称中茶)作为研究对象,提出了一种基于深度学习的茶叶嫩芽智能识别算法,研究的内容主要包括以下方面:(1)构建自然环境下生长的茶叶嫩芽数据集。针对不同时期、不同光照、不同角度下采集的茶叶嫩芽,使用Label Img软件对茶叶嫩芽图像进行标注,并应用多种数据增强技术扩充数据集的规模,编写Python程序将数据集转换成可供神经网络识别的格式。(2)选定基线网络并分析基线网络存在的不足。将目前主流的目标检测网络在自制的数据集上进行实验并比较实验结果,综合考量检测精度以及实地检测要求,分析选择YOLOv3作为基线网络的原因,并就其在检测茶芽时存在的不足进行分析。(3)搭建基于YOLOv3的YOLO-Tea深度学习网络框架。针对原始的YOLOv3网络特征提取能力不足导致茶叶嫩芽出现漏检误检的问题,分别改进原始YOLOv3网络的主干特征提取网络、特征融合网络以及预测头。针对原始的YOLOv3网络检测框定位不准确的问题,分别改进原始YOLOv3网络的锚框、边界框回归损失函数以及候选框筛选算法。通过不同的数据增强算法,创新性的将Token Mix数据增强方法应用于YOLOv3网络中,增强了模型的稳健性和泛化性能。实验结果显示,相比较于原始的网络,改进后的YOLO-Tea网络有效的提高了复杂背景下的茶叶嫩芽检测性能。(4)搭建基于YOLO-Tea网络的轻量化网络YOLO-Ghost。针对YOLO-Tea网络在嵌入式设备上出现的问题进行改进,设计轻量化模型,具体的改进点包括:1)将主干特征提取网络Dark Net53替换为Dark Net19,提高模型训练速度的同时降低内存占用;2)通过在网络中引进轻量化的多尺度卷积块注意力模块(Multiscale Convolutional Block Module,MCBAM),在不增加模型参数量的情况下聚集有利于茶叶嫩芽分类的信息同时抑制无关的信息;3)使用Ghost模块替换原网络的普通卷积块,通过廉价运算产生多特征图,降低模型的参数量的同时提升模型的精度。实验结果显示,相较于原始的YOLO-Tea网络,改进后的YOLOGhost网络在保持高精度检测的同时实现了实时检测。
基于视觉Transformer的深度哈希图像检索算法
这是一篇关于图像检索,视觉Transformer,深度哈希,注意力模块的论文, 主要内容为随着互联网技术和移动设备的普及,越来越多的图像和视频被上传至互联网,面对海量的图像数据,快速准确地检索图像变得越来越重要。基于深度哈希算法的图像检索模型通过哈希学习将图像编码为一个固定长度的哈希码来快速检索和匹配,以此解决大数据时代图像检索复杂度高和检索效率低的问题。深度哈希检索算法有两个关键点:特征提取网络和哈希学习。特征提取网络的性能决定了检索模型对图像特征的表征能力和对语义信息的建模能力,哈希学习算法的优劣则决定了生成的哈希码的判别力,进一步影响哈希码匹配的准确率。以往的深度哈希检索模型使用卷积神经网络,利用卷积与池化技术去提取图像的局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这会带来较高的复杂度与计算量。而基于自注意力的视觉Transformer模型能够有效地学习图像的长依赖关系,并且在各种图像任务上表现出了优秀的性能。针对以上问题,本文对深度哈希图像检索算法的两个关键点进行了研究:1、设计了一种注意力增强的视觉Transformer图像检索网络——AE-Vi T。针对视觉Transformer能够有效地学习图像特征的长依赖关系却无法高效地对图像空间局部特征进行建模的问题,在本文提出的AE-Vi T中设计了一个注意力增强模块——AEM,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力以及提升模型收敛速度。实验在不同的哈希码长度下,分别在两种基准数据集上,将AE-Vi T、Alex Net和Res Net作为骨干网络进行对比,验证了AE-Vi T在图像检索任务上的有效性以及优越性,证明了基于视觉Transformer架构的检索模型相较于基于纯卷积神经网络架构的检索模型在图像检索任务上的性能优势。2、在本文提出的特征提取网络基础上,进一步设计了四种基于经典深度哈希损失的图像检索模型和一种基于联合损失的图像检索模型。一方面,通过对比实验,验证了AE-Vi T在不同深度哈希损失函数下的图像检索性能优越性。另一方面,针对分类标签信息没有被充分利用的问题,提出了结合分类损失的对比损失函数——HSC-Loss,实验对比多种经典的深度哈希检索方法和基于Transformer的哈希检索方法,验证了本文所提基于视觉Transformer的深度哈希图像检索算法的优越性。
基于改进EfficientNet的病虫害分类与对抗攻击
这是一篇关于病虫害,深度神经网络,注意力模块,激活函数,伽马校正,图像金字塔,对抗样本的论文, 主要内容为农业通过人工培育来获得产品。许多植物病虫害会降低作物的产量和质量,植物病虫害问题比较严重。因此,植物病虫害的分类近年来受到了学术界的广泛关注,植物病虫害的分类有很多方法。人工诊断病虫害种类,具有较强的主观性,且耗时耗力。后来深度学习被应用在病虫害识别,并且取得了一些成果。目前的深度神经网络存在识别率不够高或效率低等问题。本文从注意力模块,卷积模块和激活函数改进Efficient Net,提出了Sim AM-Efficient Net。Sim AMEfficient Net识别率很高,而且训练和识别的速度很快。现有的注意力模块一般存在以下两个问题。第一个是它们只能通过通道和空间来细化特征,这会导致注意力权值的不灵活。第二个问题是结构很复杂,性能由一系列因素来影响。与它们相比,Sim AM有很多优势,它同时考虑空间和通道,推断三维的注意权值,而不添加参数在原始的网络中。因此,本文将Sim AM融入到Efficient Net中。标准卷积生成的特征图中的特征是高度冗余的,因此,本文用Ghost模块来优化一部分标准卷积,用标准卷积运算与线性运算相结合的方式减少特征提取过程中的计算量。另外,原本的Efficient Net里,Swish激活函数应用在模型的第1与第9个模块,还有第2至第8的MBConv模块中。虽然Swish激活函数在更深层次的模型上比Re LU表现更好,但效率较低。因此,用Hard Swish激活函数来替代Swish,Hard Swish激活函数采用分段线性函数,减少内存访问的数量。在训练过程中本文引入了迁移学习和学习率衰减来提升模型的性能。实验结果表明了本文模型在Plant Village上的准确率为99.31%。Res Net50的准确率为98.33%。Res Net18的准确性是98.31%。Dense Net的准确率为98.90%。但是,DNN是非常脆弱的,在图像分类中的对抗攻击值得关注。通过对抗样本检测DNN的鲁棒性是非常重要的,另外对抗攻击生成的对抗样本可以用来训练,增强DNN的性能。本文通过伽马校正和图像金字塔对MI-FGSM算法进行改进,提出了新的对抗攻击方法GP-MI-FGSM,然后用此方法生成的对抗样本来对DNN对抗训练。本文提出的模型在GP MI-FGSM对抗攻击下,错误率为87.6%。本文提出的GP-MI-FGSM的成功率高于其他对抗攻击算法,包括FGSM、I-FGSM和MI-FGSM。经过对抗训练后的模型的鲁棒性进一步增强,并且性能可以提升。最终经对抗训练过后的Sim AM-Efficient Net识别准确率达到99.78%
基于姿态估计的交通路口行人状态识别
这是一篇关于交通路口,人体姿态估计,注意力模块,行为状态识别,图卷积网络的论文, 主要内容为监控摄像头已广泛地应用于现实生活中的各种公众场所,利用计算机视觉技术可以快速检测和识别交通路口中行人的行为状态,有助于交通管理部门及时处理突发事件。本文针对交通路口中的行人跌倒、走路、骑车的行为状态进行检测和识别,主要研究内容如下:1.构建了交通路口行人状态数据集(TPB Dataset:Traffic Pedestrian Behavior Dataset),包含跌倒、走路和骑车的行为状态。数据集包含公开数据集和自制数据集,公开数据集有Le2i Fall Detection Dataset和KTH Dataset等,自制数据集来自网络的相关视频和自己拍摄的视频。每类行为状态有140个视频片段,帧数在50帧以内,分辨率大小为340×256,帧率为25fps。按照7:3的比例,随机分为训练集和测试集。2.为方便提取骨架特征信息,本文以Fast Pose为基础模型,设计了一种自顶向下的轻量型人体姿态估计算法Fast Pose-Lite。首先利用YOLOv4人体检测器裁剪出单人子图像,然后经过单人姿态估计网络提取骨骼关节点。单人姿态估计网络由GSE-Res Net特征提取网络和上采样部分共同构成。GSE-Res Net网络是将Res Net网络中的传统卷积模块替换为Ghost模块同时引入SE注意力模块。上采样部分由DUC模块和CBAM注意力模块组成。实验结果表明,在COCO数据集下,本文所提出的Fast Pose-Lite网络对人体骨骼关节点的检测精度与原网络的检测精度基本接近,平均精度均值达到了70.74%,同时参数量减少了51.4%,计算量降低了50.8%。3.针对交通路口场景下行人跌倒、走路和骑车状态的识别,本文提出了基于时空图卷积网络的行人状态识别算法。首先根据Fast Pose-Lite提取视频中每帧的人体骨架序列,连接构成骨架时空图结构,然后利用本文提出的NA-STGCN网络进行处理。构成该网络的基础模块NA-GCB是由GCN模块、TCN模块和NAM注意力模块残差连接构成。利用GCN和TCN模块提取视频帧间关节点的位置变化及空间结构关系,将NAM注意力模块嵌入到残差结构的末尾以增强网络对目标特征的提取能力。实验结果表明,在TPB数据集下,本文提出的网络对行人跌倒、走路、骑车行为状态的平均识别准确率分别达到了91.23%、92.71%、91.56%,相较于经典网络ST-GCN分别提升了2.58%、2.77%、1.84%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设货栈 ,原文地址:https://m.bishedaima.com/lunwen/46315.html