视觉Transformer网络结构轻量化设计
这是一篇关于Transformer,模型轻量化,网络结构设计,图像分类的论文, 主要内容为人工智能的发展正促进计算机视觉的智能化广泛应用。Transformer在计算机视觉中应用越来越成熟。然而,由于Transformer本身存在的一些基本问题,如参数量巨大,需要大量的计算才能实现高性能等,这使得Transformer网络越来越复杂。针对以上问题,本研究通过比较几种常用的模型轻量化方法,最后选择对网络的结构进行设计的模型轻量化方法进行实验。由于Swin Transformer可以实现多个计算机视觉任务且表现良好,Mobile ViT是轻量化网络Mobile Net的Transformer版本,所以,本研究针对这两个网络模型进行分析讨论。针对Swin Transformer模型,引入Local Aggregation模块,在相同参数量的基础上,选择图像分类任务进行实验,结果表明,改进后的方法在精度上都有提升。除此之外,本研究选择更为轻量级的GhostNet和Mobile ViT网络,将GhostNet网络中的即插即用的Ghost Module应用于Mobile ViT,实现Mobile ViT的模型轻量化,实验结果表明,参数量都有降低。本研究的主要工作内容如下:1.Swin Transformer采用移动窗口机制,在图像分类,目标检测,语义分割等任务上有着良好的性能。本研究引入Local Aggregation模块,将其应用于Swin Transformer原有模型,新的模型在图像分类任务上,相较于原有Swin模型,在参数量相同的基础上,精度都有提升,在Cifar10,Cifar100,Caltech101,Mini Image Net等数据集上都有验证。2.本研究联合现有网络GhostNet网络和Mobile ViT网络,将GhostNet中的即插即用模块Ghost Module应用于Mobile ViT,在Mobile ViT三个模型上进行实验。实验表明,改进后的方法在参数量上都有降低,证明这种联合方法的可行性。综上所述,本研究针对Transformer网络参数量大以及计算量大的问题,对现有网络Swin Transformer进一步改进,实现了性能的提升。并且采用联合GhostNet和Mobile ViT方法,实现了ViT的模型轻量化,实验表明,联合GhostNet和Mobile ViT的方法可以实现Transformer网络的性能的提升。
基于改进DenseNet的重型数控机床热误差建模及轻量化方法研究
这是一篇关于重型数控机床,热误差,数据预处理,DenseNet,模型轻量化的论文, 主要内容为随着步入“工业4.0”时代,重型数控机床作为现代制造业的关键设备受到越来越多的关注。在“中国制造2025”中就强调重型数控机床的重要价值和地位。重型数控机床正朝着高精度、高效率、高质量的方向不断发展。影响重型数控机床加工精度的主要原因之一就是机床热误差,而对重型数控机床的热误差进行建模并补偿能够有效缓解热误差带来的问题。本文致力于研究如何建立热误差预测模型,并对其进行轻量化,提高模型预测效率。本文主要研究内容如下:(1)重型数控机床数据感知及数据预处理。针对采集的感知数据存在数据质量低和数据不均衡的问题,提出基于长短期记忆网络(Long Short-Term Memory,LSTM),Savitzky-Golay和三次样条插值的数据预处理方法。为了更好地监测重型数控机床的温度场,本文首先对重型数控机床的结构特点进行分析,并建立数据监测系统采集感知数据。为了提高感知数据的数据质量,采用LSTM对异常值进行剔除,之后通过Savitzky-Golay方法在保留数据细节信息的同时滤除数据中夹杂的噪声。为避免数据不均衡对模型预测精度产生负面影响,采用三次样条插值对不均衡数据进行数据增强。(2)基于改进Dense Net的重型数控机床热误差建模。针对数据驱动热误差模型在面对不同加工工况时存在预测精度和泛化能力不足的问题,提出基于改进Dense Net的重型数控机床热误差建模方法。Dense Net能够通过卷积层自动提取温度数据特征,可以更加充分地利用数据隐藏信息。Dense Net利用网络间的密集连接实现特征复用,有效避免训练过程中出现梯度消失,能够在建立较深网络模型的同时避免出现过拟合现象。(3)改进Dense Net的热误差模型轻量化方法研究。针对深度学习模型部署在离线边缘端设备存在存储和计算资源不足的问题,提出基于Hint的知识蒸馏和权重量化的模型轻量化方法。首先对基于改进Dense Net的热误差模型进行知识蒸馏,在确保模型精度的同时大幅缩减模型规模,减少模型冗余参数。之后通过权重量化进一步压缩轻量级模型。
基于改进YOLOx的输配电线路设备检测和缺陷识别
这是一篇关于输配电线路,无人机巡检,设备检测,缺陷识别,注意力机制,模型轻量化的论文, 主要内容为我国电力系统规模庞大,系统复杂度高,安全监测需求突出。由于输配电线路地势复杂、分布广,所需巡检的设备类别和缺陷种类众多、尺寸差异大,传统低效的人工巡检难以满足日常的线路巡检需求,因此国家电网和南方电网引入无人机对输配电线路进行智能巡检,针对电力设备和缺陷在无人机巡检图像中检测困难等问题,本文结合深度学习的优势,基于YOLOx,提出配电线路与输电线路的设备检测和缺陷识别方法,为配电线路与输电线路智能巡检提供技术思路。本文主要进行了以下研究:针对电力设备和缺陷在配电线路巡检图像中背景复杂、设备缺陷尺寸差异大、目标形态多变等问题,本文提出一种基于改进YOLOx的配电线路多设备检测和缺陷识别方法。基于YOLOx算法,在主干网络浅层特征层后加入感受野块(Receptive Field Block,RFB),增大网络感受野;添加坐标注意力模块(Coord Attention,CA),更好地获取目标空间方向特征信息,提高目标定位精度;在路径聚合网络(Path Aggregation Network,PANet)首次融合特征后,加入自适应空间特征融合(Adaptively Spatial Feature Fusion,ASFF)模块,通过给不同尺度的特征分配自适应的权重参数,实现多尺度深浅特征的高效再次融合;此外,将YOLOx中的损失函数Bce Loss替换为Focal Loss,缓解小目标正负样本不平衡导致的模型收敛难问题。在国网江西省电力有限公司科技项目自建的配电数据集上进行实验。结果表明,本文提出的方法在性能方面明显优于其他对比方法,有效地提升了配电线路多设备检测和缺陷识别的效果。针对输电线路无人机巡检平台资源有限、目标检测算法复杂度高、推理速度慢等问题,提出了一种轻量级YOLOx的网络模型。首先,以轻量级Shuffle Net V2_Plus网络作为主干网络用于特征提取,对Shuffle Net V2网络中的深度卷积(Depthwise Convolution,DWConv)进行卷积核的扩张,将Shuffle Unit模块中的3×3DWConv替换成5×5DWConv,并对模型进行卷积层剪枝,将Shffle Unit基本单元模块中1×1逐点卷积(Pointwise Convolution,PWConv)进行剪枝,在增大网络感受野的同时减少了网络参数;同时,在颈部特征融合部分加入ECA(Efficient Channel Attention)模块,使得网络更好地关注重要区域,以少量计算代价提高目标检测精度;最后,将YOLOx检测解耦头中的普通卷积替换成深度可分离卷积(Depthwise Separable Convolution,DSConv),进一步降低模型复杂度。结果表明,本文提出的轻量化网络模型推理时间仅为5.8ms,模型参数仅有4.361MB,FLOPs也仅有10.725G,且在组合自建的输电线路数据集上有较高的检测精度。
基于轻量化模型和自蒸馏特征学习的快速行人重识别方法
这是一篇关于行人重识别,模型轻量化,Transformer,自蒸馏特征学习的论文, 主要内容为随着计算机运算能力的提升和深度学习技术的迅速发展,基于深度学习的行人重识别方法相较于传统行人重识别方法在识别精度上有了很大的提升。然而,基于深度学习的行人重识别方法通常采用深度卷积网络作为行人特征提取骨干网络,利用高维特征表示行人,这引入了大量的参数量和计算量。本文主要研究内容是设计轻量的行人特征提取骨干网络、轻量的行人特征对齐模块和高效的散列层,可以快速且准确地进行行人重识别。具体工作内容如下:(1)提出了一种基于全局感知轻量骨干网络的行人重识别方法,用于缓解现有深度学习方法使用Res Net50引入较多参数量的问题。在此方法中,主要包括一个全局感知轻量网络模型。该模型主要由空洞窗口Transformer和深度可分离卷积构成。空洞窗口Transformer模块可以减少使用全局Transformer的计算量,并建立长距离与相邻窗口之间的联系。在Image Net2012上,验证了全局感知轻量网络模型以及空洞窗口Transformer的有效性。在Duke MTMC-re ID和Market1501数据集上,验证了基于全局感知轻量骨干网络的行人重识别方法的有效性。(2)提出了一种轻量注意力原型特征对齐的行人重识别方法,用于缓解现有行人重识别特征对齐方法引入高维特征及较多参数量的问题。在此方法中,主要包括一个基于局部注意力原型的行人特征对齐模块和一个基于全局注意力原型一致约束损失。基于局部注意力原型的行人特征对齐模块可以提取局部特征,更加全面的表示行人。基于全局注意力原型一致约束损失约束同一行人特征的一致性,增强全局行人特征判别能力。在Duke MTMC-re ID和Market1501数据集上验证了轻量注意力原型特征对齐的行人重识别算法的有效性。(3)提出了一种自蒸馏特征学习的快速行人重识别方法,用于缓解现有大多数行人重识别算法使用高维真值特征计算相似度效率低的问题。在此方法中,主要包括自蒸馏散列层和基于海明距离的自蒸馏损失。自蒸馏散列层使用多头多损失函数学习策略,约束其学习。基于海明距离的自蒸馏损失可以增强二值特征间的距离与真值特征间距离的一致性,使二值行人特征保留真值特征的判别能力。在Duke MTMC-re ID数据集和Market1501数据集上验证了自蒸馏特征学习的快速行人重识别算法的有效性。
基于深度学习的CT影像肝肿瘤分割方法研究
这是一篇关于肝脏和肿瘤,深度学习,模型轻量化,多尺度特征,CT影像的论文, 主要内容为肝癌的致死率在癌症中位居前列,严重威胁着人体健康。在临床应用中,CT是医生进行肝癌诊断的常用方式之一,从CT影像中对肝脏和肿瘤区域的精准分割,对疾病的诊断和预后治疗具有重要的研究价值。传统分割算法多依赖于先验知识,不利于临床应用中的自动化扩展。近年来,深度卷积神经网络(Deep Convolutional NeuralNetwork,DCNN)被广泛应用在肝肿瘤分割任务上,通过局部感知和参数共享的特性,让模型能够从大量样本中有效学习到目标特征。由于肝脏和肿瘤区域在CT影像中存在边缘模糊、对比度低等问题,目前CT影像肝肿瘤分割任务仍面临挑战。本文针对已有工作存在的不足,研究了两种新的改进方法,并进行了应用系统的开发。具体地,本文工作主要包含如下三个方面:1)致力于DCNN在分割精度方面的提升,提出了条纹池化及注意力特征融合网络(Strip Pooling-Attention and Fusion Block,SP-AFBNet)。该模型基于U-Net改进,将条纹池化模块代替编码区的常规卷积,通过堆叠扁平状卷积的设计方式扩大网络的局部感受野。在SP-AFBNet的跳转连接层,加入多尺度特征融合和通道注意力机制,缓解不同尺度间特征信息的不均衡问题和加强特征通道间的相关性。最终结果表明,与其它先进算法相比,本文方法在CT图像肝脏和肿瘤分割任务中取得更好的度量结果。2)针对肝肿瘤分割模型计算复杂度高、推断延迟高等问题,提出了轻量化网络LW-Mnet。将改善后的MobileNetv3作为LW-Mnet的骨干网络,该模块由深度可分离卷积和non-local模块组成,前者是模型轻量化的核心,后者通过计算任意两个单位间相似度对特征加权,捕捉全局上下文长依赖信息。为了帮助模型学习多尺度间特征信息,对空洞空间卷积池化金字塔在轻量化方面进行改进,作为LW-Mnet的跳跃连接层。模型的解码部分由ShuffleNetv1基本模块构成,提取主要特征和恢复特征图分辨率。实验结果证明,LW-Mnet无论是在分割精度还是轻量化方面,都要优于其它对比方法。3)为了能将研究成果落地,基于以上工作设计开发了一个智能肝肿瘤分割辅助诊断平台。平台前后端分别基于Vue和Django框架实现,服务于临床医生和患者。患者可以在平台提交问诊表单,上传自己的肝脏CT影像,医生借助平台的肝肿瘤自动分割功能对患病表单完成诊断。在线肝癌问诊平台的搭建可以有效地降低患者的问诊成本,提高医生的诊断效率。
基于深度学习的农作物病害分类方法研究
这是一篇关于农作物病害分类,多尺度特征,数据增强,模型轻量化的论文, 主要内容为农作物病害在农作物种植过程中波及范围广、危害大,是影响农作物质量和产量的重要因素。基于深度学习对农作物实际生长环境中的病害图像进行研究,从而分类相似病害,有利于病害防治工作的开展和农产品质量的提升。针对复杂拍摄场景下,农作物病害呈现出难以区分的相似特征,导致病害分类混淆、准确率低的问题。提出基于Swin-Transformer多分支细粒度农作物病害分类模型TMFD-Net。首先,为了提取农作物病害图像特征,设计结合混合注意力机制的Swin-Transformer作为主干网络,同时使用多分支级联的方式进行多尺度特征融合,最大化保留病害特征信息,提高病害图像分类准确率。其次,为更好地贴近实际拍摄场景,利用数据增强技术对农作物病害图像进行真实环境模拟。实验结果表明,TMFD-Net模型在增强后的Plant Village和Plant Pathology 2021-FGVC数据集上,综合评判结果均优于经典农作物病害分类模型,具有对相似病害分类能力。针对基于深度学习的农作物病害分类模型参数量大、计算内存占用高,无法有效部署在移动巡检设备上的问题。构建基于ResNet-34改进的轻量级农作物病害分类模型SIR-Net。为保证基础特征提取的有效性,在原残差卷积模块引入轻量级通道注意力机制构建RN-BLOCK模块,抑制特征冗余信息。为进一步实现模型轻量化,应用分组卷积与深度可分离卷积搭建DGN-BLOCK模块,降低深层语义特征提取阶段的计算复杂度;同时结合轻量级通道注意力机制强化通道间信息关联,提高细粒度病害特征提取能力。实验结果表明,SIR-Net模型分类错误率低于ResNet-34,且参数量约为ResNet-34模型的1/17,具有一定部署能力。基于TMFD-Net模型,设计了农作物病害分类系统。系统由四个模块组成,分别是图像管理模块、病害分类模块、病害查询模块及结果可视化模块。通过对已实现模块功能展示,证明该系统可以有效的进行农作物病害图像分类。
基于RISC-V SoC的图像识别系统的设计与实现
这是一篇关于RISC-V,人脸识别,嵌入式系统,卷积神经网络,模型轻量化的论文, 主要内容为图像是人类获取信息的重要方式,图像识别在众多行业发挥着重要的作用。其中,人脸识别作为一种快速识别人类身份特征的方法,其应用较为广泛且应用场景更加集中于嵌入式端以及移动端。然而在人脸识别准确度不断提升的同时,人脸识别卷积神经网络模型也越来越复杂,因此人脸识别算法在硬件资源受限平台的部署成为了图像识别领域的研究热点。RISC-V指令集架构因其极简、模块化和可扩展性的特点,可以实现简单、灵活、低功耗的定制化设计。本课题建立了RISC-V嵌入式平台,并完成了两种轻量级的人脸识别算法的设计和部署,最终设计实现了基于RISC-V So C的人脸图像识别系统。首先本文结合人脸识别流程,以RISC-V内核作为主控核心在FPGA上设计实现了基于RISC-V So C的嵌入式人脸识别平台,并提出了一种视频降采样技术来解决嵌入式平台资源有限的问题,有效的提高了系统的资源利用率并增强了系统的可移植性。其次本课题结合目前主流的人脸识别算法设计了两种轻量级卷积神经网络模型。一种是开集人脸识别算法–Emfacenet,该网络以倒置残差结构为主体,并结合深度卷积、逐点卷积等高效的计算方式进一步减少网络层数及参数,还引入挤压和激励模块来增强通道之间的信息传递,从而确保神经网络在精度牺牲较小的情况下提升神经网络的识别速度。当识别精度保持在90.65%时,该神经网络在RISC-V嵌入式平台上的识别速度分别是ResNet50、MobileNetV3和Mobile FaceNets的56.65倍、2.09倍、3.41倍。另一种是闭集人脸识别方法–Mbfacenet,该网络同样以倒置残差结构为主体,相比于Emfacenet来说又额外引入了改进的非线性激活函数实现分段函数的线性拟合,进一步减少了神经网络中的复杂计算,并且在倒置残差网络之后引入了更轻量的ECA注意力模块,进一步保证了特征分类结果的准确性。当识别精度在保持在98%时,该神经网络在RISC-V嵌入式平台上的识别速度分别是Shuffle Net V2、Mobile Net V3、Efficient Net以及Mix Net的4.76倍、4.00倍、26.71倍、14.33倍。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码港湾 ,原文地址:https://m.bishedaima.com/lunwen/46249.html