基于深度学习的食品Logo检测方法研究
这是一篇关于深度学习,食品Logo检测,食品Logo数据集,多尺度,特征解耦的论文, 主要内容为随着深度学习技术的不断发展,卷积神经网络被广泛应用于很多科研领域,深度学习技术已成为解决计算机视觉领域问题的有效手段之一。当前,目标检测在智能视频监控、机器人导航、航空航天等领域中发挥着较大的作用,被研究者广泛关注。大数据时代的到来,数据量呈指数级增加,同时图形处理器(GPU)等硬件设施的更新迭代带动了目标检测算法的快速发展。Logo检测作为目标检测的一个分支,从图像中检测出Logo是确定品牌最具特色和最有效的方法之一。然而,由于Logo在图像尺度、几何形状、外观以及拍摄角度等方面存在很大的差异,使得Logo检测仍然是一个具有挑战性的问题。现实中品牌Logo的种类众多,食品Logo是生活中最常见的类别之一,同时食品Logo检测在现实生活中有着广泛的应用,如自助商店的食品推荐、电商平台的侵权检测以及针对性广告投放等。与普通Logo相比,食品Logo存在更多样的类间相似性以及更复杂的多尺度问题。本文针对食品Logo检测,通过构建食品Logo数据集和食品Logo检测算法的方式开展工作,具体分以下3个步骤:(1)数据质量是深度学习算法发挥作用的重要基础,为了开发先进的食品Logo检测算法,需要大规模的食品Logo数据集作为支撑。然而,目前尚无公开的食品Logo数据集。为此,本文构建了Food Logo Det-1500数据集,是目前规模最大、可公开下载的食品Logo数据集,该数据集有1,500个类别、大约10万幅图像和15万个手工标注的食品Logo目标。本文详细介绍了数据集的收集、清理和标注过程,分析了数据集的规模和多样性,并与其他Logo数据集进行了比较。据调研,Food Logo Det-1500是第一个用于食品Logo检测的最大的公开可用的高质量数据集。(2)本文提出了一种基于多尺度特征解耦网络的食品Logo检测模型(Multi-scale Feature Decoupling Network,MFDNet),实现对食品Logo的精确检测。该方法将分类任务与回归任务解耦成两个分支,解决食品Logo多类别检测问题。具体来说,引入了特征偏移模块(Feature Offset Module,FOM),该模块利用变形学习来获得最优的分类偏移量,在检测时可以有效地获得最具代表性的分类特征。此外,还使用了平衡特征金字塔模块(Balanced Feature Pyramid,BFP),它关注全局信息,增强了特征提取能力,并对多尺度特征的融合进一步增强,加强了对多尺度食品Logo的检测能力。(3)最后,本文在三个数据集上进行了广泛的实验评估,包括提出的Food Logo Det-1500和其他两个广泛使用的Logo数据集QMUL-Open Logo与Flickr Logos-32。实验结果验证了Food Logo Det-1500食品Logo数据集的有效性以及本文提出方法的可行性。
基于深度学习的肝脏和肿瘤图像分割方法研究
这是一篇关于肝脏肿瘤分割,深度学习,多尺度,注意力机制的论文, 主要内容为肝脏肿瘤的发病率很高,肝脏恶性肿瘤是最致命的癌症之一。为了对肝脏肿瘤进行有效,及时的治疗,对肝脏和肿瘤的精确分割是现今医疗影像分析中的热点课题。如果能实现医疗影像的自动化处理,得到准确的肿瘤位置,将会有助于肝脏肿瘤的治疗。随着近几十年来计算机算力的爆炸式提升,深度学习已经为计算机视觉,自然语言处理等方面贡献了很多算法。在医学图像方面,U-Net网络由于需要的数据集少,处理高复杂度图像效果好的特性,在医学影像的处理这一领域受到了广泛的应用。但是肝肿瘤出现的位置,形状,大小和数量难以预测,U-Net网络在肝脏肿瘤分割这一任务中表现不佳。有学者提出了Modified U-Net网络,在U-Net网络的跳跃连接过程中加入了阻塞反卷积,实现了对大物体和小物体自适应过滤的功能,取得了良好的效果。但是该网络在分割不同大小的肿瘤时,并不能完全准确地分割肿瘤的边界,还有改进的空间。本文在该网络的基础上对肝脏和肿瘤的语义分割算法提出了一系列的改进,所提出算法的评价指标有明显的提升。对数据的处理直接影响语义分割算法的分割结果。本文首先提取了CT图像中肝脏和肿瘤的特征,并对训练数据使用随机的仿射变换和弹性变换,大幅增加了数据数量。然后本文在Modified U-Net网络的基础上进行改进,提出了CE-m UNet网络。在网络中添加了DAC模块和RMP模块,提取多尺度信息,增强了网络对于不同大小的肿瘤的特征提取能力。通过消融实验验证,本文所提出的CE-m UNet网络取得了比原网络更好的分割效果。为了进一步提高对肝脏和肿瘤的分割效果,本文对提出的算法进行了优化。在网络结构方面,基于注意力机制,本文提出了ACE-m UNet网络。在CEm UNet网络中引入了注意力机制,让网络更加注重肝脏和肿瘤的边界,在加快模型收敛的同时提高了肝脏肿瘤的分割能力。另一方面本文还对训练使用的损失函数进行了优化,由于交叉熵损失函数对肿瘤分割效果不理想,Tversky损失函数,本文提出了一种综合了两种损失函数的优点的混合损失函数。通过消融实验对比验证了提出的优化方法可以取得优秀的分割结果。
基于深度学习的遥感影像裸地多尺度智能监测
这是一篇关于裸地提取,多尺度,DenseNet,遥感影像,深度学习的论文, 主要内容为裸地作为一种重要的地物类别,在其不断形成和增长的过程中会使周围环境产生不利影响,尤其是施工而形成的裸露土地,在剧烈的施工条件下或者在恶劣天气下会产生扬尘。因此,精准获取裸地位置,对加强建筑工地监管及探究环境变化趋势具有重大的意义。遥感影像提取裸地是监测裸地分布及变化的一个重要手段。现有遥感影像提取裸地方法主要有两种:裸地专题提取和在土地覆盖分类中被提取。但裸地专项识别方法中分层分类法过程繁琐,难以实现自动化提取。指数法提取裸地主要聚焦于基于中、低分辨率遥感影像。国产高分影像因缺少构建相关指数的波段,现有的裸土提取指数法不适用。而裸地在土地覆盖分类中的提取精度不高,存在空间信息丢失、与其他地物类别混淆等问题缺乏专项讨论,难以满足裸地的高精度提取要求。针对裸地边缘信息模糊、分布不规律等特点及现有遥感影像提取裸地方法的缺点和难点,本文设计了一种融合多层次特征的遥感影像裸地多尺度深度学习提取模型。主要研究内容如下:(1)根据裸地的影像特征,确定高分遥感影像裸地的解译标志,构建了高分遥感影像裸地单分类和多类型的样本库。(2)本文提出了一种改进Dense Net网络的高分辨率遥感影像裸地多尺度提取模型,主要采取密集连接块、坐标卷积和密集空洞空间金字塔三种策略。增强Dense Net模型在获取坐标信息、丰富裸地空间特征信息、感知全局上下文信息等方面的能力,减少模型对空间细节特征丢失环节,提高裸地多尺度遥感提取的精度。(3)在单分类和多类型裸地的提取实验中,将本文方法与三种机器学习方法、四种深度学习方法进行对比。各指标综合分析后可知,本文方法提取结果基本接近目视解译结果,在提取完整性和分类精度上均高于其他方法,并且在细小裸地的识别更有优势,说明本文方法较其他方法更适合裸地的单分类和多类型提取。(4)利用本文所设计的模型对多尺度影像进行裸地提取并进行精度测试,结果表明本文方法对高分一号、高分六号和哨兵二号遥感影像具有良好的多尺度提取效果。(5)实现了裸地多尺度智能监测和应用。利用深度学习遥感影像裸地提取模型对包河区进行多尺度裸地提取,结果显示本文方法具有良好的裸地多尺度提取效果。再对研究区的多时序遥感影像进行单分类和多类型裸地提取,并对其进行时空变化分析。根据单分类的裸地提取结果发现,裸地从包河区的西部和西南部地区逐步向东部及北部发展。根据多类型裸地提取结果发现,裸土均匀分布在包河区各区域,而建筑工地有明显的变化趋势,整体上由南部逐渐向北部发展。休耕地较少,其主要分布在包河区西南部地区和东部地区。
基于跨阶段局部模型及YOLO深度神经网络的目标检测算法
这是一篇关于跨阶段局部,目标检测,火灾检测,多尺度,小目标的论文, 主要内容为目标检测是计算机视觉中的重要研究方向,已被广泛应用于无人驾驶、安全监控、灾害预警等诸多领域。以深度学习网络为基础的目标检测算法比传统机器学习有明显的优势。然而,由于目标多样、场景复杂、算力要求高等问题,使得目标检测算法的性能仍有待进一步提升。本文主要针对无人机航拍视角下和火灾场景下的目标检测进行研究。以上两个场景下的目标检测均具有一定的挑战性。主要包括:(1)无人机航拍视角下目标检测。背景信息复杂、目标定位难,干扰目标多,目标像素小,特征提取困难。(2)火灾场景下的目标检测。火灾场景下的火焰与烟雾目标边缘模糊、形态变化大,可用公开数据集较少。本文以YOLO(You Look Only Once)模型为基础架构,结合跨阶段局部网络,提出了2种无人机视角下的小目标检测算法以及1种火焰与烟雾目标检测算法,并自制了一个火焰与烟雾目标数据集。本文的研究内容如下:(1)提出基于跨阶段局部网络的小目标检测算法YOLO-CS。YOLO-CS算法旨在提升无人机航拍视角下小目标检测的总体精度。首先,针对SPP模块在微调时是不能继续训练的,且存在大量参数以及特征提取能力一般的问题,YOLO-CS在YOLOv3主干网络中增加一个跨阶段局部网络的空间金字塔池化模块CSP-SPP(Cross Stage Partial Network and Spatial Pyramid Pooling,CSP-SPP),来通过增大感受野,获取复杂的背景特征;其次,YOLO-CS将跨阶段局部网络的思想引入到普通卷积中,增强了网络对特征的融合和提取能力;最后,YOLOCS算法位置函数采用了CIoU(Complete Intersection over Union,CIoU)损失函数,弥补了均方差(Mean Square Error,MSE)损失函数较难评价位置损失的不足。将本章所提的YOLO-CS算法与其他性能优越的算法在UAVDT(Unmanned Aerial Vehicle Detection and Tracking,UAVDT)数据集上进行了性能比较。结果表明,YOLO-CS算法对车辆检测的平均精度(mean average precision,m AP)达到了27.05%,分别比YOLOv3、FRCNN+FPN高3.85%、3.65%。由此可见,与YOLOv3基本架构相比,本章所提出的YOLO-CS算法通过引入跨阶段局部网络能提升简单场景下无人机航拍视角下的小目标检测性能。(2)提出基于跨阶段局部网络的多尺度小目标检测算法YOLO-CM。YOLOCM算法主要用于目标更小、环境更复杂、类别更多、数据集分布不均衡的复杂场景下的无人机小目标检测。首先,YOLO-CM将跨阶段局部空洞空间金字塔池化(Cross Stage Partial-Atrous Spatial Pyramid Pooling,CSP-ASPP)和跨阶段局部2-X(Cross Stage Partial2-X,CSP2-X)两个模块引入YOLOv4,其优势在于能够获得更大的感受野和更多的边缘信息,提升小目标的特征表征能力;其次,YOLO-CM算法采用了基于IOU的k-means聚类方法获取匹配的先验框,代替了YOLOv4中的统计MS COCO数据集的方法,从而克服了数据集不匹配问题;最后,YOLO-CM在YOLOv4的颈部增加了一个第四尺度的检测器,可以提取低维高频信息,这样更有利于小目标的检测。本章在UAVDT、Vis Drone2019(Vision Meets Drone 2019)以及自制的夜间目标检测数据集UAV-LED-G上对YOLO-CM算法进行了性能测试。结果表明,在UAVDT数据集上,YOLO-CM对最具代表性的小汽车检测的m AP值达到了67.00%,比YOLOv4高了2.30%;在Vis Drone2019数据集上,YOLO-CM检测的m AP值达到了39.09%,比YOLOv4和DA-Retina Net分别提高了2.22%和3.16%;在UAV-LED-G数据集上,YOLOCM检测的m AP值达到了89.46%,比YOLOv3、YOLOv4分别提高了3.05%和2.09%。YOLO-CM算法能够满足复杂场景下的无人机小目标检测。(3)提出基于跨阶段局部网络的火焰烟雾目标检测算法YOLOX-CSP,并自制了一个多场景下的火焰与烟雾数据集FireSmokeC。首先,本章针对火焰烟雾具有形态多变、边界模糊等问题,以YOLOX-L为基础架构,提出了融合CSP_ASPP和多尺度检测器的目标检测算法。其次,针对目前火灾场景下的数据集较少的问题,自主构建并标注了多场景下的火焰与烟雾数据集。将YOLOXCSP算法在自制数据集FireSmokeC上进行了性能测试。结果表明,在FireSmokeC数据集上,YOLOX-CSP的检测m AP值达到了88.08%,比YOLOX-L、YOLOv4、YOLOv3分别提高了2.14%、2.48%、9.78%,值得一提的是对火焰的检测m AP值达到了93.97%,比YOLOX-L高了6.26%。由此可见,该算法针对火灾场景下的目标检测具有较高的应用价值。综上所述,本文针对无人机航拍视角下和火灾场景下的目标检测两类问题,以跨阶段局部网络和YOLO网络为基础,提出了基于跨阶段局部网络的无人机视角下的小目标检测算法YOLO-CS、基于跨阶段局部网络的多尺度小目标检测算法YOLO-CM和基于跨阶段局部网络的火焰烟雾目标检测算法YOLOX-CSP,并自制了一个火焰与烟雾目标数据集。本文在两个公开无人机数据集UAVDT和Vis Drone2019,以及两个自制数据集UAV-LED-G和FireSmokeC上进行了大量实验,证明了本文提出的目标检测算法的有效性以及性能的提升能力。因此,本文提出3种算法在无人机目标检测和火灾检测领域有较好的应用价值。
基于深度学习的电力线分割算法研究
这是一篇关于电力线,语义分割,轻量级,多尺度,注意力机制的论文, 主要内容为定期巡检输电线路是保障电力系统稳定运行的重要措施,随着无人机智能电力巡检技术的发展和应用,无人机全自主巡线作业系统正成为电力领域内备受研究人员关注的热点问题。准确高效的将电力线从航拍图像中分割出来对于无人机及时完成自动避障以及自主规划航迹十分关键。然而,由于航拍电力线图像背景复杂多变,电力线目标又往往非常细小,因此精确提取可见光航拍图像中的电力线仍具有挑战性。此外,现有基于深度学习的电力线分割模型通常在关注分割精度的同时忽视了模型的参数量,不利于模型在边缘设备上进行部署。本文针对以上问题,对基于深度学习的电力线分割方法展开了深入研究,主要工作归纳如下:在研究经典语义分割网络结构及原理的基础上,构建了可见光电力线分割数据集。当前大规模可见光电力线分割数据集相对缺乏,且现有公开电力线分割数据集存在一定的质量缺陷。本文对公开数据集TTPLA进行了再处理,同时增加了新的航拍可见光电力线图像数据,制作了包含丰富样本的且具有良好标注的电力线分割数据集,为本文设计和测试基于深度学习的电力线分割算法提供了有效的数据支持。在构建的电力线数据集上对经典语义分割网络进行了实验,结果表明U-Net相比其他对比模型在分割精准度与模型参数量上更优。接下来,针对U-Net的参数量还存在一定的下降空间,且其分割电力线时精度不够高的问题,通过基于Ghost Net、PP-LCNet设计的轻量化骨干网络改进U-Net以减少模型参数量,基于Res Ne St设计更深的骨干网络结构改进U-Net以提升模型精确度,分别构建出了Ghost-Unet、不同规模的PP-LC-Unet以及Res Ne St-Unet模型。经实验验证了三种模型的有效性,综合衡量模型的参数量与分割精度,发现其中Ghost-Unet总体性能更优,其参数量约缩小至U-Net的1/4,仅约6.049 M,且分割精度仅略低于U-Net,在Precision、Recall、F1-Score以及Io U指标上,分别达到了93.28%、89.53%、90.8%、84.04%。最后,为进一步提升轻量化的电力线分割网络Ghost-Unet的分割精确度,本文通过多尺度输入融合策略提升模型的特征表达能力,构建出了GM-Unet模型,并在此基础上通过分别融入ECA-Net、CBAM与SA注意力机制对GM-Unet进行了进一步优化,提高网络对电力线细节信息的关注度,从而提高网络的性能。最终构建出了GM-ECAUnet、GM-CBAM-Unet以及GM-SA-Unet模型。提出的优化策略与方式使模型的分割精确度得到了提升,且参数量仅略有增加,其中GM-SA-Unet相比其他对比模型能够更加精准高效的分割航拍可见光电力线图像,该模型参数量约为U-Net的1/4,仅约6.808M,同时其分割精度高于U-Net,在Precision、Recall、F1-Score以及Io U指标上,分别达到了94.2%、90.4%、91.84%、86.58%。
基于深度学习的医学图像检测与分割算法研究
这是一篇关于目标检测,语义分割,注意力机制,多尺度,医学图像处理的论文, 主要内容为医学图像在医疗领域中扮演着至关重要的角色,它能够为医生提供客观的依据,有助于诊断患者的病情。随着影像学技术的发展,医学图像数量激增,传统的人工处理方式已无法满足现代医学的图像分析需求。因此,深度学习作为新兴的人工智能技术,能够自动分析图像特征,提高医学图像处理的效率,正备受关注。在基于深度学习的医学图像处理中,检测和分割是两个关键任务,分别负责定位异常区域和分离病变部位,为医生提供更精准的诊断信息。与自然图像不同,医学图像具有高度复杂的特点,如存在大量的干扰和噪声、病变组织的尺度和形态多样,以及低对比度等,导致通用的图像检测和分割算法往往难以胜任复杂的医学图像处理任务。因此,本文针对医学图像的特点,提出一种基于注意力机制的图像检测算法和一种基于多尺度语义表征的图像分割算法,并基于上述算法构建一个医学图像智能处理系统,主要工作如下:(1)针对医学图像检测任务中存在的大量噪声和无关内容,导致检测过程受到很大干扰的问题,本文提出一种基于注意力机制的医学图像检测算法FCOS-plus。该算法建立在FCOS算法的架构上,采用Swin Transformer作为骨干网络,通过多头自注意力机制高效地挖掘输入图片的表征信息,并利用滑动窗口的方式建立跨窗口的信息交流,从而充分提取特征的全局和局部信息。同时,设计一种集成通道注意力机制的特征金字塔,以提高图像关键区域的权重,抑制其它区域的无用信息。此外,在算法的末端引入可变形卷积,以增强模型对形状未知目标的建模能力。在肺结核杆菌检测数据集上的实验表明,本文改进算法FCOS-plus的平均精度达到85.7%,召回率达到97.8%,比原始FCOS算法分别提高4.9%和2.8%,表明FCOSplus算法在医学图像检测中具有更好的性能表现。(2)针对医学图像分割任务中存在的组织形态特征复杂、尺度大小和几何形状多变的问题,本文提出一种基于多尺度语义表征的医学图像分割算法。该算法首先通过一系列的Res2Net Block提取图片特征,利用其分组残差连接结构,在更细粒度级别表达图片的多尺度特征。为充分利用这些特征,通过空间金字塔池化模块和特征金字塔将不同尺度的特征信息融合,解决分割过程中的细节损失问题。最后,采用Dice Loss作为主要的损失函数,计算网络的预测值与真实标签之间的差异,实现对医学图像的像素级分类。实验结果表明,该算法在视网膜血管分割数据集STARE和CHASE_DB1上的F1值分别达到0.8606和0.8760,灵敏度分别达到0.8544和0.8745,优于U-Net、R2 U-Net和DUNet等常见语义分割算法,表明本文提出的多尺度算法具有更好的分割效果。(3)基于前述两个算法训练的模型,本文采用Model-View-ViewModel软件架构模式设计并开发一款医学图像智能处理系统。针对医生用户的需求,采用Vue、Express和MySQL等主流开发技术实现患者管理、肺结核杆菌细胞智能检测、视网膜血管自动分割和检查报告管理等系统功能。同时通过功能测试和兼容测试对系统的可用性进行验证,结果表明该系统能够有效地辅助医生进行医学图像的处理。
基于深度学习的遥感影像裸地多尺度智能监测
这是一篇关于裸地提取,多尺度,DenseNet,遥感影像,深度学习的论文, 主要内容为裸地作为一种重要的地物类别,在其不断形成和增长的过程中会使周围环境产生不利影响,尤其是施工而形成的裸露土地,在剧烈的施工条件下或者在恶劣天气下会产生扬尘。因此,精准获取裸地位置,对加强建筑工地监管及探究环境变化趋势具有重大的意义。遥感影像提取裸地是监测裸地分布及变化的一个重要手段。现有遥感影像提取裸地方法主要有两种:裸地专题提取和在土地覆盖分类中被提取。但裸地专项识别方法中分层分类法过程繁琐,难以实现自动化提取。指数法提取裸地主要聚焦于基于中、低分辨率遥感影像。国产高分影像因缺少构建相关指数的波段,现有的裸土提取指数法不适用。而裸地在土地覆盖分类中的提取精度不高,存在空间信息丢失、与其他地物类别混淆等问题缺乏专项讨论,难以满足裸地的高精度提取要求。针对裸地边缘信息模糊、分布不规律等特点及现有遥感影像提取裸地方法的缺点和难点,本文设计了一种融合多层次特征的遥感影像裸地多尺度深度学习提取模型。主要研究内容如下:(1)根据裸地的影像特征,确定高分遥感影像裸地的解译标志,构建了高分遥感影像裸地单分类和多类型的样本库。(2)本文提出了一种改进Dense Net网络的高分辨率遥感影像裸地多尺度提取模型,主要采取密集连接块、坐标卷积和密集空洞空间金字塔三种策略。增强Dense Net模型在获取坐标信息、丰富裸地空间特征信息、感知全局上下文信息等方面的能力,减少模型对空间细节特征丢失环节,提高裸地多尺度遥感提取的精度。(3)在单分类和多类型裸地的提取实验中,将本文方法与三种机器学习方法、四种深度学习方法进行对比。各指标综合分析后可知,本文方法提取结果基本接近目视解译结果,在提取完整性和分类精度上均高于其他方法,并且在细小裸地的识别更有优势,说明本文方法较其他方法更适合裸地的单分类和多类型提取。(4)利用本文所设计的模型对多尺度影像进行裸地提取并进行精度测试,结果表明本文方法对高分一号、高分六号和哨兵二号遥感影像具有良好的多尺度提取效果。(5)实现了裸地多尺度智能监测和应用。利用深度学习遥感影像裸地提取模型对包河区进行多尺度裸地提取,结果显示本文方法具有良好的裸地多尺度提取效果。再对研究区的多时序遥感影像进行单分类和多类型裸地提取,并对其进行时空变化分析。根据单分类的裸地提取结果发现,裸地从包河区的西部和西南部地区逐步向东部及北部发展。根据多类型裸地提取结果发现,裸土均匀分布在包河区各区域,而建筑工地有明显的变化趋势,整体上由南部逐渐向北部发展。休耕地较少,其主要分布在包河区西南部地区和东部地区。
基于多尺度注意力机制的人体行为识别方法研究
这是一篇关于行为识别,深度学习,注意力机制,多尺度的论文, 主要内容为随着电子信息技术等相关技术的发展,视频已经逐渐成为生活中不可或缺的信息媒介。当前各种数字环境中存在的海量视频数据具有着极大的价值,因此,利用计算机进行视频的内容理解、信息挖掘已经成为研究者的重要课题。近年来,深度学习在图像处理等领域取得了前所未有的成功,这也促使了基于视频的人体行为识别技术的发展。目前行为识别领域还存在着诸多挑战,比如人体行为在类内和类间均有较大的变化,不同视角、不同速度下的同一类的行为实例间可能存在较大的差异,而有些不同类别的行为则可能具有相似的视觉节奏。同时,行为视频在时间和空间的多个尺度上均有丰富的信息,简单的模型无法同时捕获这些信息。本文立足于当前领域内的先进工作,研究了如何更好地探索时间信息,进一步地,引入多尺度的方法,以建模各种视觉节奏和不同尺度的时空信息。本文主要工作如下:考虑到3D卷积网络存在时间建模能力不足的问题,本文构建了一个时间聚合网络。首先,基于自注意力机制设计了一个时间聚合模块,旨在利用特征图内部的相关性,挖掘出视频中更多的时间关联信息,并聚合时间信息。然后,将时间聚合模块引入到3D Res Net中,构建了时间聚合网络,其中的主分支中的时间信息得到了强化,并且时间聚合分支额外挖掘了视频中更多的信息,强化了3D Res Net的时间建模能力。时间聚合网络在UCF-101和HMDB-51数据集上分别达到了91.79%和65.37%的准确率。视频中的人体行为具有复杂的时间结构,不同的行为类别天然地具有不同的视觉节奏,如走路和跑步。本文在时间聚合网络的基础上,进一步构建了一个多尺度空间多样性行为识别框架,融合了3D卷积网络不同深度的特征以建模多种视觉节奏。首先,引入了基于自注意力机制的空间注意力模块,通过探索特征图上各空间位置之间的相关性,获取空间注意力图,然后对不同的空间位置上的特征给予不同程度的关注。接着,引入了多尺度的方法,提出了基于多尺度的行为识别框架,建模多尺度的时空信息。进一步地,提出了空间多样性约束,使得不同尺度上的空间注意力尽量关注到空间上不同的位置,从而更充分地挖掘出不同尺度的空间信息,进而使得融合的多尺度特征中包含更全面的空间信息。多尺度空间多样性行为识别框架在UCF-101和HMDB-51数据集上分别达到了94.05%和68.72%的准确率。综上所述,本文引入了时间聚合模块并提出了时间聚合网络,解决了常规的3D卷积网络在时间建模方面能力不足的问题。然后引入了空间注意力模块、多尺度方法和空间多样性约束,并构建了多尺度空间多样性框架。本文的方法在两个具有挑战性的视频行为识别数据集UCF-101和HMDB-51上进行了实验。最终的实验结果证明了本文所提出的方法的有效性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://m.bishedaima.com/lunwen/47847.html