基于特征优化的目标检测技术研究
这是一篇关于目标检测,特征增强,注意力机制,知识蒸馏的论文, 主要内容为近年来,由于数据量的快速增长和计算机性能的发展,深度学习已经广泛应用于许多领域,包括安防监控、计算机视觉和推荐系统等场景。目标检测是机器视觉领域中的重点研究方向之一,不断地改变着人类的生活方式,在智慧医疗、异常事件检测和交通流量监控等方面有重要的研究价值。YOLOv5s作为目前最流行的目标检测器之一,存在特征表达能力不足的问题。针对该问题,本文设计了一种基于特征优化的目标检测方案,提出了一种基于特征增强和注意力机制的新型目标检测器(Feature Enhancement and Attentional Mechanism Detector,FEAMD),增强了特征的表达能力,提升了通用目标检测器的检测性能。本文的主要工作如下:(1)为了丰富目标检测器的特征空间,本文提出了基于CBMA的空间特征增强模块(Center and Scale Prediction with Spatial Enhancement,CSPSE)。CSPSE模块通过平均池化、1×1卷积和顺序卷积(1×1卷积和3×3卷积)组合的四种不同分支结合BN层进行相加,提供了丰富的上下文特征,扩大网络的感受野。CSPSE模块很好地利用了多样性的连接和训练时间非线性,增强特征的空间表达能力的同时没有增加额外的推理时间,提升了检测的性能。(2)为了更好地捕获网络中的通道信息和空间信息,增强网络的特征表示能力,本文提出了一个基于通道和空间信息的注意力机制(Coordinate Attention with Meta-ACON,CAMA)。为了避免空间信息的丢失,CAMA将全局池化分解为水平和垂直两个方向的池化操作。通过这种方法既可以获取空间上的依赖关系,又可以获取较为丰富的位置信息,最后沿着这两个方向融合特征,使得特征的表达能力加强。(3)为了进一步优化FEAMD模型的检测性能,本文设计了一种基于FEAMD的知识蒸馏方案FEAMD-dis,提出了一种具有MSE蒸馏损失的直接logit匹配方案,促进FEAMD模型更充分地利用特征信息进行检测。通过更复杂的教师网络对FEAMD进行知识蒸馏,FEAMD-dis可以学习到更丰富的特征信息,减少出现错检和漏检的问题,在保持速度的同时FEAMD-dis精度进一步提升。
基于改进YOLO与知识蒸馏的无人机航拍图像目标检测方法研究
这是一篇关于轻量化网络,知识蒸馏,YOLO-v5,FReLU激活函数,注意力机制,无人机航拍图像目标检测的论文, 主要内容为目标检测作为计算机视觉领域的研究中的重要课题,一直备受重视。随着无人机技术、卫星遥感技术、航空航天技术等的发展,航拍图像目标检测已成为研究热点。无人机航拍图像是航拍图像的重要分支,是以无人机作为图像传感器的空中搭载平台所拍摄的图像。然而,航拍图像区别于普通图像,具有背景信息复杂、目标尺度小、目标具有显著的方向性且分布稀疏不均等特点,这使得航拍图像的目标检测,尤其是小目标检测充满挑战,小目标的漏检率及误检率较高,且检测速度较低。本文针对无人机航拍图像小目标检测所面临的问题,进行相关研究。本文选用YOLO-v5(You Only Look Once-v5)作为基础算法。该算法在无人机航拍图像实时检测中具有很高的精度,但时空复杂度较高,模型结构较为复杂,使得实时性不满足无人机航拍图像目标检测任务的需求。根据YOLO-v5在无人机航拍图像小目标检测中存在的问题,对算法进行针对性的优化,使优化后的算法可以被有效应用于无人机航拍图像小目标检测中。本文的研究重点可以划分为以下几个方面:第一,改进基础的YOLO-v5算法,并命名为GFC-YOLO-v5优化算法。首先,利用轻量化网络降低时空复杂度,搭建Ghost Module模块并利用Ghost Module构建Ghost Bottleneck瓶颈结构;利用Ghost Bottleneck构建Ghost Net网络;修改网络接口,将Ghost Net的输出层作为有效特征层,进行加强特征提取。然后,对卷积模块的激活函数进行处理,YOLO-v5的卷积模块中的Si LU激活函数的空间敏感度较低,针对这个问题,采用FReLU函数作为激活函数,克服线性模型的局限性,使模型具备更高的检测能力。最后,在骨干网络(Backbone Net)中添加CBAM注意力机制模块,融合通道注意力与空间注意力机制,提高目标检测网络检测速度,节省参数与计算力,将参数量由7030417轻量化为3774347。第二,GFC-YOLO-v5算法的时空复杂度得到了大幅度降低,但其检测精度有所影响。为提升轻量化网络的精度,将YOLO-v5m、YOLO-v5l网络的卷积模块中的激活函数由Si LU替换为FReLU,分别命名为FReLU-YOLO-v5m/l,以上述精度很高但体积较大的网络作为教师网络,以GFC-YOLO-v5作为学生网络,修改损失函数,在自定义数据集中进行知识蒸馏。经过知识蒸馏后的GFC-YOLO-v5在其显著的模型轻量化优势的前提下,精度得以提升至90.6%。第三,将本文方法应用于无人机航拍图像小目标检测,无人机具有操控简单、飞行灵活、成本低等优点。通过自采集无人机图像与公开数据集图像构建针对小目标的无人机图像数据集:PCUS-Data Sets与SMALL-TINY-UAV-DATASET。进行对比实验与消融实验,通过精确率、召回率、检测速度、时空复杂度等方面进行分析。通过实验验证,改进后的GFC-YOLO-v5的参数量相比原始YOLO-v5s减少了46.3%;改进后的GFC-YOLO-v5的计算量相比原始YOLO-v5s降低了46.54%。经过知识蒸馏后的Distilled-GFC-YOLO-v5的精确率相比GFC-YOLO-v5提升了6.7个百分点,相比原始YOLO-v5s提升了1.2个百分点。在优化算法基础上进行知识蒸馏后,改进算法实现了准确度与时空复杂度的双重优势。
面向文娱场景的智能抠像系统的设计与实现
这是一篇关于知识蒸馏,智能抠像系统,贝叶斯理论,自然背景抠像的论文, 主要内容为随着人工智能的不断发展,抠像技术在文娱场景中的应用越来越广泛。尽管已经有相关的产品问世,但它们对电脑的配置要求较高,且需要专业硬件设备,不利于推广。因此,本文针对固定场景抠像的需求和计算资源有限的情况,设计了一个结合深度信息的固定背景抠像算法,基于该算法设计了一个智能抠像摄像头,结合Unity3D引擎开发的抠像娱乐软件,构成面向文娱场景的智能抠像系统。本文的方法是基于深度学习算法Background Matting V2提出的,由于其所消耗的计算资源较大,普通的边缘计算设备难以提供相应算力,故本文对网络模型进行蒸馏,通过使用原BGM-V2的主干模型Res Net50指导学生网络Mobile Net V2的训练,以提高算法运行速度。另一个方面,蒸馏在提升速度的同时难免会造成精度的损失,为了保证抠像效果,本文引入一套基于贝叶斯理论的深度-RGB学习框架来提高算法精度。为了验证算法的效果,本文提出了学术界第一个针对RGBD固定背景抠像的数据集,命名为JXNU-RGBD-Matting。本文所提的方法在该数据集上取得了很好的效果。实验结果表明,与基础模型(BGMV2)相比,压缩后的网络模型所消耗的运行时间缩短48.11%。与蒸馏后的模型(BGM-V2-DIST)相比,结合深度信息的固定背景抠像算法(BGM-V2-DISTRGBD)在精度上提升4.42%,达到了运行速度和精度的要求。基于该新型RGBD抠像算法,本文设计了一个智能抠像摄像头,该摄像头由边缘计算设备和RGBD相机组成,抠像算法部署于边缘计算设备上并实时采集图像,返回抠像结果。此外,采用Unity3D引擎开发了一个应用软件,该软件可部署于普通电脑或者安卓电视上,用于接收边缘计算设备传回的前景图像,然后与虚拟背景相融合,最终显示在电脑或电视上,实现娱乐及互动功能。
基于知识图谱的中文智能问答方法研究
这是一篇关于知识图谱问答,深度学习,知识蒸馏,智能问答,图神经网络的论文, 主要内容为知识图谱以结构化三元组的方式组织现实世界中的事实,具备高度灵活的语义建模和表达能力,并被广泛应用于各种开放领域和特定领域。基于知识图谱的智能问答方法(Knowledge Based Question Answering,KBQA),能够自动解析用户提出的自然语言问题,理解用户意图,并在知识图谱中定位三元组信息(即知识),返回答案给用户。这种方法能够弥补传统搜索引擎的不足,极大地提高了效率,提供了直接的人机交互方式。因此,本文主要围绕KBQA的关键技术和实际应用进行改进与创新,具体的研究工作如下:(1)针对中文字形复杂、语义信息复杂的问题,提出基于中文预训练语言模型Chinese BERT的知识图谱单跳问答方法(Chinese BERT-KBQA)。该方法采用中文预训练语言模型Chinese BERT,将其作为文本的语义嵌入层,其融合了字形和拼音信息,提升了传统语义解析方法在实体提及识别与关系预测子任务上的性能。具体而言,分别提出基于Chinese BERT-CRF的实体提及识别模型和基于Chinese BERT-Text CNNSoftmax的关系预测模型,以综合提高对中文文本的语义理解能力。最后结合子任务间的相关信息,进行最终的答案预测。在教育问答数据集MOOC Q&A和开放域问答数据集NLPCC2018上的实验结果表明了该方法的有效性。(2)针对Chinese BERT-KBQA方法只处理简单问题,无法对复杂问题进行多跳推理的缺陷,提出一种基于双线性图神经网络和双教师蒸馏的多跳问答方法(BGNNTT),并在此基础上开发了教育知识Web应用。传统的多阶段语义解析方法在面对需要多次推理的复杂问题时,多步间的误差累积会导致问答方法的准确度降低。图神经网络的引入可以捕获图谱结构的邻域信息并生成实体的向量表示,把答案预测问题转化为向量间的语义相似度计算问题。基于这一思想,本文结合双线性图神经网络进行推理,引入一种双线性聚合器,通过结合线性聚合和双线性聚合,可以捕获知识图谱中图节点之间的上下文信息,并获得更全面的实体表示,有效提高多跳问答推理能力。此外,为了缓解虚假路径推理现象,添加了双教师学习,即结合双向推理构建两个教师网络,融合两个教师网络的中间监督信号来指导问答推理的中间过程。与现有的多跳问答方法相比,在MOOC Q&A和NLPCC-MH多跳问答数据集上取得了更好的效果。通过实验结果表明,本文提出的知识图谱单跳和多跳问答方法在一定程度上实现了良好的问答性能,并优于其他问答方法,提升了机器对中文文本的语义理解能力。
基于深度学习的巷道顶板托盘识别方法研究
这是一篇关于锚杆托盘识别,Faster R-CNN,K-means++聚类算法,注意力机制,知识蒸馏的论文, 主要内容为随着人工智能技术的发展,机器视觉技术被广泛应用于煤矿智能化应用中。托盘作为巷道顶板支护作业中的重要部件之一,通过识别托盘的特征可以实现装备自动定位、巷道变形监测以及锚杆异常监测等。其中,能否准确识别托盘是这类应用可靠性的关键。本文从托盘识别精度和识别速度两方面对目标检测网络进行优化,提出了一种基于改进Faster R-CNN的煤矿井下巷道顶板托盘识别方法,主要工作如下:(1)研究了托盘识别、目标检测和网络轻量化方法相关基础理论,总结了托盘识别、目标检测方法和网络轻量化方法的研究现状。介绍了基于顶板托盘的掘进机位姿检测方法,进而引出托盘识别的重要性。其次分析了托盘识别的重难点,介绍了本课题所涉及的相关理论知识,最后对托盘识别的总体方案进行设计。(2)为提升托盘的识别准确率,对Faster R-CNN算法进行三点改进:首先,采用特征提取效果更好的Res Net50代替VGG16作为主干网络;其次,基于Kmeans++聚类算法对区域建议网络中的锚框尺寸进行优化;最后,在特征提取网络Res Net50中引入注意力机制模块,以此增强网络对托盘的关注度。(3)Faster R-CNN算法虽然检测精度高,但检测速度慢,故需对其进行轻量化研究,以提高托盘识别的效率。选取Res Net18作为主干网络,并引入深度可分离卷积,构建了一种轻量级的特征提取网络。为实现模型高精度和轻量化兼顾,本文采用知识蒸馏算法,对托盘识别精度较高的教师网络进行蒸馏,指导结构相对简单的学生网络,旨在保持模型识别精度的同时,提高托盘识别的速度。(4)在模拟巷道中自采图像,将图像中的目标分为完整托盘及不完整托盘两大类,对目标位置进行标注,并将其划分为训练集、验证集和测试集,完成托盘图像数据库的建立。最后在Pytorch深度学习框架上对改进模型进行试验验证,试验结果表明:经过(3)中的改进,改进后的Faster R-CNN网络模型托盘识别的平均精度均值(m AP)比原Faster R-CNN网络提高了7.59%;经过(4)中改进,模型占用空间减少了59.47%,m AP值仅损失3.58%,改进后的算法在基本保持原有识别精度的同时,极大提升了托盘识别的速度。本文研究了基于深度学习的煤矿井下巷道顶板托盘识别方法,为提升托盘识别的精度和速度,对算法进行相应改进,实现了煤矿井下巷道顶板托盘的高精度、高效率识别,对相关煤矿智能化应用的发展具有一定的理论意义。
车载式高速公路路面异物智能检测系统研究
这是一篇关于交通安全,高速公路巡检,路面异物,目标检测,知识蒸馏的论文, 主要内容为高速公路环境下,路面异物引发的道路交通安全事故严重程度往往高于城乡道路。现阶段针对路面异物的高速公路养护工作,仍以基于人工方式的日常巡检和基于高清摄像头的易发位置定点监控为主。然而,随着全国高速公路养护里程的不断增加,传统的高速公路养护方式受到人为因素和成本因素等多种因素的影响,逐渐显露出此类方案的弊端。因此,本课题结合多种先进技术设计研发了车载式高速公路路面异物智能检测系统。车载式高速公路路面异物智能检测系统的研究内容主要分为:1)研究分析现有道路信息采集装置的不足,设计研发了新一代便携式车载道路信息采集装置。该装置对“北斗+GPS”双星定位装置、双目视觉感知装置和边缘计算设备三者之间进行电路设计,并重新在边缘计算设备上设计开发了道路信息采集程序;2)分析现有开源路面异物数据库缺失问题,利用便携式车载道路信息采集装置进行实地采集巡查路段图像并人工筛选出有效数据搭建路面异物数据库。根据路面异物数据库特点,选择单阶段无锚框目标检测算法(YOLOv8)作为基准算法,并根据数据特点对YOLOv8目标检测算法提出三点改进措施;3)针对直接训练较小网络得到的路面异物检测器存在精度偏低现象,研究基于知识蒸馏算法的间接训练较小网络得到路面异物检测器策略,并对FGD知识蒸馏算法引入类别信息蒸馏方法;4)结合双目视觉定位信息和PP-OCRv3里程桩文字信息提取方法实现路面异物的绝对定位,有利于养护中心对于路面异物事件的管理养护。车载式高速公路路面异物智能检测系统包括以下三个方面:1)本课题将路面异物检测器和异物定位方法嵌入便携式车载道路信息采集装置,重新开发出一款高速公路路面异物实时检测软件;2)设计开发了巡检数据自动上传脚本。该脚本自动监控巡检工作文件夹,实现远距离数据传输;3)结合阿里云物联网平台,设计开发了高速公路管理平台,方便高速公路养护中心实时观察不同设备的巡检情况,同时方便养护中心下发道路养护任务。车载式高速公路路面异物智能检测系统在福州西至福州南的高速公路路面实验证明:1)该系统搭载的路面异物检测器对路面异物的检测精确率达到了77.4%,可以有效的检测出道路图像中存在的路面异物目标;2)该系统搭载的路面异物检测器对里程桩的检测准确率达到了81.8%,可以有效的检测出道路图像中存在的里程桩目标,并且使用的PP-OCRv3模型可以有效的提取出里程桩的桩号信息;3)该系统使用的数据传输方式实现平均每秒3到4次的数据传输,可以有效的将实时检测到的路面异物目标进行远距离传输。综上所述,本课题设计研究的车载式高速公路路面异物智能检测系统可以有效的辅助基于人工方式的日常巡检工作,一定程度降低巡检工作的难度,提升巡检效率。
基于YOLOv5s的生活垃圾检测及系统设计
这是一篇关于目标检测,垃圾分类系统,注意力机制,轻量化,网络剪枝,知识蒸馏的论文, 主要内容为近年来,我国开始积极推广垃圾分类政策,但存在人们普遍缺乏相关知识,以及人工引导分类人力成本高等问题。随着目标检测技术的发展,借助该技术辅助市民进行垃圾分类,为垃圾分类政策的推广提供了一种新思路。目前垃圾分类的智能研究存在可检测类别较少、模型特征提取能力不足、检测实时性较差等问题。为了解决上述问题,本文从网络模型结构、模型复杂度等方面展开研究,设计并实现了一种基于CGPD-YOLOv5s的垃圾分类系统,该系统能够有效地进行多类别垃圾检测。本文的主要工作内容如下:(1)构建了包含多个类别的H2生活垃圾数据集。首先合并“华为云杯”数据集和HGI30数据集,接着剔除部分模糊、高度重复的数据,然后以PASCAL VOC格式标注数据,最后通过数据增强扩充部分数据集。构建的H2生活垃圾数据集共有23518张图片,包含57种垃圾,它们被分为4个类别:可回收垃圾、厨余垃圾、有害垃圾和其他垃圾。(2)提出了一种基于CGPD-YOLOv5s的生活垃圾检测方法。针对垃圾尺寸变化大、重叠遮挡以及YOLOv5s模型复杂、计算量大等问题,提出了一种基于CA注意力和Ghost Net的CG-YOLOv5s模型。其中,在YOLOv5s的颈部融合CA注意力机制可以更好地获取全局感受野,提升模型的特征提取能力;然后通过Ghost Net进行网络轻量化设计,采用Ghost Conv进行特征提取,基于G-Bottle Neck构建G-C3模块,以实现减少模型参数量、提高推理速度的目的。由于改进后的CG-YOLOv5s模型仍存在参数冗余,以及检测精度下降的问题,本文通过网络剪枝和知识蒸馏的策略进一步优化模型,得到CGPD-YOLOv5s。在H2生活垃圾数据集上的实验结果表明,CGPD-YOLOv5s相较于YOLOv5s在网络体积上压缩了75.5%,在实时推理速度上提升了46.8%,在模型精度上接近于YOLOv5s。可见CGPD-YOLOv5s在检测精度损失较小的情况下降低了模型的复杂度,适合部署在移动终端。(3)设计并实现了一种基于CGPD-YOLOv5s的垃圾分类系统。首先,对系统进行功能性需求分析和非功能性需求分析;然后,设计了系统总体架构、系统功能模块和数据库;最后,使用HTML、CSS、React框架、Antd组件库、My SQL数据库等技术实现了垃圾分类系统的用户子系统和管理员子系统。其中,用户子系统包括注册登录、生活垃圾检测、文本信息检索等功能;管理员子系统包括用户信息管理、检测记录管理、反馈数据审核等功能。(4)测试垃圾分类系统。从功能性和非功能性两个方面进行系统性能测试,测试结果表明,系统各功能模块基本达到设计要求,生活垃圾检测功能在系统中表现出较好的实时性和精度,系统页面较为简洁美观,兼容性良好。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/46491.html