无监督框架下的古建筑景深估计方法研究
这是一篇关于单目深度估计,注意力机制,古建筑,三维重建的论文, 主要内容为中国是拥有五千年历史的文明古国,遗存的古建筑数量庞大,且具有极高的艺术成就和科学价值,但是许多古建筑因受自然因素、人为因素的影响遭到严重破坏。基于图像的三维重建方法具有采集设备简单、对古建筑干预性少等优点,是古建筑数字化保护领域的研究热点之一。基于图像的三维重建主要通过深度估计提取出三维点到相机的深度信息,利用相机的逆投影原理将深度信息投影到三维空间,最终得到稠密化点云重建。因此深度估计是基于图像的三维重建中的一个重要环节,对重建结果有着非常重要的影响。目前,无监督单目深度估计方法在古建筑景深估计普遍存在边界模糊、细节部分恢复不完整、存在大量伪影以及“孔洞”现象等问题,通过有效融合深度估计网络的高低层特征信息,将上述问题得到有效改善。主要工作如下:1.针对现有无监督单目深度估计算法中普遍存在深度图边界模糊、细节恢复不完整的问题,提出了基于注意力机制的景深估计模型。通过将SE、ECA、CBAM不同的注意力机制插入到深度估计网络中,探究最适于古建筑景深估计任务的注意力网络模型。将注意力机制加入深度估计网络的编码器中,主要是为了提高编码器对图像特征的表征能力,恢复出古建筑中角梁等复杂结构的细节信息,从而更好的对图像中各个物体的深度进行预测。另外,针对平均重投影可能导致深度图不连续问题,使用最小重投影误差,提升遮挡边界的尖锐度,提升模型估计的精度。最终SE-Res Net景深估计模型变现最优,在不同阈值下的准确率分别达到了93.5%,93.0%,96.6%。2.针对目前无监督单目深度估计算法在结构复杂、纹理重复的对象上存在轮廓畸变、存在大量伪影以及“孔洞”现象等问题,提出了一种融合注意力和多尺度特征的景深估计模型。该模型在基于注意力机制的景深估计模型的基础上加以改进。其中,在深度估计网络编-解码器之间引入空洞空间卷积池化金字塔模块,通过应用不同扩张率的空洞卷积处理特征,来达到让模型得到精确的多尺度信息的同时不增加参数的效果。另外,在位姿估计网络部分通过解耦平移和旋转向量来提高位姿估计精度,输入视频前后帧相邻图像,输出估计的相对位姿,分别对3个旋转向量和3个平移向量进行卷积操作,最后合并输出。该模型深度估计的准确率在不同阈值下分别达到了93.2%,96.3%,98.2%。3.在融合注意力和多尺度特征的景深估计模型的理论基础上,设计并开发了基于无监督学习的古建筑局部景深估计的原型系统。使用者可在该系统输入数据集后自主选择测试的古建结构件图像,通过训练好的网络模型生成单幅图像的景深以及该构件的三维点云。
基于单目深度估计的幼苗植株高度及茎粗测量方法研究
这是一篇关于幼苗植株,高度茎粗表型测量,深度学习,单目深度估计,Transformer的论文, 主要内容为幼苗期是作物生长发育的关键时期,幼苗植株高度和茎粗表型数据是反映幼苗生长发育和长势的重要依据。幼苗植株高度和茎粗表型无损测量对幼苗的病虫害防治工作和优良作物品种的培育筛选具有重要意义。人工测量方法工作量大、效率低、误差大且容易在测量过程中对幼苗造成不可逆损伤,现有测量方法存在标定约束多、计算实时性差和小目标测量效果差等问题。本文基于深度学习技术,开展了基于单目深度估计的幼苗植株高度及茎粗无损测量方法研究,以期提高幼苗培育过程中的表型监测能力。并对番茄、辣椒和甘蓝幼苗(共216株)的不同拍摄距离、不同光照强度、多个幼苗目标和不同倾斜角度下的高度茎粗数据(2808组)进行测试以验证本文模型效果。主要研究内容及结论如下:(1)提出了一种基于卷积神经网络(Convolutional neural network,CNN)的单目深度估计方法,通过将编码器替换为Res Net、Dense Net和Res Ne Xt来探究单目图像的深度生成特点和规律。并基于该方法进行了幼苗高度的无损测量试验,以验证单目深度估计在幼苗高度测量上的可行性。在NYU Depth V2深度数据集上测试结果表明,本文基于Res Ne Xt的单目深度估计模型在平均相对误差(Average relative error,Rel)、均方根误差(Root mean square error,RMSE)、平均对数误差(Logarithm deviation,LG)和准确率(δ<1.25)上分别为0.175、0.165、0.060和0.798。在RMSE上Res Ne Xt相较于Res Net和Dense Net分别减小了72.9%和78.6%,在Rel上分别减小了12%和3.3%。而在准确率(δ<1.25)上分别提高了32.1%和21.6%。并且将该深度估计模型用于幼苗高度测量验证,在105 cm内番茄、辣椒和甘蓝的平均绝对误差(Mean absolute error,MAE)分别为0.5、0.6、0.3 cm;RMSE_D分别为0.8、0.6、0.3 cm;平均比例R分别为1.005、1.001、1.012,说明该方法具有可行性和普适性。当单幅图像中植株个数在5以内时,R、MAE和RMSE_D的平均值分别为1.001、0.6 cm和0.8 cm。当感光度为160以内时,植株高度的MAE为0.8 cm。因此对于多目标和不同光照环境下,均可以完成植株的高度测量,提高了该方法的实用性。(2)针对现有单目深度估计任务的全局特征生成特点和幼苗局部细节缺失等问题,提出了一种融合Transformer和多尺度局部平面制导(Local planar guidance,LPG)的单目深度估计网络架构。通过基于Transformer机制的特征表达模块Trans Block和自适应通道注意力模块TGCA完成全局深度特征信息的获取。通过局部信息生成模块LPG和多尺度特征融合模块FFBlock完成局部深度细节的生成和不同尺度深度特征的自适应融合。在NYU Depth V2数据集上,本模型在多个评价指标上达到了最优。Rel和RMSE分别减小至0.095和0.346,准确率(δ<1.25)提升至0.918。在KITTI数据集上,本文模型取得了最先进的效果。其中Rel、RMSE和RMSE log分别减小至0.056、2.299和0.086,准确率(δ<1.25)提升至0.967。试验结果表明本文深度估计模型可以很好完成幼苗植株的深度估计任务,可为幼苗高度和茎粗的表型计算提供有效深度信息。(3)为验证本方法在幼苗高度和茎粗测量上的实际效果,本文针对番茄、甘蓝和辣椒三种表型差异较大的幼苗,设置了不同拍摄距离、不同光照强度、多个幼苗目标和不同倾斜角度的对比试验以验证本文模型的综合性能。经测试,在拍摄距离在105 cm以内时,幼苗高度的平均MAE和RMSE_D分别为0.5和0.6 cm,幼苗茎粗的平均MAE和RMSE_D分别为0.039和0.047 cm。在所有感光度中,幼苗高度和茎粗的平均MAE分别为0.3和0.022 cm,平均RMSE_D分别为0.4和0.026 cm。针对多目标,幼苗高度的平均MAE和RMSE_D分别为0.5和0.6 cm,幼苗茎粗的平均MAE和RMSE_D分别为0.043和0.054 cm。当倾斜角度在15°以内时幼苗茎粗的平均MAE为0.017 cm,平均RMSE_D为0.024 cm。因此本文对于在不同拍摄距,不同光照环境,多个拍摄目标和较小倾斜环境下,均可完成幼苗高度和茎粗的准确测量,具有很强的实用性。(4)利用PyQT5图形界面设计工具和Python编程语言,结合所提出的融合Transformer和多尺度LPG的单目深度估计方法,设计并开发了基于单目深度估计的幼苗高度及茎粗无损测量系统演示软件。经过试验验证,该软件可以实现幼苗高度及茎粗的自动快速测量和不同幼苗表型数据的自主测量功能。
葡萄园无人车环境感知系统研究
这是一篇关于环境感知系统,障碍检测,单目深度估计,边缘设备的论文, 主要内容为随着科学技术,特别是信息技术的快速发展,人类的生产生活方式逐渐进入了自动化和智能化,越来越多的无人自动化设备被应用到了生产生活中的各个方面,对提高生产效率,降低从业者劳动强度有一定的帮助。而农业作为支撑国民经济建设与发展的基础产业,对社会发展的重要性不言而喻。农业生产的自动化和智能化对提高农业生产作业效率,促进农业发展具有十分深远的意义:不仅可以显著降低作业时间成本和人工成本,提高农产品质量,还帮助带动了智能农业机械制造相关产业的进步和发展。葡萄园作为常见的农业场景,在其内使用智能无人车帮助从业人员完成运输、喷药等任务,是实现该场景智能化和自动化生产的有效方法,但目前的种植园无人车存在着一些诸如感知设备价格较高,避障方式单一的问题。为设计出满足葡萄园无人车导航和避障需求且成本较低的环境感知系统,本文对葡萄园环境感知系统进行了研究和分析,使用葡萄园障碍目标检测与葡萄园单目深度估计相结合的方法,成功在充当无人车计算平台的边缘设备NVIDIA Jetson Xavier NX上实现了低成本的葡萄园场景环境感知。本文的研究内容主要如下:(1)为降低成本并保障障碍检测的实时性,本文对适合在边缘设备上运行的轻量级目标检测算法进行了研究,并进一步提出了TFN-YOLOv4-tiny检测模型。首先,本文建立了葡萄园场景中常见障碍物的RGB数据集。然后,通过对目前主流的多种备选的轻量级目标检测算法进行训练、比较和分析,选择了其中性能平衡性最好的YOLOv4-tiny算法作为基础算法,并使用提出的Triff Net特征融合网络替换了其原本的FPN网络,提出了TFN-YOLOv4-tiny模型,并移植到NVIDIA Jetson Xavier NX上进行了多项实验。实验结果表明,与FPN相比,由于Triff Net网络采用了双向特征融合通路,并增加了对应通道特征图特征值相加这一融合方法,TFN-YOLOv4-tiny模型在葡萄园场景下的检测精度(0.777)相比基础算法(0.601)提升了17.6%,且可以在NX上以25.57FPS的速度运行,具有较好的实际表现。(2)由于需要检测出障碍物与无人车之间的距离,而该距离可以通过对单目深度估计算法所估计的深度值换算得到,故本文对葡萄园场景的单目深度估计算法进行了研究,并提出了Mono DA模型。首先选取了一些主流的单目深度估计算法作为备选算法,并使用该领域广泛采用的KITTI RAW数据集进行了训练。通过对这些训练完成后的单目深度估计算法进行相关实验、比较和分析,选择了其中精度最高的Mono Depth2算法作为基础算法。出于提升其在边缘设备上的运行表现的考虑,对该算法进行了结构精简和改造:对原深度估计网络删减了桥接操作和卷积操作数目,而为了获得更有层次感的深度图,使用斜率较为平缓的非饱和激活函数Softplus替换了原最终激活函数Sigmoid。对原位姿估计网络则使用Efficient Net-B0网络替换了Res Net18作为骨干网络,最终提出了Mono DA模型。该模型在训练完成后,被移植到边缘设备NX上并进行了一系列相关实验。实验结果表明:在边缘设备上,对于葡萄园场景图像,该模型可以以20.91FPS的速度,实现平均测距相对误差为14%的实时测距,符合作为环境感知系统单目深度估计模块算法的要求。(3)本文综合以上两种算法,并对环境感知系统的需求和技术方案加以分析,最终设计实现了葡萄园无人车环境感知系统。该系统选择了Python3作为编程语言,使用多线程技术对运行速度进行了优化。为降低了人机交互的门槛,基于Py Qt5设计了UI界面。为了检验该系统在计算能力有限的边缘设备上的运行效果,将系统移植到了边缘设备NX上,并在该设备上进行了多项实验。实验结果表明,该系统可在边缘设备上较为流畅的进行葡萄园障碍目标检测和单目深度估计。
基于Swin Transformer的单目深度估计研究
这是一篇关于单目深度估计,Swin Transformer,迁移学习,Grad-CAM,SimMIM的论文, 主要内容为单目深度估计任务是计算机视觉领域中的一个基本且重要的研究课题。其目的是在单个视角下从RGB图像中产生像素级深度图。这种深度信息有助于更好地理解三维场景,在场景重建、自动驾驶和机器人导航等领域有着广泛的应用。计算机视觉任务长期以来被深度卷积神经网络所主导,近年来,基于Transformer的深度学习网络架构在计算机视觉领域多个任务中表现出优越的性能。本文就Transformer的衍生架构Swin Transformer在单目深度估计任务的适用性和改良网络结构进行研究。在像素级图像任务如单目深度估计中,需要使用高分辨率图像作为输入,因此模型计算量和计算复杂度的设计是否恰当是决定是否可以训练得到兼具高效率和高精度网络模型的关键。针对单目深度估计任务,先前的一些工作致力于提出基于Vision Transformer的网络架构,然而,这些网络模型的计算量和复杂度大,对于密集预测视觉任务并不完全适用。对于有监督学习,本文采用一种分层的Transformer,即Swin Transformer,作为单目深度估计的特征提取编码器,针对编码器的不同变体,设计了一个基于空间重采样模块和Refine Net的可适应性解码器。为了验证网络结构的有效性,本文在单目深度估计公开数据集NYU Depth V2上进行实验分析,实验表明,本文提出的编解码器结构在数据集上进行微调,也能在单目深度估计这一密集预测任务中产生实质性改进,实验结果与Transformer模型DPT-Hybrid相比,能够达到更好的深度估计结果。此外,本文提出基于Grad-CAM的可视化评价模型,对本文提出的深度估计模型进行逐层可视化分析,逐步剖析其高可用性。近年来,NLP和计算机视觉在基本建模和学习算法以及多模态应用中出现越来越多的重叠。掩码图像建模MIM是掩码信号预测的一个子任务,它对部分输入图像进行掩码,让深度网络以可见图像为条件预测掩码图像,以无监督方式进行表示学习。本文提出基于Sim MIM的单目深度估计模型,通过将Sim MIM在Image Net数据集上进行无监督预训练的Swin Transformer模型参数进行迁移,对本文编码器进行权重初始化。实验结果表明,使用Swin Transformer作为基础架构的Sim MIM模型,能为单目深度估计中的有监督微调实验的预测结果带来性能上的提高,同时能在一定程度上解决由于模型容量增长而引起的数据饥渴问题。
基于接触式视觉的水下桥墩表观病害检测
这是一篇关于水下桥墩,病害检测,接触式视觉传感,单目深度估计的论文, 主要内容为中国桥梁规模巨大,建养并重是桥梁工程未来发展的趋势。在桥梁管养中,由于极端服役环境和测量条件限制,桥梁水下结构表观病害往往容易产生且难以被发现。近年来,随着检测设备与算法的创新,本文在充分调研国内外水下结构检测领域设备与方法的基础上,提出基于接触式视觉传感装置与单目深度估计网络RUNet(Residual UNet)的水下结构表观病害检测体系,以实现水下桥墩裂缝、破损等水下结构表观病害的三维定量检测。主要工作内容由设备、数据、模型三部分构成,并通过模拟-仿真-实体的实验思路将检测体系由测试推向应用,主要工作内容如下:(1)优化并提出更防水、成像更清晰的接触式视觉传感装置。首先,采用一体化合金外壳,提升装置防水密闭性,然后,将防水照明系统外置,合理配比接触式感知材料PDMS,消除成像反光,提升图像清晰度,且通过室内试验测试验证了优化设计的有效性,解决水下结构表观病害检测数据端的问题。(2)构建用于深度估计的水下结构表观病害数据集,提出了基于模拟-仿真-实体数据的神经网络模型训练思路。基于Matplotlib编程,Zbrush仿真等方式建立虚拟数据,测试模型性能,然后再基于接触式视觉成像技术与三维点云深度标定技术构建真实病害数据,实现模型在混凝土试块病害检测的实体应用,奠定了单目深度估计模型训练的数据与方法基础。(3)提出并验证单目视觉深度估计网络RUNet。根据单目深度估计任务特点,基于Res Net的残差连接与UNet的跳跃连接的结构设计,设计兼备精度与细粒度的深度估计模型RUNet。RUNet在数据集上实现了良好的深度估计精度,且性能优于经典深度估计模型FCRN,实现了水下结构表观病害检测定量化、自动化。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码码头 ,原文地址:https://m.bishedaima.com/lunwen/54473.html