基于多尺度特征和视觉—文本对齐的遥感图像描述生成研究
这是一篇关于遥感图像描述,多尺度特征提取,视觉自适应,注意力机制的论文, 主要内容为遥感图像描述生成任务结合了计算机视觉领域与自然语言处理领域,不仅要提取复杂场景遥感图像视觉特征,还要用准确自然、丰富流畅的语言对其进行描述,在遥感图像检索,军事侦察领域等领域都发挥着十分重要的作用。近年来,受益于卷积神经网络的深度特征提取能力以及循环神经网络和长短期记忆网络对时序信息的建模能力,基于深度学习的方法成为目前研究的主流。但是由于遥感图像本身的背景复杂多角度多尺度等特性,如何准确表达遥感图像特征以及实现不同模态视觉区域特征和描述词汇的对齐仍然是制约目前遥感图像描述生成精度的主要因素。本文主要针对遥感图像的视觉特性表达以及复杂场景下的语义描述问题开展以下研究:针对遥感图像的多尺度以及背景复杂性特性,本文在编码端引入了多尺度特征提取模块,其分别通过使用不同大小的卷积核获得不同的感受野和特征金字塔的方式来实现遥感图像多尺度特征的提取。针对细粒度遥感图像多尺度特征的有效利用问题,本文提出了特征融合模块,分别利用多层感知机和Transformer来对多尺度图像特征进行局部和全局建模,自适应地融合多个尺度的图像特征,实现特征优化。针对解码过程中图像与文本的语义关联难题,本文在解码端提出了一个基于视觉文本对齐的解码网络,实现解码过程中实现视觉区域和描述词汇的对齐,通过门控机制增强注意力结果,然后引入上下文向量自适应地选择视觉特征和语句信息来生成优化的描述语句。此外,本文综合分析了本文所提的基于多尺度特征和视觉-文本对齐的遥感图像描述生成模型(Multiscale Feature and Visual-Text Alignment Network,MFVTA-Net)的性能,利用目前标准的公开数据集对所提模型的有效性进行了验证,表明本文提出的模型在句法准确性和语义流畅性方面具有更好的性能。
基于多尺度信息融合的高分影像土地利用分类研究
这是一篇关于土地利用分类,超像素分割,多尺度特征提取,特征融合,注意力机制的论文, 主要内容为近年来遥感影像土地利用分类技术发展迅速,人们可以获取大量不同空间、光谱和时间分辨率的高分遥感影像土地分类结果,为城市规划、地质调查和环境评估等多种实际应用提供重要的信息来源与分析条件。但遥感影像较自然图像更为复杂,多类地块常具有不同尺度、光谱、纹理信息,现有方法难以使用高度概括性的语义特征表达多类地块,分类结果中地块常存在结构不完整、边缘划分不准确等问题。针对上述问题,本文以多尺度信息融合思想为基础,结合多尺度特征提取与融合、注意力机制和超像素图像分割等方法,以提高土地利用多类地块分类精确度为目标,进行了以下两部分工作:(1)基于SMH-Net的高分影像土地利用分类方法针对遥感影像土地利用分类中,存在大量复杂地形与光谱混淆易造成地块轮廓模糊、错误分类等问题,本文提出SMH-Net土地利用分类方法。该方法主要进行了以下工作:一是采用稠密残差模块和级联特征融合方法构建多尺度特征提取网络MH-Net,提高复杂场景下地块特征提取能力与多尺度特征利用能力;二是结合可微SLIC算法利用已提取到多类地块特征信息进行深度聚类,形成精确边缘划分的超像素分割结果,解决不同且相邻地块间光谱混淆造成边缘划分不准确的问题;三是针对网络特征信息传递过程,设计自适应加权融合策略。借助反向传播,自适应更新权重,从而更好地利用不同层级特征。(2)基于MLUM-Net的高分影像土地利用分类方法基于SMH-Net的土地利用分类方法虽在一定程度上较好解决了复杂场景地块边缘划分的问题,但对具有不同尺寸、光谱、纹理的地块如农田、森林和草地等地块分类结果并不理想,易出现地块结构不完整与边缘噪声的现象。因此,本文结合多尺度特征学习思想设计MLUM-Net土地利用分类方法。首先利用多尺度空洞卷积和混合注意力机制设计MDSPA模块构建网络下采样过程,以提高网络的多尺度特征提取能力与地块位置定位的准确性;其次,为避免上采样语义损失与改善网络信息流提出HPP优化模块,通过多尺度池化获取丰富全局上下文信息,在加强多尺度特征表达的同时优化网络分类误差,提高分类结果的准确性;最后,为解决土地利用数据集常存在类别占比不均衡的问题,结合多类地块结构多样性的特点设计混合损失函数,平衡训练过程对不同地块类别的关注度并加强噪声区域与错误分类结果优化,进一步细化分类结果。本文所提出的方法均能在一定程度上提高高分影像土地利用分类的精确度。相较于常用分割网络,分类性能指标均有明显提升,对未来土地利用分类方法的研究和实际应用均具有重要意义。
基于无锚框网络和特征融合的目标检测技术研究
这是一篇关于目标检测,单目3D目标检测,特征融合,多尺度特征提取,注意力机制的论文, 主要内容为目标检测是计算机视觉领域的基础任务之一,旨在利用计算机处理数字图像,检测图像中感兴趣的目标物体,并确定它们的类别和位置。该技术广泛应用于智能交通、工业检测、公共安全等领域。3D目标检测技术是对现实场景感知与理解的核心,与2D目标检测技术相比,它能够提供更为丰富的关于环境的空间信息。因此,在自动驾驶、家庭服务机器人、增强/虚拟现实等领域具有广泛的应用前景。论文主要围绕基于无锚框网络的目标检测技术在2D和单目3D目标检测任务中的性能展开,提出了基于无锚框网络和特征融合的目标检测技术研究。Center Net作为一种具有代表性的无锚框目标检测算法,具有结构简单且通用性强的优点,在发表后受到广泛关注,并成为研究人员在2D和单目3D目标检测等任务中进行优化和应用的重要基准算法。本论文选取Center Net作为基准算法,并通过一系列改进措施进行优化,具体研究内容和工作如下:(1)针对无锚框目标检测模型Center Net中目标检测能力不足的问题,提出一种联合注意力和空洞卷积的改进目标检测模型。首先,为了提升网络对目标的语义特征和位置特征的获取能力,设计了改进的非局部注意力机制模块,分别沿通道域和空间域两个方向捕捉图像中目标的远程依赖关系;其次,为了提高网络对不同尺度目标的表达能力,设计了基于空洞卷积的多感受野特征融合模块,采用残差结构并联融合多种尺度的感受野特征,保留图像中目标在多个尺度上获取的特征信息;最后,在PASCAL VOC数据集上对本文算法进行验证,本文算法的检测精度相较于基线算法Center Net提高了2.47%,有效地提升了无锚框目标检测算法的性能。(2)针对多尺度特征提取以及小目标检测能力不佳的问题,提出一种基于注意力特征融合和多尺度特征提取网络的改进Center Net目标检测网络。首先,为了提升网络对多尺度目标的表达能力,设计了自适应多尺度特征提取网络,利用空洞卷积对特征图进行重采样获取多尺度特征信息,并在空间维度上进行融合;其次,为了更好地融合语义和尺度不一致的特征,提出了一种基于通道局部注意力的特征融合模块,自适应地学习浅层特征和深层特征之间的融合权重,保留不同感受域的关键特征信息。最后,通过在VOC 2007测试集上对本文算法进行验证,实验结果表明,最终算法的检测精度达到80.94%,相较于基线算法Center Net提升了3.82%,有效提升了无锚框目标检测算法的最终性能。(3)针对单目3D目标检测算法中存在图像缺乏深度信息以及检测精度不佳的问题,提出了一种联合实例深度的多尺度单目3D目标检测算法。首先,为了增强模型对不同尺度目标的处理能力,设计了基于空洞卷积的多尺度感知模块,同时考虑到不同尺度特征图之间的不一致性,通过从空间和通道两个方向对包含多尺度信息的深度特征进行重新精练。其次,为了使模型获得更好的3D感知,提出了将实例深度信息作为辅助学习任务,来增强3D目标的空间深度特征,并使用稀疏实例深度来监督该辅助任务。最后,通过在KITTI测试集以及评估集上对本文算法进行验证,实验结果表明,本文方法相较于基线方法在汽车类别的AP40中提升了5.27%,有效提升了单目3D目标检测算法的检测性能。
基于多尺度特征和视觉—文本对齐的遥感图像描述生成研究
这是一篇关于遥感图像描述,多尺度特征提取,视觉自适应,注意力机制的论文, 主要内容为遥感图像描述生成任务结合了计算机视觉领域与自然语言处理领域,不仅要提取复杂场景遥感图像视觉特征,还要用准确自然、丰富流畅的语言对其进行描述,在遥感图像检索,军事侦察领域等领域都发挥着十分重要的作用。近年来,受益于卷积神经网络的深度特征提取能力以及循环神经网络和长短期记忆网络对时序信息的建模能力,基于深度学习的方法成为目前研究的主流。但是由于遥感图像本身的背景复杂多角度多尺度等特性,如何准确表达遥感图像特征以及实现不同模态视觉区域特征和描述词汇的对齐仍然是制约目前遥感图像描述生成精度的主要因素。本文主要针对遥感图像的视觉特性表达以及复杂场景下的语义描述问题开展以下研究:针对遥感图像的多尺度以及背景复杂性特性,本文在编码端引入了多尺度特征提取模块,其分别通过使用不同大小的卷积核获得不同的感受野和特征金字塔的方式来实现遥感图像多尺度特征的提取。针对细粒度遥感图像多尺度特征的有效利用问题,本文提出了特征融合模块,分别利用多层感知机和Transformer来对多尺度图像特征进行局部和全局建模,自适应地融合多个尺度的图像特征,实现特征优化。针对解码过程中图像与文本的语义关联难题,本文在解码端提出了一个基于视觉文本对齐的解码网络,实现解码过程中实现视觉区域和描述词汇的对齐,通过门控机制增强注意力结果,然后引入上下文向量自适应地选择视觉特征和语句信息来生成优化的描述语句。此外,本文综合分析了本文所提的基于多尺度特征和视觉-文本对齐的遥感图像描述生成模型(Multiscale Feature and Visual-Text Alignment Network,MFVTA-Net)的性能,利用目前标准的公开数据集对所提模型的有效性进行了验证,表明本文提出的模型在句法准确性和语义流畅性方面具有更好的性能。
基于孪生网络的高分辨率遥感影像建筑物变化检测研究
这是一篇关于孪生网络,变化检测,高分辨率遥感影像,多尺度特征提取,Transformer的论文, 主要内容为随着航空航天遥感技术的持续发展,遥感影像的空间分辨率在不断提高的同时影像数据的获取也变得更加容易,高分辨率遥感影像由于其具有丰富的地物纹理信息、更复杂的形状信息,逐渐成为了遥感研究的首选数据源。建筑物是衡量一个地区城市化发展的主要标志,快速准确地识别建筑物变化对城市违章建筑物管理、城市化扩张和灾害分析起到至关重要的作用。利用高分辨率遥感影像对建筑物变化区域进行识别是当前遥感影像变化检测研究的重要分支之一。与其他类型的变化检测不同,建筑物拥有不同的形状、高度、材质和颜色,当使用传统的变化检测方法对高分辨率影像中的建筑物进行识别时容易出现“椒盐噪声”现象。同时由于太阳高度角、光照、云层遮挡、大气以及传感器自身因素会导致影像出现伪变化给传统的方法带来了一定的挑战。近年来,计算机软硬件在不断更新换代,以深度学习为代表的人工智能技术兴起,在遥感影像处理领域大放光彩,因此,本文使用深度学习技术研究高分辨率遥感影像建筑物变化检测问题。具体研究如下:(1)基于卷积神经网络的建筑物变化检测方法。本文构建了一种基于卷积运算的孪生神经网络用于高分辨率遥感影像建筑物变化检测,通过孪生子网络分别提取前后双时相影像的深层特征,在提取特征的过程中使用短路连接加深浅层与深层之间的联系,避免梯度消失现象,在解码器深层使用空洞卷积组成的多尺度特征提取机制提取深层特征不同尺度下的特征并融合,解码过程中使用一种学习型上采样方法来恢复影像特征,在输出的过程中使用深度监督策略融合不同层之间的输出。(2)基于Transformer的建筑物变化检测方法。考虑到卷积运算无法顾及影像周边像元之间的关系、无法建立长距离建模,本文构建一种基于Transformer的孪生网络。孪生子网络通过Transformer的多头注意力来提取影像特征,考虑到多头注意力的运算虽然能在全局方面提取影像特征,但是在局部细粒度特征提取方面存在不足,因此,在Transformer结构之后会使用空洞卷积组成的卷积操作进行局部特征增强,Transformer和卷积操作互补,可以获取影像的全局和局部特征,在解码过程中,会使用跳跃连接机制同时连接Transformer和卷积所提取的特征。(3)使用LEVIR-CD数据集和WHU建筑物数据集分别进行对比实验和消融实验,将本文所提网络与FC-EF、Seg Net、FC-Siam-Diff、FC-Siam-Conv、UNet++_MSOF、IFN、SNUNet和BIT等先进的模型进行实验。结果表明本文的网络相比同类型的网络在建筑物变化检测任务中有良好的性能。孪生卷积网络在两个数据集上的F1分数均值达到了87.85%,孪生Transformer网络在两个数据集上的F1分数达到了91.05%,两个网络均高于对比实验网络,同时可视化结果中错检和漏检区域也最少。
面向心血管病数据信息系统的深度学习数据治理研究
这是一篇关于卷积神经网络,双向长短时记忆网络,多尺度特征提取,临床自然语言处理,PCI手术信息的论文, 主要内容为由于人们日常生活水平的提高和亚健康的生活方式,全国心血管疾病人数已达到23%,大量的心血管病数据堆积而无法得到充分地整合与利用。因此,如何治理心血管病数据已经成为当下的研究热点,该研究可为医生的科研和临床实践提供有价值的数据基础。本课题受到辽宁省自然科学基金资助(2023-MS-054),研究目的是探索面向心血管病数据信息系统的深度学习数据治理研究。力争实现对心血管病数据信息中涉及的非结构化文本进行有效治理。本文的主要工作和贡献如下:(1)为实现对经皮冠状动脉接入治疗(PCI)手术信息的结构化处理,使之能够直接被医生有效利用。本文设计了一个全新的字符级向量嵌入表达方法,并基于此构建了一种新的深度学习网络模型,即基于多尺度特征提取的双向长短时记忆网络(BCC-Bi LSTM)。该模型在经典双向长短时记忆网络(Bi LSTM)基础上进一步融合卷积神经网络(CNN)及Bidirection Encoder Representations from Transformers(BERT)进行特征提取与表示,最后利用条件随机场(CRF)进行解码并预测标签序列。可实现对PCI手术信息的命名实体识别任务,完成对PCI手术信息结构化处理。为验证所提模型的性能,本文同时采用具有代表性的传统方法和智能方法进行对比,包括隐式马尔科夫(HMM),Bi LSTM,Bi LSTM-CRF和BERT-Bi LSTM-CRF。(2)为进一步增强所提BCC-Bi LSTM模型输入数据的质量,防止非结构化文本数据间的混杂,造成数据污染,本文提出一种新型深度金字塔卷积神经网络模型,用于心血管病诊治中PCI手术信息、诊断、现病史和主诉等文本分类问题。该模型通过引入等长卷积来提高词嵌入矩阵表示的丰富性,并对每个卷积块进行池化,增加模型对临床文本的感受野。最后通过加深网络结构和引入多头注意力机制来保留文本的时序,整体增强模型抽取长距离文本依赖关系的能力,提高模型识别的准确率。本文通过对比其他主流的7种文本分类模型,从多方面验证所提模型的性能。(3)为给医生提供良好的科研与临床实践平台,同时也为对上述模型进行临床验证,本文搭建了心血管病数据信息系统。该系统基于Spring Boot和WPF技术框架,运用C#、Xmal和JAVA等编程语言。将本文所提两种模型嵌入到该系统中,并结合医生实际需求,进一步完成了患者基本信息,患者数据查询统计、科研数据管理、命名实体识别及本文分类等主要功能模块设计。该心血管病数据信息系统目前已在辽宁省人民医院部分科室试运行。
基于超声图像的肝纤维化分期诊断方法研究
这是一篇关于肝纤维化,超声图像,多尺度特征提取,神经网络,特征融合的论文, 主要内容为肝纤维化是比较严重的肝功能疾病,若不及时治疗可发展为肝硬化甚至引发死亡。有研究表明,早期肝纤维化是可被治愈的,因此,纤维化和肝硬化的早期发现和准确分期对于早期诊断和及时启动适当的治疗方案至关重要。肝活检是诊断肝纤维化的“金标准”,但由于其具有创伤性,对病人的身体有一定的损伤,临床使用受到一定的限制。超声图像由于价格低廉和无创性受到广泛的使用,临床医生通过观察超声图像纹理的粗糙程度来判断肝纤维化的等级,这种方式由于主观性容易造成误判。因此,本文以超声肝纤维化图像为研究对象,利用当前热门的深度学习相关技术对超声肝纤维化图像分类方法进行研究。在图像预处理阶段,首先,针对原始图像中存在非超声成像区域,设计自动提取超声成像区域算法,排除干扰区域对超声肝纤维化图像分类的影响。其次,针对部分图像中存在大量阴影噪声,采用Zero-DCE图像增强技术对图像进行去噪处理;同时,针对肝实质区域难以提取的问题,进行手动提取肝实质;最后,针对超声肝纤维化数据集较少的问题,采用图像几何变换等方法进行数据扩充。在超声肝纤维化图像分类阶段,使用了Res Net50、Mobile Net V2和Efficient Net V2-S等3种不同的分类模型完成早期、中期和晚期超声肝纤维化图像分类任务,使用4种评价指标对模型进行多维度、系统的分析评估。实验结果表明,基于Efficient Net V2-S的分类模型在超声肝纤维化图像分类任务中具备良好的分类性能,其准确率达到了70%,且早期、中期和晚期肝纤维化的F1-Score性能指标分别为80.65%、54.17%、72.11%。为了进一步提升模型的分类性能,提出了一种改进模型Efficient Net V2-BCH的超声肝纤维化图像分类模型。首先,针对肝纤维化病变细节信息难以提取问题,设计特征金字塔分支来融合图像中不同尺度的特征;其次,针对超声图像中相邻的两个肝纤维化病变阶段差异性不显著问题,提取Canny边缘检测和Haar小波变换特征图分别与Bi FPN分支进行特征融合,最后与主干网络Efficient Net V2-S进行多尺度多特征融合。实验结果表明,改进模型Efficient Net V2-BCH分类准确率能达到89.41%,相较于原始模型Efficient Net V2-S准确率提高了19%;早期、中期和晚期肝纤维化的召回率分别提升了10%、36%和13%;早期、中期和晚期肝纤维化的F1-Score分别提升了11%、33%和13%。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:源码客栈 ,原文地址:https://m.bishedaima.com/lunwen/48580.html