5篇关于跨模态的计算机毕业论文

今天分享的是关于跨模态的5篇计算机毕业论文范文, 如果你的论文涉及到跨模态等主题,本文能够帮助到你 基于红外图像的夜间行人检测算法研究与实现 这是一篇关于夜间行人检测

今天分享的是关于跨模态的5篇计算机毕业论文范文, 如果你的论文涉及到跨模态等主题,本文能够帮助到你

基于红外图像的夜间行人检测算法研究与实现

这是一篇关于夜间行人检测,红外图像,跨模态,特征提取,深度学习的论文, 主要内容为行人检测是模式识别和目标检测的一个具体研究领域,是城市安防和辅助驾驶中重要的研究内容。通常的行人检测任务所面临的场景往往处于良好的可视条件下,而对于可视条件较差(如夜间,沙尘暴天气等)的场景研究较少。因为可视条件较差的场景下,常规相机的成像效果往往也较差。近红外成像的出现在一定程度上提高了成像质量。与可见光成像相比,近红外成像基于物体辐射进行成像,不依赖所处环境的光照条件,在可视条件较差的场景下仍然能够取得良好的成像效果,具有一定的应用前景。本文基于深度学习方法对行人检测技术展开研究,设计红外场景下的行人检测算法并在相关数据集上进验证,取得了良好的效果,主要工作如下:(1)针对夜间场景下的可见光成像较差的场景,使用红外图像进行行人检测。设计了基于YOLOv3的红外行人检测网络IR-YOLO。该网络以YOLOv3为基础网络模型,结合Dense Net网络的密集连接思想,将特征提取网络中不同层的特征图进行拼接,使得每一层特征图含有丰富的低层和高层特征;其次,通过Distance Intersection over Union(DIo U)替换原有损失函数以提高检测时预测框和真实框位置的敏感性。最后,为更好地验证算法的有效性,我们建立了实际场景下的夜间近红外行人检测数据集(NTPD数据集)。实验结果表明,IR-YOLO网络行人检测算法能够有效提高检测精度。(2)针对存在一定可视条件的夜间场景,采用红外-可见光两种模态的数据进行行人检测。设计了基于红外-可见光的跨模态行人检测网络。该网络综合考虑红外图像和可见光图像的图像特征,结合两种图像特征进行行人检测。该网络通过两个不同的卷积神经网络分支分别对红外图像和可见光图像进行特征提取,并在进入全卷积层前,采用中期融合方法对红外图像和可见光图像进行特征融合。而且,考虑到不同模态的特征对最终分类的影响占比不同,引入模态权重子网络对各个分支所占权重进行回归加权。在KAIST跨模态行人数据集的实验证明,该方法在红外图像行人检测中具有良好的检测性能。(3)基于红外图像行人检测和跨模态图像行人检测的算法的研究,设计并实现了红外图像行人检测系统。系统采用B/S架构,利用Django框架和MySQL完成开发。经测试,系统功能完善,运行流畅,交互逻辑易于理解,具有一定的实际应用价值。

面向热点新闻的跨模态检索技术研究与应用

这是一篇关于跨模态,半配对,半监督学习,哈希算法,残差网络的论文, 主要内容为随着互联网和社交媒体的发展,多媒体数据呈现爆发式增长。特别是在新闻领域中,人们从社交网络中获取到大量的多媒体数据,包括文本、图片、视频等。因此对新闻中的多模态数据进行管理和分析的需求增大。跨模态检索是其中比较常见的方法,跨模态检索打破了传统单模态检索的局限性,实现了多模态间的交叉检索,便于多模态数据的组织与管理。虽然现有的跨模态检索研究已经取得了许多突破性进展,但跨模态检索在面对大数据量的多模态数据会出现检索速度慢和检索准确率低以及存储开销大等缺点。哈希方法由于存储开销低和查询速度快等特点备受关注,现已广泛应用于大规模数据检索之中。现有的哈希跨模态检索算法大多是监督跨模态检索算法,但在具体环境下,跨模态检索面临标签获取难度大、成对多模态数据不足等问题。本文结合跨模态检索面临的不同具体场景,进行了半监督跨模态检索算法研究,主要工作如下:(1)提出了一种基于语义对齐的半监督深度跨模态哈希算法。该算法针对大规模数据下跨模态检索的数据标签缺失问题,使用残差网络提取多模态数据深度特征,之后利用成对模态(图像-文本对)中固有的内在联系生成相似矩阵,将多模态特征之间的相似性与哈希码之间的相似性进行对齐,生成一致性哈希码。本文在WIKI、MIRFlickr、NUS-WIDE三个数据集上进行了实验,并与CVH、IMH、LCMH等跨模态哈希方法进行对比。实验结果表明,基于语义对齐的半监督深度跨模态哈希算法相比于现有的跨模态哈希方法,提升了检索的准确率。(2)提出一种无监督半配对深度跨模态哈希算法。该算法针对现实世界中由于某些模态数据缺失、模态之间的成对信息未知等问题导致的跨模态哈希算法效率下降的问题提出了一种解决方案。首先训练两个生成器来填充不完整的成对信息,以便扩充原始数据中有限的成对跨模态信息。然后使用增强的成对数据构造相关图,学习哈希函数并生成统一哈希码。本文在MIRFlickr、NUS-WIDE两个数据集上进行了实验,并与现有四个半配对跨模态哈希方法进行了比较。实验结果表明,无监督半配对深度跨模态哈希算法相比于现有算法,提升了检索的准确率。(3)设计并实现了一套面向热点新闻的跨模态检索系统。本系统基于web服务器和浏览器的B/S(Browser/Server)架构,集成了数据采集和处理模块、跨模态检索模块和可视化页面展示模块,向用户提供了图片和文本互相检索的功能,提高了检索的准确率,满足了用户对多模态数据检索的需求。

基于场景图的图像-文本跨模态检索方法研究

这是一篇关于图像-文本检索,跨模态,场景图,图卷积神经网络,联合排序的论文, 主要内容为新媒体平台用户活跃量激增,导致多媒体数据量一直居高不下。在此基础下,多媒体场景下的跨模态检索技术受到越来越多的关注。以自然语言文本描述对图像进行检索或者以日常图像进行相关信息的检索都是符合自然人机交互方式的,这种不同模态数据之间的互检索方式称为跨模态检索。为了满足日益增长的用户需求,不仅各大搜索引擎在努力研究和开发以文搜图和以图搜文的技术,各种新媒体平台也在进行相关研究来寻求更好的用户体验。由于多模态数据在形式上和内容上表现出的异质性的问题,用户难以进行有效搜索和高效地获取感兴趣的信息。所以图像-文本跨模态检索对于提升用户舒适感和产品的智能化、人性化方面都具有重要意义。针对当下场景的需求,本文研究了图像-文本的跨模态检索问题,即基于全局的特征提取会受到样本偏差的影响,渐渐被主对象引导而忽视了其他对象;而基于局部对齐的方法受到较多的限制,并且对于两类方法都损失了原模态信息中的语义和属性信息,难以对整体信息充分利用,影响模型性能。针对该主要问题,本文对图像-文本跨模态检索任务和问题,以及相关的方法进行了研究,并聚焦于检索流程中的特征平衡和度量问题进行了研究,并提出了相应的改进措施:首先,图像-文本跨模态检索的核心挑战,在于模态内信息利用不足以及模态之间的信息量和承载力不平衡,导致网络训练过程中难以对检索对象进行精准对齐,限制了深度学习模型的性能。而图模型是保留模态内的对象关系的主要方法之一,旨在将模态内的对象抽象成图的节点,对象间的关系抽象成图的边,充分利用原模态内的距离、位置等关系,丰富特征鉴别性,减少相似物体间的类内差距。但是现有图模型结构过为基础,以及对单模态进行图结构建模仍难以对不同模态特征进行同等水平的度量,都是现在方法存在的问题。针对这一难题,本文首先提出了基于两级图表征的图像-文本跨模态检索网络(ABGR-Net)。在原有的特征子空间不对齐的特征匹配框架下,利用场景图作为中间模态,同时对图像、文本模态信息进行建模。利用场景图的原有特性去除不必要的噪声和冗余信息,充分利用和保留模态内部潜在信息,作为初步的信息提取和蒸馏。随后利用图卷积神经网络为图模型中的两种节点分别设计了不同的融合策略,进行了语义和图结构两种层次的潜在信息挖掘,利用增强后的特征进行特征度量与检索排序。最后,本文在两个不同的图像检索标准数据集中,分别为数据量较大的MS-COCO数据集和数据量较小的Flickr30k数据集上进行了大量实验,从不同的角度证明了本文提出的ABGR-Net的有效性。并且实验结果表明本文提出的网络在各类指标上相较于基线模型均提升了3%-5%,在综合指标R@sum上都提升了高达20个百分点。另外,在两级图表征模型ABGR-Net的基础上,原有相似度分数计算方式为单纯使用图像对象和文本单词的最大相似性分数,仅能考虑图像和文本的一种对应的可能,忽略了两者间复杂的多对多关系和对应的语义,降低了信息传递的完整性。本文提出两种改进计算方式,使用K-Max方式和Soft-Max方式,分别考虑多对相似可能性以及综合考虑全体相似性,其中Soft-Max的计算方式充分考虑待查询对象与每个待检索对象的相似度,缓解了信息的传递不完整和达到优化相似度计算的目的。另外,本文考虑到跨模态检索与常规检索的不同,即跨模态检索的双向(图像-文本,文本-图像)检索。现有跨模态检索方法中的单边特征检索和计算方式,忽略了双向检索的任务需求和联合优化的可能。本文结合原模型整体框架的双分支设计以及双向检索的需求,进一步设计了基于联合排序的跨模态检索优化方法。通过对两类相似度分数进行综合考虑,提出了图像-文本双向联合排序的优化方法,将双向相似度中的度量分数最高的图像-文本对进行重组,联合优化最终的检索结果。在图像-文本检索标准数据集上,使用跨模态检索优化方法,相比于ABGR-Net,各个检索准确率进一步提升了1%-3%,综合指标R@sum在两个数据集均提升10个百分点以上。通过以上研究,本文在图像-文本跨模态检索方法上进行了深入的研究,为图像-文本跨模态检索中所面临的关键性问题提供了切实的解决方案。通过与基线模型和国内外先进性的方法进行的全面对比,从定性分析和定量分析两个角度证明了本文所提出ABGR-Net和检索优化方法的有效性,同时表明在跨模态检索中对不同模态信息进行公平对比的重要性。在特征提取、特征增强、特征度量层面本文都做出了相应的改进,有效地提高了模型性能。

面向热点新闻的跨模态检索技术研究与应用

这是一篇关于跨模态,半配对,半监督学习,哈希算法,残差网络的论文, 主要内容为随着互联网和社交媒体的发展,多媒体数据呈现爆发式增长。特别是在新闻领域中,人们从社交网络中获取到大量的多媒体数据,包括文本、图片、视频等。因此对新闻中的多模态数据进行管理和分析的需求增大。跨模态检索是其中比较常见的方法,跨模态检索打破了传统单模态检索的局限性,实现了多模态间的交叉检索,便于多模态数据的组织与管理。虽然现有的跨模态检索研究已经取得了许多突破性进展,但跨模态检索在面对大数据量的多模态数据会出现检索速度慢和检索准确率低以及存储开销大等缺点。哈希方法由于存储开销低和查询速度快等特点备受关注,现已广泛应用于大规模数据检索之中。现有的哈希跨模态检索算法大多是监督跨模态检索算法,但在具体环境下,跨模态检索面临标签获取难度大、成对多模态数据不足等问题。本文结合跨模态检索面临的不同具体场景,进行了半监督跨模态检索算法研究,主要工作如下:(1)提出了一种基于语义对齐的半监督深度跨模态哈希算法。该算法针对大规模数据下跨模态检索的数据标签缺失问题,使用残差网络提取多模态数据深度特征,之后利用成对模态(图像-文本对)中固有的内在联系生成相似矩阵,将多模态特征之间的相似性与哈希码之间的相似性进行对齐,生成一致性哈希码。本文在WIKI、MIRFlickr、NUS-WIDE三个数据集上进行了实验,并与CVH、IMH、LCMH等跨模态哈希方法进行对比。实验结果表明,基于语义对齐的半监督深度跨模态哈希算法相比于现有的跨模态哈希方法,提升了检索的准确率。(2)提出一种无监督半配对深度跨模态哈希算法。该算法针对现实世界中由于某些模态数据缺失、模态之间的成对信息未知等问题导致的跨模态哈希算法效率下降的问题提出了一种解决方案。首先训练两个生成器来填充不完整的成对信息,以便扩充原始数据中有限的成对跨模态信息。然后使用增强的成对数据构造相关图,学习哈希函数并生成统一哈希码。本文在MIRFlickr、NUS-WIDE两个数据集上进行了实验,并与现有四个半配对跨模态哈希方法进行了比较。实验结果表明,无监督半配对深度跨模态哈希算法相比于现有算法,提升了检索的准确率。(3)设计并实现了一套面向热点新闻的跨模态检索系统。本系统基于web服务器和浏览器的B/S(Browser/Server)架构,集成了数据采集和处理模块、跨模态检索模块和可视化页面展示模块,向用户提供了图片和文本互相检索的功能,提高了检索的准确率,满足了用户对多模态数据检索的需求。

基于文本引导的目标分割与行为分析方法

这是一篇关于目标分割,行为分析,跨模态,注意力机制的论文, 主要内容为视频监控中特定目标的行为分析技术能够提高警务人员视频研判效率,在警务工作中具有重要意义。当前主流的行为分析方法以分析生活场景中行为为主,没有针对警务工作场景下进行行为分析,而且算法存在鲁棒性较差、分析内容不丰富等问题。针对上述问题,本文围绕基于文本引导的目标分割与行为分析进行研究,主要创新与工作如下:提出了一种文本引导的目标分割方法。以Refvos为基础网络架构,首先,分别利用Swin Transformer和Bert提取多尺度图像特征与文本特征;然后,将多尺度图像特征和文本特征进行相乘融合,得到多尺度跨模态特征;最后,利用卷积长短期记忆网络聚合多尺度跨模态特征得到分割特征掩模,并进行上采样得到目标分割结果。在UNC、UNC+、G-Ref、Refer It数据集上进行训练并测试,实验结果相比Refvos,本文方法在UNC数据集val、test B测试IoU结果分别提升了0.92%、4.1%,在UNC+数据集val、test A、test B测试中IoU结果分别提升了1.83%、0.63%、1.75%,在G-Ref、Refer It数据集的IoU结果达到40.16%和64.37%。提出了一种基于图网络的行为识别方法。首先,利用带有残差结构的图网络提取表征能力更强的二维骨骼关键点特征;然后,基于并行时序分析模块进行骨骼关键点特征时序分析得到动作特征,提升长距时序骨骼特征高效分析能力;最后,将动作特征向量输入Softmax分类器得到行为识别结果。在Kinetics和NTU-RGB+D数据集上进行训练与测试,实验结果表明本文方法在Kinetics数据集Top1和Top5分类准确率分别达到32.6%和55.4%,较原方法ST-GCN分别提升了1.9%和2.6%;在NTU-RGB+D数据集X-Sub和X-View指标上分别达到83.1%和89.7%,较原方法分别提升了1.6%和1.4%。提出了一种基于Transformer的事件描述方法。首先,设计了时空差异动作特征提取模块,提升视频动作特征提取效率,对动作特征进行更有效地表征;然后,利用注意力图网络设计了事件关联模块,分析长视频各事件之间的关系,实现事件准确定位;最后,构建了异常行为数据集,对原有数据集进行补充,提升了模型对异常行为的描述能力。在Activity Net和异常行为数据集上进行仿真实验,实验结果表明,在Activity Net数据集上指标BLEU4/METEOR/SODA_c分别提升了0.06/0.10/0.63。在异常行为测试集中BLEU4/METEOR/CIDEr/SODA_c分别达到了1.08/5.91/15.32/3.6。最后进行了本文方法的实现与验证,将上述模型进行整合并在模拟真实场景下进行方法的功能验证。验证结果表明,本文方法可以在警务工作场景下可以对文本描述的特定目标进行准确定位,并针对目标一段时间的行为生成内容较丰富的分析结果。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设工坊 ,原文地址:https://m.bishedaima.com/lunwen/46357.html

相关推荐

发表回复

登录后才能评论