推荐5篇关于时序动作定位的计算机专业论文

今天分享的是关于时序动作定位的5篇计算机毕业论文范文, 如果你的论文涉及到时序动作定位等主题,本文能够帮助到你 基于注意力机制的弱监督动作定位研究 这是一篇关于时序动作定位

今天分享的是关于时序动作定位的5篇计算机毕业论文范文, 如果你的论文涉及到时序动作定位等主题,本文能够帮助到你

基于注意力机制的弱监督动作定位研究

这是一篇关于时序动作定位,弱监督,注意力机制,上下文建模,条件变分自编码器的论文, 主要内容为时序动作定位不仅需要识别出视频中动作发生的类别,而且需要定位出视频中动作发生的开始时间和结束时间。基于深度学习的时序动作定位分为全监督动作定位和弱监督动作定位。全监督动作定位在模型训练过程中需要提供视频中动作实例的类别以及动作发生的时间边界,而弱监督动作定位在训练过程中只需提供视频级别的动作类别标签,相比全监督节省了人工标注成本并减少了人工误差。弱监督动作定位由于缺乏帧级标签,通常结合注意力机制来提高动作定位的准确性。但也普遍存在两个问题:1)由于深度神经网络结合注意力机制仅能够视频中的动作高辨别区域,对于视频中动作特征不明显的区域,模型通常无法识别,导致动作定位不完整。2)传统基于注意力机制的弱监督动作定位通过对视频中的动作和背景建模区分动作帧和背景帧,但是视频中除了动作帧和背景帧以外还存在一部分上下文帧,上下文帧和动作类别相关,容易造成动作-上下文混淆导致动作定位不准确的问题。针对上述两个问题,本文对基于注意力机制的弱监督动作定位展开研究,具体工作如下:(1)提出一种基于注意力机制的弱监督动作定位(Weakly Supervised Action Localization based on Attention Mechanism,WSAL-AM)。首先利用注意力机制对动作-背景进行建模,提取动作注意力和背景注意力实现动作帧和背景帧的分离;然后采用半软阈值,对动作注意力半软阈值化提取视频半软注意力,半软注意力引导模型识别动作特征不明显的视频帧。最后对动作注意力进行阈值化后处理完成视频动作定位。在THUMOS14和Activity公共数据集上同当前其他弱监督动作定位模型进行对比,当交并比(IoU)阈值为0.5时,平均检测精度均值(mAP)分别达到30.8%和37.0%,优于其它弱监督动作定位模型。(2)提出一种融合注意力模型和生成模型的弱监督动作定位(Weakly Supervised Action Localization fused with Attention Model and Generative Model,WSAL-AM-GM)。首先利用注意力模型对视频中的上下文建模,提取上下文帧的注意力分数实现动作帧和上下文帧的分离;然后为了优化注意力模型的值分布,将视频双流特征和上下文注意力分数都输入到条件变分自编码器。最后对动作注意力进行阈值化后处理完成视频动作定位。在THUMOS14和Activity公共数据集上进行对比实验,mAP@0.5分别达到32.6%和38.6%。同时为验证所提模型对配电室巡检行为的动作定位效果,在自制配电室巡检行为数据集上进行实验,mAP@0.5达到30.8%,较其他配电室巡检行为检测模型提高6.8个百分点(3)开发基于深度学习的时序动作定位系统。系统基于浏览器服务器架构模式设计,共包含网页端服务和算法端服务两部分。算法端通过Danjo框架将动作定位模型进行封装,网页端分别采用LayUI和SpringBoot框架进行前后端开发,进而将动作定位结果可视化。

视频时序动作定位和描述方法研究

这是一篇关于深度学习,时序动作定位,密集视频描述,图卷积网络的论文, 主要内容为时序动作定位任务的研究内容是识别出视频中的动作,并预测出这个动作开始和结束时间。密集视频描述任务的研究内容是使用自然语言连贯的描述视频中的多个事件。使用图卷积网络可以处理非欧式空间数据与过滤无关背景信息,因此本文使用图卷积网络的方法围绕时序动作定位和密集视频描述任务分别展开了研究。时序动作定位任务中确定事件的方法可以进一步提升密集视频描述任务的效果。在时序动作定位任务方面,本文提出了一种融合型图卷积网络。在视频中存在前景信息和背景信息,很多研究工作往往将背景信息忽略,而视频的背景信息中有一部分可以帮助预测前景信息,如打网球视频中的网球场,这种信息本文称为语义信息。本文提出的方法就是在使用时序信息的同时将语义信息保留在特征中。在实际工作中使用卷积神经网络提取视频中的时序信息特征,通过帧与帧之间的关系构建语义图,并使用图卷积网络将视频中的语义信息特征进行聚合,最终将两种特征融合在一起以提升模型对事件预测的准确性。本文在THUMOS14和Activity Net1.3数据集上进行了相关验证实验,实验的最终结果也表明本文的模型能提升对事件预测的准确性,并且在THUMOS14的m AP@0.5、m AP@0.6和m AP@0.7等指标上取得了突出的成果。在密集视频描述任务方面,本文提出了一种全信息图卷积网络。目前密集视频描述任务常用的方法是使用卷积神经网络提取视频特征,生成多个事件提议,对评分高的提议进行文字描述,这种方法忽略了可以利用的语言学信息,如单词词性、短语结构语法等,对视频生成了生硬的文字描述。对此本文使用二维卷积神经网络提取视觉信息并使用语言学信息作为输入生成字节片段,以此来增强生成语句的流畅性。针对事件提议网络本文构建了一个视觉语义候选事件生成网络,用这个网络生成过去和未来的事件候选提议,根据这些事件提议构建出一个图,使用图卷积网络对这些信息进行聚合,聚合后的特征与原来生成的特征融合输入到编码器-解码器中,最终将生成文字描述结果输出。本文在公用数据集Activity Net Captions和You Cook-II中做了大量的实验以验证本文模型的有效性,并在最新的评估指标中评估了模型的结果,在BLEU@N、METEOR、CIDEr和ROUGEL多个指标中取得了具有竞争性的结果。

基于动态上下文感知与特征对齐的时序动作定位方法研究

这是一篇关于时序动作定位,背景特征融合,图卷积,特征对齐的论文, 主要内容为视频中的时序动作定位近年来越来越受到研究者们的关注,其目标主要是从未剪辑的视频数据中给出动作实例的起止时间和类别,包括检测和识别两个方面。由于自然场景下的视频拍摄背景非常复杂,且不同于图像尺寸固定,视频的动作实例长短不一,因此时序动作定位是一项非常困难的任务。本文对视频中时序动作定位的研究进展进行了全面的调研和总结,从强监督学习和弱监督学习两个不同的方面展开研究,提出了两种基于深度学习的时序动作定位方法。针对强监督学习方法对特征利用不全、难以检测不同持续时间的动作的问题,本文提出了一种基于图卷积的端对端时序动作定位方法。首先构建了特征提取基网络I3D-FPN,相比于简单的C3D网络,不仅提供了更深的网络结构,而且还获得了更大的上下文感受野。然后,设计LFF(Local Feature fusion)模块,采用两层全卷积网络进行特征融合,可以更好的聚合基网络特征。最后,提出了TPGC(Two Pathway Graph Convolution)模块,通过图卷积的方式动态的获取邻近结点的上下文信息和高层语义信息,强化候选框对上下文信息的感知能力。针对弱监督学习方法中将背景实例当作前景混淆训练的问题,本文提出了一种背景抑制和特征对齐的两阶段时序动作定位网络。在第一阶段,针对弱监督定位中背景难以建模的问题,提出了加权训练标签,将背景标签在Base和Suppression分支区分,以便于注意力权重可以过滤掉输入特征中的背景。针对在测试阶段候选框过滤不准确的问题,使用Soft-NMS代替NMS获得更准确的候选框。在第二阶段,提出了用于对齐候选框尺度和挖掘背景信息的网络Align Net。首先提出了3D Ro I-Align模块,通过快速三线性插值的方式对输入候选框进行尺度归一化,保留了更多的细节信息。然后通过两层图卷积挖掘候选框和背景之间的关系,将背景中有用的信息添加进前景中,以便能更好的区分前景和背景信息,提高网络精度。为了验证两种方法的效果,本文分别在动作检测领域的两个基准数据集THUMOS’14和Activity Net上进行实验,通过与相关方法结果进行对比,本文的两种方法在两个数据集上均超过了Baseline的成绩,其中强监督的方法在m AP=0.5时以58.3的成绩在Thumos上超过了2019年的最佳网络G-TAL,弱监督方法在该数据集上相较于最新的网络也有一定的竞争力,证明了其鲁棒性和有效性。

基于注意力机制的弱监督动作定位研究

这是一篇关于时序动作定位,弱监督,注意力机制,上下文建模,条件变分自编码器的论文, 主要内容为时序动作定位不仅需要识别出视频中动作发生的类别,而且需要定位出视频中动作发生的开始时间和结束时间。基于深度学习的时序动作定位分为全监督动作定位和弱监督动作定位。全监督动作定位在模型训练过程中需要提供视频中动作实例的类别以及动作发生的时间边界,而弱监督动作定位在训练过程中只需提供视频级别的动作类别标签,相比全监督节省了人工标注成本并减少了人工误差。弱监督动作定位由于缺乏帧级标签,通常结合注意力机制来提高动作定位的准确性。但也普遍存在两个问题:1)由于深度神经网络结合注意力机制仅能够视频中的动作高辨别区域,对于视频中动作特征不明显的区域,模型通常无法识别,导致动作定位不完整。2)传统基于注意力机制的弱监督动作定位通过对视频中的动作和背景建模区分动作帧和背景帧,但是视频中除了动作帧和背景帧以外还存在一部分上下文帧,上下文帧和动作类别相关,容易造成动作-上下文混淆导致动作定位不准确的问题。针对上述两个问题,本文对基于注意力机制的弱监督动作定位展开研究,具体工作如下:(1)提出一种基于注意力机制的弱监督动作定位(Weakly Supervised Action Localization based on Attention Mechanism,WSAL-AM)。首先利用注意力机制对动作-背景进行建模,提取动作注意力和背景注意力实现动作帧和背景帧的分离;然后采用半软阈值,对动作注意力半软阈值化提取视频半软注意力,半软注意力引导模型识别动作特征不明显的视频帧。最后对动作注意力进行阈值化后处理完成视频动作定位。在THUMOS14和Activity公共数据集上同当前其他弱监督动作定位模型进行对比,当交并比(IoU)阈值为0.5时,平均检测精度均值(mAP)分别达到30.8%和37.0%,优于其它弱监督动作定位模型。(2)提出一种融合注意力模型和生成模型的弱监督动作定位(Weakly Supervised Action Localization fused with Attention Model and Generative Model,WSAL-AM-GM)。首先利用注意力模型对视频中的上下文建模,提取上下文帧的注意力分数实现动作帧和上下文帧的分离;然后为了优化注意力模型的值分布,将视频双流特征和上下文注意力分数都输入到条件变分自编码器。最后对动作注意力进行阈值化后处理完成视频动作定位。在THUMOS14和Activity公共数据集上进行对比实验,mAP@0.5分别达到32.6%和38.6%。同时为验证所提模型对配电室巡检行为的动作定位效果,在自制配电室巡检行为数据集上进行实验,mAP@0.5达到30.8%,较其他配电室巡检行为检测模型提高6.8个百分点(3)开发基于深度学习的时序动作定位系统。系统基于浏览器服务器架构模式设计,共包含网页端服务和算法端服务两部分。算法端通过Danjo框架将动作定位模型进行封装,网页端分别采用LayUI和SpringBoot框架进行前后端开发,进而将动作定位结果可视化。

视频时序检测及动作识别方法研究

这是一篇关于时序动作定位,互补对抗机制,双支路协同制约,模态增强的论文, 主要内容为弱监督时序动作检测旨在定位视频中动作实例的起止边界及其类别属性判断。现有算法还存在两个问题,即由于缺乏细粒度的时序标注导致模型只捕获了最具有区别性的区域,造成定位不完整;其次,由于上下文(不是待检测动作片段的统称)与待检测动作高度相似导致定位区间冗长,包含多余视频帧,本文称之为上下文混淆。针对这两问题并行提出了三种算法,作为预处理把带有视频级标签的长视频等间隔切分成多个视频片段,这三个算法的主要内容陈述如下:首先,提出了基于互补对抗机制的算法。在对抗阶段,利用边界回归过程对相邻片段中动作定位产生的重叠区域进行剥离,防止弱相关视频帧的加入,从而增强不同视频片段内容的排他性和对抗性。另一方面,互补学习阶段,把上述对抗回归产生的动作提议片段拼接为重构视频,并通过度量原始视频与重构视频相似性,反馈牵制对抗模块防止其过度摒弃有效视频帧,两者达到一种平衡机制,通过迭代确保动作提议定位的完整性与准确性。其次,提出基于自注意力关系建模与上下文抑制的算法。采用自注意力建模来提炼片段特征,以此得到更具有辨别性的类别分数,基于top-k策略融合类别得分实现定位完整性;添加辅助上下文类,对动作内容与上下文的潜在区别进行表征学习,抑制上下文的干扰,剥离冗余视频帧。最后,根据“殊路同归”思想,提出时序建模与模态强化协同算法,即时序建模支路利用全局视觉感知能力增强片段特征表示的判别性,提高模型检测能力;模态强化支路构建稀疏图专注于光流模态学习运动特征表示,建模片段的语义关系,突出待检动作区域特征表示;通过构建双分支协同损失函数,约束双分支共同收敛逼近动作序列的真实区间,实现精准且完整的定位。上述三种算法均进行了广泛的实验验证。其中,方案一在THUMOS14和Activity Net1.2数据集上的检测性能分别为64.68%和42.94%;方案二为66.23%和41.43%,在Activity Net1.2上比方案一的精度低1.51%;方案三的检测性能高于方案二,但低于方案一在Activity Net1.2上的性能,即69.1%和42.0%。实验结果证明了本文所提出算法的有效性,并与最新方法比较,验证了其先进性。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码海岸 ,原文地址:https://m.bishedaima.com/lunwen/50096.html

相关推荐

发表回复

登录后才能评论