基于姿态估计的交通路口行人状态识别
这是一篇关于交通路口,人体姿态估计,注意力模块,行为状态识别,图卷积网络的论文, 主要内容为监控摄像头已广泛地应用于现实生活中的各种公众场所,利用计算机视觉技术可以快速检测和识别交通路口中行人的行为状态,有助于交通管理部门及时处理突发事件。本文针对交通路口中的行人跌倒、走路、骑车的行为状态进行检测和识别,主要研究内容如下:1.构建了交通路口行人状态数据集(TPB Dataset:Traffic Pedestrian Behavior Dataset),包含跌倒、走路和骑车的行为状态。数据集包含公开数据集和自制数据集,公开数据集有Le2i Fall Detection Dataset和KTH Dataset等,自制数据集来自网络的相关视频和自己拍摄的视频。每类行为状态有140个视频片段,帧数在50帧以内,分辨率大小为340×256,帧率为25fps。按照7:3的比例,随机分为训练集和测试集。2.为方便提取骨架特征信息,本文以Fast Pose为基础模型,设计了一种自顶向下的轻量型人体姿态估计算法Fast Pose-Lite。首先利用YOLOv4人体检测器裁剪出单人子图像,然后经过单人姿态估计网络提取骨骼关节点。单人姿态估计网络由GSE-Res Net特征提取网络和上采样部分共同构成。GSE-Res Net网络是将Res Net网络中的传统卷积模块替换为Ghost模块同时引入SE注意力模块。上采样部分由DUC模块和CBAM注意力模块组成。实验结果表明,在COCO数据集下,本文所提出的Fast Pose-Lite网络对人体骨骼关节点的检测精度与原网络的检测精度基本接近,平均精度均值达到了70.74%,同时参数量减少了51.4%,计算量降低了50.8%。3.针对交通路口场景下行人跌倒、走路和骑车状态的识别,本文提出了基于时空图卷积网络的行人状态识别算法。首先根据Fast Pose-Lite提取视频中每帧的人体骨架序列,连接构成骨架时空图结构,然后利用本文提出的NA-STGCN网络进行处理。构成该网络的基础模块NA-GCB是由GCN模块、TCN模块和NAM注意力模块残差连接构成。利用GCN和TCN模块提取视频帧间关节点的位置变化及空间结构关系,将NAM注意力模块嵌入到残差结构的末尾以增强网络对目标特征的提取能力。实验结果表明,在TPB数据集下,本文提出的网络对行人跌倒、走路、骑车行为状态的平均识别准确率分别达到了91.23%、92.71%、91.56%,相较于经典网络ST-GCN分别提升了2.58%、2.77%、1.84%。
基于注意力机制的轻量化姿态估计及动作检测方法
这是一篇关于人体姿态估计,动作检测,轻量化,体育视频分析的论文, 主要内容为随着视觉技术的不断发展,利用视觉感知技术研究体育运动视频成为了一个研究热点。在体育运动视频分析领域,人体姿态估计和动作检测的准确性对于后续的分析过程具有非常重要的意义。体育视频中存在的相互遮挡、复杂姿态和快速运动等问题制约了现有的人体姿态估计算法的应用。本文的工作和创新点如下:(1)当前基于深度神经网络的人体姿态估计研究主要集中于网络模型的设计,而对关节点、人体结构信息的建模关注较少,尽管现有的研究已经取得了很好的成果,但是,从人体结构建模的角度来看,现有的人体姿态估计方法仍然存在不足。因此,本文提出了基于上下文注意力机制的关节点提取网络(Context At t en t i o n-B as ed Key p o i nt E x t ract i o n Net wo rk,C AKE Net),利用关节点上下文注意力机制(Keypoint Context Attention Mechanism,KCAM)建模关节点之间的依赖关系,从而有效的减少了难样本的误检率。为了生成更多的难样本,提出了自数据增强策略(Self-Data Augmentation,SDA)。CAKENet在C OC O数据集上的人体姿态估计精度可达7 9.5%。(2)为了实现人体姿态估计算法在移动设备、嵌入式平台上的应用,现有的轻量化人体姿态估计网络模型研究主要集中于设计更加轻量化的网络。这些方法往往存在精度过低的问题,难以满足实际应用的需求。本文利用Res Ne Xt替代普通卷积,提出了一种高效的轻量化人体姿态估计算法HRNe Xt,在COCO数据集上的姿态估计精度达78.2%,有效地平衡了精度和网络复杂度之间的关系。(3)利用姿态估计算法进行体育视频分析时,需要对视频进行关键帧提取,剔除冗余、重复的数据,提高分析效率。由于连续动作的视觉特征具有很高的相似性,对连续动作的检测存在很大的难点。此外,由于摄像机移动造成的拍摄视角不统一的问题也使传统动作检测算法的精度相对不高。针对以上问题,结合Effi ci en t N et空间信息提取网络和双向GR U(Gat ed R ecu rre n t Un i t)时序信息提取网络,本文提出了融合空间信息和时序信息的动作检测网络(Action Det ect i o n Net wo rk In co rp o rat i n g S p a t i al an d T em p o ral In fo rm at i o n,S TADNet),在数据集Go l f DB上的动作检测准确度为7 4.9%。(4)在HRNe Xt和STADNet算法的基础上,本文设计了一个基于人体姿态估计和动作检测算法的体育视频分析系统,该系统可以对运动员的动作进行科学的评估。本文所提出的方法有效地提升了视觉表达缺失时人体姿态的识别精度,降低了网络的参数量和计算量,提升了具有相似视觉特征动作的检测精度。
基于云平台的情景交互式康复训练及评估系统
这是一篇关于康复训练,康复评估,人体姿态估计,情景交互,OpenPose,Kinect,云平台的论文, 主要内容为基于云平台的情景交互式康复训练及评估系统综合应用了虚拟环境、机器学习、云平台等技术进行智能康复研究,具有重要的研究和应用价值。利用虚拟环境技术和人体姿态估计技术实现生动有趣的情景交互式康复训练有助于激发患者主动训练的意愿,基于肢体关节运动数据的康复效果评估则可以客观科学地评估患者的康复训练效果,而云平台技术可以让医生通过网络远程掌握分布在不同区域的患者的康复训练情况,进行基于数据驱动的康复效果评估,并给出及时的康复训练指导。本课题针对基于云平台的情景交互式康复训练及评估系统的关键技术开展了相关研究。首先针对实现情景交互式康复训练、基于云平台的康复数据存储以及康复训练效果评估等需求,提出了基于公共云平台技术的系统构架,分析了软件架构,阐述了主要功能。面向患者的不同失能部位和不同康复阶段,搭建了基于Unity3D的情景交互式康复训练及评估虚拟场景,并利用Kinect采集的患者关节三维位置控制虚拟代理实现具有康复导向性的人机交互。同时通过DTW算法计算患者与正常人的关节运动角度的相似度,以作为康复效果的评价指标。针对Kinect自带的骨骼绑定算法在部分人体被康复机器人遮挡时出现无法识别或误识别的问题,提出了一种融合OpenPose和Kinect的三维人体姿态估计方法,并创新地应用到基于ROS的渐进式康复训练情景交互系统的开发中。该方法首先将由OpenPose算法得到的二维关节点坐标与Kinect获得的深度数据融合获得三维关节点空间坐标,然后利用霍特双参数指数平滑法对关节点运动轨迹进行平滑和预测。实验结果表明该三维人体姿态估计方法使用方便、实时性好,训练过程中获得的三维姿态数据可以用于康复训练效果的评估。针对康复资源短缺、分布不均、成本高的问题,并结合部分病人需要在社区康复中心或者家里进行康复训练的需要,基于SSM和Shiro框架初步实现了“互联网+康复”模式的康复数据管理云平台。云平台可以汇集、存储、分析及查看康复客户端上investigate传的康复数据,康复医师通过云平台追踪患者的训练情况,为患者提供个性化的康复训练指导。研制的基于云平台的情景交互式康复训练及评估系统只用一台Kinect设备就可以获得患者训练过程中的主要关节点的三维空间位置数据,能够激发患者主动康复的积极性,康复评估结果可以为康复医师提供参考,基于云平台的远程监控和指导可以打破患者和医生之间的时空限制,为多渠道的康复、护理、养老新模式的实现提供了技术保障。
基于高分辨率深度神经网络的人体姿态估计研究
这是一篇关于人体姿态估计,高分辨率网络,多尺度,注意力机制,遮挡,轻量化的论文, 主要内容为人体姿态估计是给定一幅图像或者一段视频帧,从中检测到人体目标后对其关节点进行检测标注,然后将关键点进行连接的过程,是当前计算机视觉的研究重点热点。随着人工智能的发展,其在人体动作识别、人机交互等任务中同样起着重要的作用。人体姿态估计的研究在深度学习和神经网络的发展下已不断地成熟,但由于人体肢体的复杂性、摄影机的角度、环境的复杂性及姿态的异样性等客观原因,图像中人体肢体常常存在人体尺度不同、相互遮挡以及背景重叠等问题,使得提高人体姿态估计的检测精度变成了一个具有挑战性的任务;同时,卷积神经网络的参数量大及运算复杂度高,使得网络的运算时间过长也是近年来最为关注的一个问题。针对以上问题,本文主要基于高分辨率网络从提高网络的检测精度及设计网络的轻量化两个角度开展研究,主要研究内容如下:(1)针对在人体姿态估计网络中,当面临人体占图片尺度变化的挑战时,预测人体的正确姿势方面还存在不足等问题,对高分辨率网络(High Resolution Network,HRNet)进行优化设计,提出基于多尺度注意力机制的高分辨率网络模型(Multiscale-Attention Net,MSANet)。该方法主要融合金字塔卷积和注意力特征融合的多尺度处理能力,重新构建高分辨率网络的基础模块。在COCO数据集上对优化的网络进行实验,实验结果显示,改进的基础模块使得高分辨率网络的平均估计精确度m AP提高了2.5%。(2)针对复杂环境下的人体关键点检测,如遮挡、重叠等关键点的检测,通过增强利用高层特征的语义信息和底层特征的细粒度特征的方法,实现精准的困难关键点的检测定位与分类。首先使用改进的non-local自转换器模块在多分辨率的融合前增强全局空间特征,使得网络在多分辨率的融合阶段能够提取更多的空间特征信息;然后在最后阶段中将各层的特征使用自适应空间特征融合策略进行融合,并将融合后的特征通过姿态调整机从空间注意力和通道注意力的方式再次提取足够的空间特征及语义信息,实现更为精准的困难关键点定位;最后在COCO数据集和MPII两个数据集上进行训练测试、消融以及可视化分析实验,改进的网络与原网络相比,对困难关键点的检测具有更高的敏感度及抗干扰能力。(3)针对高分辨率网络庞大,难以用于移动设备和嵌入式平台的问题,对网络进行轻量化设计,基于Micro Net的Micro Blocks模块,提出一种轻量化基础模块以减少网络的参数量及运算复杂度。该模块通过微分解卷积降低特征节点间的连通性来避免网络宽度的减少,并通过动态激活函数提升非线性,弥补网络深度减少带来的性能降低。通过实验结果表明,与原网络相比,参数量从原来的28.5M降低至17.24M,减少了39.5%,运算复杂度从原来的7.10G降低至6.02G,减少了15.2%。
轻量级人体姿态估计的研究与应用
这是一篇关于深度学习,人体姿态估计,轻量化网络设计,动态权重的论文, 主要内容为人体姿态估计,又名关键点检测,其目标是在输入的人体图像中准确定位出人体关节,从而构建人体的骨骼表示。近年来,人体姿态估计领域发展迅速,但许多方法在追求更高精度的同时忽略了模型在部署落地时的需求。在一些特定的应用场景下,由于计算资源和存储资源有限,要求模型在保持较高推理精度的前提下足够的轻量化。另外,在一些实际的应用场景中,对手腕、脚踝等关键点的精度要求较高,但在已有的人体姿态估计模型中,这些肢体关键点的预测精度远低于头部等关键点(本文称这些人体关键点为难推理关键点)。基于目前人体姿态估计发展现状,面向在移动端落地的需求,本文从以下两个思路展开研究。一是保持模型的精度较高的前提下提高模型的运行效率;二是在保证模型足够轻量化的基础上,提升难推理关键点的预测精度。最后,设计开发了一个能够在移动端实时计算处理的用于运动计数的人体姿态估计系统。具体来说,本文的主要工作如下:1.设计了一个轻量级的人体姿态估计网络模型。首先基于深度可分离卷积和注意力机制设计了一个轻量级模块,然后以此为基础模块设计网络结构,提出了简单有效的轻量级特征融合模型(Lightweight Feature Fusion Network,LFFNet)。LFFNet的参数量仅为3.1M,是与其精度相当的主流模型的1/11。LFFNet在保持较高精度的前提下,实现较低的参数量,提高运行效率,更加适合在移动端部署落地。2.针对现有的人体姿态估计模型中存在难推理关键点预测精度低的问题,提出了一种基于动态权重的损失计算方法(Dynamic Focus Loss,DF-Loss)。该方法可以在不额外增加模型的参数量和浮点运算量的前提下,有效的关注到难推理关键点的特征信息,提升其预测精度。本文在多种主流的模型以及轻量化的模型上进行了实验,证明该方法可以有效的提高难推理关键点的精度以及模型的整体精度。3.本文设计开发了一个基于视频流的用于实时运动计数的人体姿态估计系统。使用轻量级人体姿态估计模型LFFNet为底层模型结合DF-Loss方法进行关键点检测,然后基于检测到的关键点的相对位置进行推理计算,输出运动动作是否标准以及动作个数。本系统在移动端的视频处理速度可达12fps,能够部署落地在移动设备实时运行,在保持较低的计算开销的基础上,达到较高的识别精度。
基于深度学习算法融合的人员跌倒检测研究
这是一篇关于Openpose,MobileNetV2,注意力机制,跌倒检测,人体姿态估计的论文, 主要内容为据国家统计局发布的人口统计数据显示,随着老年人群体的不断扩增,现阶段我国已进入人口老龄化社会。意外跌倒造成的一系列损伤是造成老年人意外死亡的第二大原因,因此对独居老人进行意外跌倒检测,可以降低他们死亡和受伤的风险。研究如何检测跌倒事件,对于保障老年人的生命安全和健康有着重要意义。在基于计算机视觉的跌倒检测算法中,网络框架大小和特征提取方面仍存在一定的优化空间。本文针对当前跌倒检测存在的问题,进行了以下工作:(1)针对当前部分算法中使用人体关键点代替身体姿态信息检测跌倒,会因为关键点标记存在误差,从而导致检测结果出现错误的问题,本文提出了一种基于Openpose和Mobile Net V2的跌倒检测方法。旨在利用原始图像信息对关键点标注过程中的偏差进行修正,提高特征提取的有效性,进而提高算法分类精度。首先,使用Openpose提取人体关键点,并在原始图像中标注。然后,利用改进的Mobile Net V2网络,对原始图像和标记的人体姿态信息进行特征提取,检测跌倒。针对UR数据集中部分样本存在光线过暗导致关键点提取偏差较大的问题,本文对相关数据进行了提亮操作,提高了关键点标注准确率。该方法在Le2i和UR数据集上的准确率分别为98.6%和99.75%,高于所列出的对比方法。(2)针对当前基于Mobile Net V2的跌倒检测算法不能同时兼顾数据背景信息和位置编码信息的问题,本文对Mobile Net V2的倒残差结构进行了改进。首先,进行了注意力机制穿插位置的探索,最终在逐点卷积和空间卷积之前分别增加了通道注意和空间注意力机制。然后,对网络输出部分进行改进,在分类结构的开始部分加入了CBAM注意力机制,修正卷积层提取后的特征信息。上述操作在不增加网络计算量的情况下提高了网络对重点信息的关注,进而提高了网络的分类性能。针对UR数据集中跌倒数据较少的问题,本文对相关数据进行了扩充,采用平移,放缩,随机裁剪的方法将跌倒数据扩充为原来的4倍,使得网络可以充分学习跌倒动作的特征,更为准确地检测跌倒。该算法在公共数据集Le2i和UR上的检测准确率分别为98.8%和99.7%。虽然在UR数据集中的检测准确率与本文提出的第一种检测方法相比略有降低,但本方法的网络框架明显小于所提出的第一种方法,同时准确率高于所列出的其他对比方法。
基于深度学习的自上而下的人体姿态估计
这是一篇关于人体姿态估计,卷积神经网络,Transformer,局部特征,全局特征的论文, 主要内容为人体姿态估计任务旨在从图片或者视频中定位出人体的关节点。目前,基于深度学习的人体姿态估计算法识别精度高、运行速度快,成为该领域的主流算法。因此,当下人体姿态估计算法的发展往往与深度学习技术的发展息息相关。Transformer框架的提出对计算机视觉的相关领域产生了重要影响,这其中就包括对人体姿态估计领域的影响。卷积神经网络(CNN)和Transformer作为两种运算逻辑不同的特征提取器,各具特色、各有所长。如何充分发挥两种特征提取器的特长从而更好的服务于计算机视觉的相关领域,是众多计算机视觉研究者正在探讨的课题。本文以基于深度学习的自上而下的人体姿态估计方法为立足点,深入探究CNN与Transformer的融合框架在人体姿态估计领域中的应用。针对如何融合CNN与Transformer两种框架来实现高性能的人体姿态估计以及如何改进Transformer自身缺陷的问题,本文提出以下解决方案:(1)本文提出了基于聚合Transformer与关键点提纯的人体姿态估计网络。为了充分利用CNN的局部特征提取能力和Transformer的全局特征提取能力,我们将CNN和Transformer进行串联组合:先使用Res Net提取局部特征,再使用聚合Transformer提取全局特征。聚合Transformer是我们为姿态估计任务设计的一种Transformer变体,我们在其Decoder中嵌入局部融合模块和关键点头来进一步提取局部特征和细化关键点坐标。(2)本文提出了基于并行架构与混合特征的人体姿态估计网络。不同于上一章的串行组合,我们在本章提出了一种将CNN与Transformer并联的架构来实现人体姿态估计。我们在Inception结构基础上引入注意力机制分支来提取全局特征,同时保留原始分支来提取局部特征,随后将各个分支提取的特征图进行追加混合并送入后续模块进行识别。除此之外,我们采用了Simdr表示法来预测关键点的坐标信息,并使用KL散度损失函数来优化网络参数。(3)本文提出了基于ViTPose与渐进式采样策略的人体姿态估计网络。原始Transformer架构的Patch Embedding模块对特征图进行序列化时,下采样因子过大从而导致大量特征信息损失。为此,我们设计了Gradual Embedding模块来取代原有的Patch Embedding模块,前者采用了渐进式采样的策略来逐步减小特征图的尺寸,从而有效缓解特征信息损失的问题。另外,我们设计了同样采用渐进式采样策略的局部融合模块来替换原有的转置卷积,并联合双线性插值与最大反池化层来还原更精细的heatmap。
轻量级人体姿态估计的研究与应用
这是一篇关于深度学习,人体姿态估计,轻量化网络设计,动态权重的论文, 主要内容为人体姿态估计,又名关键点检测,其目标是在输入的人体图像中准确定位出人体关节,从而构建人体的骨骼表示。近年来,人体姿态估计领域发展迅速,但许多方法在追求更高精度的同时忽略了模型在部署落地时的需求。在一些特定的应用场景下,由于计算资源和存储资源有限,要求模型在保持较高推理精度的前提下足够的轻量化。另外,在一些实际的应用场景中,对手腕、脚踝等关键点的精度要求较高,但在已有的人体姿态估计模型中,这些肢体关键点的预测精度远低于头部等关键点(本文称这些人体关键点为难推理关键点)。基于目前人体姿态估计发展现状,面向在移动端落地的需求,本文从以下两个思路展开研究。一是保持模型的精度较高的前提下提高模型的运行效率;二是在保证模型足够轻量化的基础上,提升难推理关键点的预测精度。最后,设计开发了一个能够在移动端实时计算处理的用于运动计数的人体姿态估计系统。具体来说,本文的主要工作如下:1.设计了一个轻量级的人体姿态估计网络模型。首先基于深度可分离卷积和注意力机制设计了一个轻量级模块,然后以此为基础模块设计网络结构,提出了简单有效的轻量级特征融合模型(Lightweight Feature Fusion Network,LFFNet)。LFFNet的参数量仅为3.1M,是与其精度相当的主流模型的1/11。LFFNet在保持较高精度的前提下,实现较低的参数量,提高运行效率,更加适合在移动端部署落地。2.针对现有的人体姿态估计模型中存在难推理关键点预测精度低的问题,提出了一种基于动态权重的损失计算方法(Dynamic Focus Loss,DF-Loss)。该方法可以在不额外增加模型的参数量和浮点运算量的前提下,有效的关注到难推理关键点的特征信息,提升其预测精度。本文在多种主流的模型以及轻量化的模型上进行了实验,证明该方法可以有效的提高难推理关键点的精度以及模型的整体精度。3.本文设计开发了一个基于视频流的用于实时运动计数的人体姿态估计系统。使用轻量级人体姿态估计模型LFFNet为底层模型结合DF-Loss方法进行关键点检测,然后基于检测到的关键点的相对位置进行推理计算,输出运动动作是否标准以及动作个数。本系统在移动端的视频处理速度可达12fps,能够部署落地在移动设备实时运行,在保持较低的计算开销的基础上,达到较高的识别精度。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:代码工厂 ,原文地址:https://m.bishedaima.com/lunwen/48271.html