基于深度学习的手语识别研究与应用
这是一篇关于深度学习,MediaPipe,YOLOv5,手语识别的论文, 主要内容为由于听觉丧失和声带受损,聋哑人无法用口语与人交流,肢体动作语言便成为听障弱势群体之间主要沟通方式。目前手语并未在社会上全面普及,且听障弱势群体普遍识字困难,使得普通健听人士和聋哑人之间存在不小的沟通障碍。因此,研究手语识别技术具有重要的社会意义,不仅帮助聋哑弱势人群更好地融入日常生活中,而且还能促进信息无障碍交流社会福利事业的发展。基于计算机视觉的手语识别可分为两个方向:一种是基于手语图像手势的识别,另一种是基于手语视频的动态识别。本文旨在针对以往手语识别算法中所存在的不足之处,提出新的改进方法,并在提升识别准确率的基础上搭建手语识别应用程序。本文的研究成果分为以下三个部分:(1)静态手语识别:针对目前手语应用场景中对于识别准确性的需求,提出基于改进6.0版YOLOv5目标检测算法的静态字母手语识别模型SA-YOLOv5。首先,以YOLOv5s6为基准网络对其进行了优化,通过实验对比在Backbone末端嵌入Sim Am注意力机制,在不引入额外参数下提升特征提取能力;其次为了使该模型能够充分利用目标不同尺度特征,使用自适应空间特征融合ASFF模块以加强网络特征融合。和基准网络YOLOv5s6相比,改进后的SA-YOLOv5手语识别模型m AP平均精度均值整体提高了3.7个百分点,取得较好的效果。(2)动态手语孤立词识别:为了解决以往手语视频流复杂背景中冗余信息造成的干扰以及模型复杂度过高等问题,提出一种M-LRCN网络架构。首先是基于Media Pipe的手语视频人体姿态预处理方法,将预处理后的手语视频连续帧作为LRCN手语识别模型的输入。其次针对LRCN网络模型中存在的参数量大且准确率不高的问题,将LRCN中提取视频中空间特征的Alex Net替换为轻量型网络Mobile Net V3。在CSL数据集前一百类手语孤立词中,该方法的准确率达到了91.75%,比Alex Net-LSTM模型提高了11.95%,模型大小降低约为88.5%,进一步的降低模型参数量的规模。(3)本文根据上述改进的算法,使用PYQT、Android、Tensor Flow Lite等框架,分别实现了桌面端和移动端的静态和动态手语识别应用。并在实际使用中对各个客户端的系统交互界面进行了验证和调整。通过这些改进,手语识别系统的使用变得更加便捷和快速,更好地满足不同场景下使用者的需求。
基于视频的手语识别方法研究
这是一篇关于手语识别,深度学习,CNN-LSTM,轻量化网络的论文, 主要内容为目前我国聋哑人人口超过2000万,手语是聋哑人最重要的交流工具。但非聋哑人士接触手语场合较少,学习和掌握手语相对困难,而培训专业的手语翻译人员时间周期长,因此从事手语翻译工作的人数相对较少,聋哑人与大部分非聋哑人不能正常交流,进而影响聋哑人的教育、就业以及正确的自我认知,使得他们难以更好的融入社会。随着计算机视觉技术和深度学习技术的发展,研究基于视频的手语自动识别方法对于改善聋哑人的生活质量具有重要意义。本文研究了基于深度学习技术的手语识别方法,实现了手语识别功能;为了后续在移动设备中实现手语识别功能,扩大使用范围,进一步研究了一种轻量化的手语识别网络,降低了参数量和计算复杂度,减少了深度神经网络对硬件的要求。本文的主要工作内容如下:(1)深入研究了深度学习的相关理论并制作了CSL-10和CSL-50中文手语数据集。首先深入研究了卷积神经网络原理和结构理论知识。然后以中科大SLR500数据集为基础,制作了分别包含61432和282189张图片的CSL-10和CSL-50数据集。手语视频处理方式包括视频关键帧提取、裁剪、缩放和归一化。其中关键帧提取方法使用等时间间隔采样法。(2)提出了一种基于改进的CNN-LSTM网络的手语识别方法。在研究三维卷积、二加一维卷积以及CNN-LSTM网络的基础上,提出了一种改进的Sh-Res-LSTM网络。首先,为了增强CNN-LSTM网络泛化能力,提出了一种改进的Sh-Res残差模块,并将Sh-Res模块嵌入Res Net18网络架构;然后在训练过程中引入了标签平滑技术;最后使用CSL-10和CSL-50数据集对改进的网络进行训练和测试,分别达到了97%和99.8%的识别率。(3)提出了一种由Ghost模块和DFC注意力机制改进的Gnet轻量化手语识别网络。首先使用常规卷积提取原始数据特征;然后将提取的特征输入基于Ghost模块和DFC注意力机制改进的CGhost V2模块,聚合全局特征信息;接着使用基于Ghost模块改进的G模块提取特征;最后使用平均池化操作完成数据降维。该网络与LSTM网络结合后,通过实验法研究了学习率和Batchsize对网络性能的影响,并确定了最优的学习率和Batchsize;在CSL-10和CSL-50数据集上,分别实现了88%和99.4%的识别率。(4)实现了基于视频的手语识别系统。根据实际需求确定软硬件平台,设计系统总体结构。结合Sh-Res-LSTM和Gnet-LSTM网络设计图形交互页面,实现手语识别系统功能。本文深入研究了CNN-LSTM网络结构,改进的Sh-Res-LSTM增强了手语识别能力,设计的轻量化Gnet-LSTM网络,大幅减少了网络参数量和计算量。同时设计了用户图形交互界面,实现了基于视频的手语识别系统。
基于单目视觉的手语-唇语转化系统研究与实现
这是一篇关于手语识别,K-means,关键帧提取,SSD目标检测网络的论文, 主要内容为在聋校语言教学中,双语教学模式能有效提高聋童的语言学习效率,但对于特殊教师们来说则需花费更多的耐心、时间和精力。面临着我国特殊教育学校的教师资源普遍薄弱的现状,手语识别技术可帮助特教完成语言教学任务——聋童将手语录成视频输入计算机,进而能够学习输出的汉字和唇语,无需老师亲自教学就能完成汉语书面语的学习。另外,计算机只对标准的手语(以《中国手语》为标准)进行识别,借此还可纠正聋童手语方言化的问题。本文研究的是基于单目视觉的手语-唇语转化系统,其关键难点在于手语识别,具体工作如下:一、视频关键帧提取。首先分析了常见的4种视频关键帧提取方法,为了在能完整提取所有关键帧的前提下尽可能消除冗余帧,提出一种基于聚类的视频关键帧优化提取算法。利用卷积自编码器(CAE)神经网络提取视频帧的深度特征,对提取到的特征进行K-means聚类后,采用清晰度筛选取出最清晰的视频帧作为首次提取到的关键帧,再利用点密度方法进行关键帧的二次优化。实验结果表明,本算法能大量消除冗余帧,并同时保证关键帧的完整性。二、对关键帧进行手势识别。针对手部小目标对SSD目标检测网络做了几点改进:将SE-Net嵌入SSD中的特征层提高重要通道的权重;改变损失函数以更好地应对正负样本不均衡问题;使用mixup和归一化操作优化网络的训练。实验结果表明,本文改进的SSD有更高的识别精度。三、手语-唇语转化系统的实现。为了使系统具有更强的实用性和可推广性,输入的彩色手语视频采用单目摄像头录制;为了使手语者自然地表达,手语者打手语时无需佩戴任何设备或在手上做任何标记。系统的第一个输出为汉字和拼音,第二个输出是与汉字相对应的唇语视频。最后使用Vue.js和Spring Boot技术搭建了展示系统的网页。本系统面向的用户是聋人儿童,希望他们能借助自己熟悉的手语学习汉语,包括书面语和口语,不需要特教亲自反复教学就能进行语言学习,对聋校的语言教学具有一定的辅助作用。整个系统只需要借助一个单目摄像头,脱离了其他技术和外物的限制,因此系统的实用性和可推广性更强,具有很大的应用前景。
基于深度学习的手语识别方法研究
这是一篇关于手语识别,深度学习,注意力机制,ResNet50,LSTM的论文, 主要内容为手语是听力或言语障碍人士与世界进行交流的主要工具,因此发展有效的手语识别方法一直广受关注。与基于可穿戴传感器的手语识别方法相比,蓬勃发展的深度学习技术对基于视觉的手语识别愈发具有吸引力。因此,本文基于深度学习的多种网络模型,分别展开静态和动态手语识别方法的研究。在静态手语识别方面,主要包括以下工作:首先,考虑到手部在整张图像中占比较小,为更好的对手部进行关注,将通道注意力模块与CA注意力模块融合,得到了改进的注意力模块,实现了对手部特征及其位置的同时关注。其次,将改进的注意力模块嵌入参数量较少、计算成本较低的Mobile Net V2网络,构建了本文的静态手语识别网络模型并完成相关参数设定。最后,在ASL和Handpose x手语数据集上,将本文的静态手语识别模型与VGG16、Res Net50和Mobile Net V2进行对比分析,在ASL数据集上本文模型的准确率为99.97%,相比在VGG16、Res Net50和Mobile Net V2网络上的准确率分别提高了0.1%、0.06%和0.04%。同时在Handpose x数据集上进行模型性能的再次验证,充分说明了本文方法的有效性和普适性。在动态手语孤立词识别方面,主要包括以下工作:首先,使用对图像特征提取具有一定优越性的Res Net50网络对手语视频进行特征提取,考虑到动态手语具有时序性的特点,利用Transformer和LSTM对手语特征的时间维度信息进行处理。因此将Res Net50与Transformer和LSTM分别进行融合,实现了对动态手语孤立词的有效识别;经过实验对比,Res Net50-LSTM网络对手语识别的性能更为优越。其次,针对在Res Net50-LSTM网络训练过程中存在长期时序不规律、重要特征丢失的问题,选取了CBAM注意力模块,构建了基于CBAM注意力模块的Res Net50-LSTM网络并完成相关参数设定。最后,在CSL-100和DEVISIGN_D手语孤立词数据集上,将本文的动态手语识别模型与Res Net50-Transformer和Res Net50-LSTM进行对比分析,在CSL-100数据集上本文模型的准确率为91.33%,相比在Res Net50-Transformer和Res Net50-LSTM上的准确率分别提高了2.09%和5.34%。同时在DEVISIGN_D数据集上进行模型性能的再次验证,充分说明了本文方法的有效性和普适性。
基于深度学习的手语识别方法研究
这是一篇关于手语识别,深度学习,注意力机制,ResNet50,LSTM的论文, 主要内容为手语是听力或言语障碍人士与世界进行交流的主要工具,因此发展有效的手语识别方法一直广受关注。与基于可穿戴传感器的手语识别方法相比,蓬勃发展的深度学习技术对基于视觉的手语识别愈发具有吸引力。因此,本文基于深度学习的多种网络模型,分别展开静态和动态手语识别方法的研究。在静态手语识别方面,主要包括以下工作:首先,考虑到手部在整张图像中占比较小,为更好的对手部进行关注,将通道注意力模块与CA注意力模块融合,得到了改进的注意力模块,实现了对手部特征及其位置的同时关注。其次,将改进的注意力模块嵌入参数量较少、计算成本较低的Mobile Net V2网络,构建了本文的静态手语识别网络模型并完成相关参数设定。最后,在ASL和Handpose x手语数据集上,将本文的静态手语识别模型与VGG16、Res Net50和Mobile Net V2进行对比分析,在ASL数据集上本文模型的准确率为99.97%,相比在VGG16、Res Net50和Mobile Net V2网络上的准确率分别提高了0.1%、0.06%和0.04%。同时在Handpose x数据集上进行模型性能的再次验证,充分说明了本文方法的有效性和普适性。在动态手语孤立词识别方面,主要包括以下工作:首先,使用对图像特征提取具有一定优越性的Res Net50网络对手语视频进行特征提取,考虑到动态手语具有时序性的特点,利用Transformer和LSTM对手语特征的时间维度信息进行处理。因此将Res Net50与Transformer和LSTM分别进行融合,实现了对动态手语孤立词的有效识别;经过实验对比,Res Net50-LSTM网络对手语识别的性能更为优越。其次,针对在Res Net50-LSTM网络训练过程中存在长期时序不规律、重要特征丢失的问题,选取了CBAM注意力模块,构建了基于CBAM注意力模块的Res Net50-LSTM网络并完成相关参数设定。最后,在CSL-100和DEVISIGN_D手语孤立词数据集上,将本文的动态手语识别模型与Res Net50-Transformer和Res Net50-LSTM进行对比分析,在CSL-100数据集上本文模型的准确率为91.33%,相比在Res Net50-Transformer和Res Net50-LSTM上的准确率分别提高了2.09%和5.34%。同时在DEVISIGN_D数据集上进行模型性能的再次验证,充分说明了本文方法的有效性和普适性。
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设向导 ,原文地址:https://m.bishedaima.com/lunwen/52869.html