7篇关于多模态特征融合的计算机毕业论文

今天分享的是关于多模态特征融合的7篇计算机毕业论文范文, 如果你的论文涉及到多模态特征融合等主题,本文能够帮助到你

基于深度学习的口罩遮挡人脸识别系统的设计与开发

这是一篇关于口罩遮挡人脸识别,人脸修复算法,生成对抗网络,多模态特征融合,注意力机制的论文, 主要内容为疫情爆发以来,为了避免病毒的传播,戴口罩成了人们的日常生活习惯。为了满足无接触的生活环境,在学校、企业、医院、车站、快递站都采用了人脸识别技术用于核实人物身份,所以人脸识别技术面临的挑战越来越大,传统的人脸识别并不能满足当下的需求,为了解决佩戴口罩的人脸识别问题,本文将围绕解决口罩遮挡条件下的人脸识别问题展开研究工作。本文涉及嵌套式生成对抗网络的人脸修复算法、多模态融合框架以及多头注意力机制人脸识别算法,结合上述内容设计并开发了一款口罩遮挡人脸识别系统。从优化修复缺失图像的质量和提高识别准确率来减少口罩遮挡对人脸识别的影响,具体工作如下:1、首先研究了基于嵌套式生成对抗网络的人脸识别算法,该算法主要包括两个步骤,第一步根据提取到的特征信息生成模糊图像,第二步在第一步的基础上提取细节特征生成清晰图像,得到更加精准的图像生成器。为后续工作奠定了基础。相比于其他人脸修复算法,本文提出的嵌套式生成对抗网络的人脸修复算法,生成的图像更加清晰且能保留未遮挡部分的多数特征。2、其次本文提到了多模态特征融合框架,分析了融合级别对特征提取效果的影响,越早期融合效果越好。3、结合多模态融合技术,本文提出了多模态通道融合注意力机制以及基于全局注意力机制的特征融合人脸识别算法,能够更好地提取到人脸图像中的特征,对所获取的特征进行重点和非重点的分类,提高特征的有效利用率,减少特征缺失,从而提高识别准确率。4、基于上述内容的研究,本文设计并开发了口罩遮挡人脸识别系统,根据实验结果,本系统可以完成佩戴口罩的人脸身份识别,并在修复性能与识别率上表现良好。

融合多模态特征的跨平台用户对齐系统设计与实现

这是一篇关于多模态特征融合,多级注意力,立场分析,用户对齐的论文, 主要内容为社交网络的高速发展为用户提供了便捷而又丰富的社交网络服务。通过预测不同网络上的同一自然人,服务提供者可通过不同社交网络同一用户的差异化信息有针对性提供定制化服务,因此跨平台用户对齐是一个有效的解决方案。当前社交网络用户对齐算法不适用于噪声大、结构复杂的实际应用场景,限制了定制化服务的开展,影响了用户使用社交网络的服务体验。针对社交网络多模态数据特征利用不充分的问题,提出了融合多模态特征的跨平台用户对齐模型。模型基于多算法结合和关注信息量的多级注意力机制,通过同一模态不同类型数据、不同模态数据特征的融合,提高了用户特征表示精度,进而实现了用户对齐。对比实验和缺省实验表明,该模型的用户对齐识别命中率在多模态场景下具有较好表现。针对兴趣相同立场不同用户错误识别的问题,提出了融合立场特征的用户对齐模型。模型从用户文本数据中抽取用户的兴趣主题,通过立场检测算法得到用户兴趣主题的立场分布。设计并执行冲突用户检测算法,降低了兴趣相同立场不同用户的错误识别率。实验表明,结合应用融合多模态特征的跨平台用户对齐模型,可进一步提高对齐模型的命中率。为验证所设计模型的有效性和可用性,设计实现了融合多模态特征的跨平台用户对齐系统。系统测试结果表明,系统功能满足应用需求。

多模态特征融合的视频记忆度预测研究

这是一篇关于视频记忆度,文本特征,深度视觉特征,光流特征,多模态特征融合的论文, 主要内容为随着网络视频的爆炸式增长,各种各样的视频出现在互联网共享平台。有研究表明人类对所观看视频的记忆程度并不一样,一些视频可以被记住很长时间,而另一些视频转瞬即忘。视频记忆度是衡量一个视频令人难忘程度的指标,设计自动预测视频记忆度的计算模型有广泛的应用前景。因此如何有效地预测视频的记忆度是本文研究的主要内容。记忆度是图像的固有属性,人类在记忆上有共同的喜好。与图像不同的是,视频是图像、声音、文字、运动信息等维度的综合表现形式,传达了更丰富的媒体内容,因此视频记忆度预测任务受到了更多因素的影响。由于单模态的预测模型无法全面地描述视频的记忆度,导致实际应用中视频的记忆度预测性能不佳。因此本文以视频为研究对象,探索了视频的文本标题、图像深度、运动信息等维度的特征对视频记忆度的影响。构建有效的视频记忆度预测模型来提高视频记忆度的预测性能是本文的主要工作,具体的研究内容如下:(1)为了研究视频标题和图像深度信息对视频记忆度的影响,提出了一个融合文本和深度视觉特征的视频记忆度预测模型。首先利用TF-IDF算法从视频的描述性标题中提取文本特征,并给予对视频记忆度有影响的单词一定的权重。其次对视频进行分帧预处理,利用深度估计模型提取深度图作为视频的深度信息,利用预训练的Res Net-152网络来提取视觉特征,并利用深度图数据集微调Res Net-152网络模型来提取深度特征,将深度特征和视觉特征进行拼接得到深度视觉特征。然后将文本特征和深度视觉特征分别使用回归算法来预测视频记忆度分数,利用晚融合中的加权平均法进行模态融合。最后在公开的数据集上进行相关方法的对比实验,在短期和长期记忆度预测任务中分别达到了0.547和0.260的Spearman秩相关性,证明了模型的有效性。(2)为了解决现有的视频记忆度预测模型无法很好的描述运动信息对视频记忆度的影响,进一步提高视频记忆度的预测效果,在现有的融合文本和深度视觉特征的视频记忆度预测模型中添加了运动特征维度,通过光流的形式进行运动信息的描述,进而提出了一个融合文本、图像深度和光流信息的多模态视频记忆度预测模型。首先利用光流估计模型来提取光流图,并利用光流图数据集微调Res Net-152网络模型来提取光流特征,然后将三个维度的特征在单模态下利用回归算法来预测视频记忆度分数,最后对三种模态的记忆度分数进行晚融合处理,在公开的数据集上开展了一系列对比实验,在短期和长期记忆度预测任务中分别达到了0.567和0.272的Spearman秩相关性,证明了多模态特征融合方法在视频记忆度预测任务中的提升效果。(3)将本文提出的多模态特征融合的视频记忆度预测模型应用于某企业的网络编码推流器,进行广告记忆度的预测。对广告记忆度预测模块进行了分析与设计,以手机广告为例进行了视频记忆度预测实验,并对实验结果进行了分析,证明了本文提出的模型可以有效预测不同广告的记忆度。

融合多模态特征的跨平台用户对齐系统设计与实现

基于深度学习的多指灵巧手抓取稳定性分类算法研究

这是一篇关于多指灵巧手,抓取稳定性分类,深度学习,LSTM,多模态特征融合的论文, 主要内容为随着智能机器人在生产和生活中日益普及,社会对机器人与环境交互的能力也提出了更高的要求,机器人在各种环境下的稳定抓取能力是实现其他精细操作的基础,利用触觉反馈信息对机器人多指灵巧手抓取物体的稳定性进行分类识别,具有重要的研究意义。然而,对于触觉时间序列分类任务,传统的分类算法没有考虑不同时刻数据之间的潜在关系,导致分类效果不理想,如何充分提取触觉时序信息来提升抓取稳定性分类的效果,具有很大的挑战性。本文在完成触觉数据预处理的基础上,设计实现了基于长短期记忆网络(Long Short-Term Memory,LSTM)的多指灵巧手抓取稳定性分类改进算法,研究实现了基于图神经网络的抓取稳定性分类算法,重点设计实现了基于深度学习的多模态特征融合抓取稳定性分类算法,最后完成了多指灵巧手抓取稳定性识别系统的设计实现。本文完成的主要工作有:(1)提出了一种基于LSTM的多指灵巧手抓取稳定性分类改进算法。通过滑动窗口对触觉数据进行分帧,使用LSTM网络对数据进行特征提取,并通过残差自注意力机制为输出添加注意力权重,得到了一种改进的LSTM分类模型,完成了在不同网络结构和超参数条件下的实验结果对比分析,实现了对多指灵巧手抓取稳定性的分类。(2)研究实现了基于图神经网络的多指灵巧手抓取稳定性分类算法。根据电极在传感器上的实际位置将电极值信号转换为图数据,研究了图卷积网络和图注意力网络在不同图结构下的抓取稳定性分类效果,完成了在不同激活函数下的实验结果对比分析。(3)提出了一种基于深度学习的多模态特征融合抓取稳定性分类算法。针对单模态触觉数据所提供信息不足的问题,设计了一种能够将多种模态的数据进行融合的分类模型,使用自编码器对压力、温度和电极值向量进行特征学习和压缩,通过隐藏层向量拼接实现对多模态数据的特征级融合,完成了对多指灵巧手抓取稳定性的分类,有效提高了分类的准确率。(4)设计实现了多指灵巧手抓取稳定性识别系统。对系统功能进行了总体设计,在多模态特征融合分类算法的基础上,设计了稳定性识别模块和分类模型训练模块,搭建了可交互的用户界面,完成了对系统的功能测试。

基于深度学习的多指灵巧手抓取稳定性分类算法研究

多模态视频异常事件检测系统的设计与实现

这是一篇关于智能视频监控,视频异常事件检测,多模态特征融合,双流网络,微服务的论文, 主要内容为面对现实生活中不断涌现的各类安全威胁和突发情况,视频监控系统在公共安全、态势检测、交通路况、市政管理等方面发挥着重要作用。然而,当前社会治安形势日趋复杂,干扰公共秩序、威胁公共安全的异常事件时有发生,同时快速增长的视频监控设备产生的海量视频数据也给监控系统带来了巨大压力,传统的异常事件检测算法以及视频监控系统已经难以满足现实需求,发展基于计算机视觉方法的智能异常事件检测技术,构建基于新兴软件架构的高可靠、高性能视频事件检测系统,对于降低人力物力成本、维系社会公共安全具有重要意义和作用。视频作为一种包含多种模态特征的高维时间序列数据,包含了场景中目标行为的时空信息,可以被解析为图像以及随时序产生的光流图像,因此仅依靠视频中的单一模态特征进行事件检测的方法具有很大的局限性。针对传统视频异常事件检测算法准确率低、鲁棒性差等问题,本文提出了一种基于双流残差网络的视频异常事件检测算法,该算法通过深层残差网络分别提取监控视频中的图像特征和光流特征,通过单帧图像表达场景中目标的空间信息,通过多帧光流图像表达目标的运动信息和时序行为,然后在网络的中间层采用卷积融合方法将高维时空特征进行融合,充分挖掘视频中的时空关联关系,并得到最终检测结果。在公开的UCF-Crime和XD-Violence数据集上训练和验证的实验结果表明,本文提出的基于双流残差网络的视频异常事件检测算法与仅使用单模态数据的方法以及传统双流网络相比,具有明显的优势。针对传统视频异常事件检测系统架构简单、可扩展性和灵活性较差等问题,本文设计实现了一种基于微服务架构的视频异常事件检测系统,首先详细分析了系统业务需求和用户使用场景,明确了系统功能及微服务架构需求;接着探讨了系统业务流程和系统边界,合理划分系统服务和功能模块;最后详细阐述了系统设计与实现过程,并介绍了各微服务组件在系统中的使用情况。最后,本文对设计实现的视频事件检测系统进行了充分的功能测试和性能测试,测试结果证实了事件检测系统能够按需伸缩和灵活扩展,能够采集并管理各类监控设备的监控数据,支持异常事件检测算法的灵活接入,具备即时异常告警能力,满足智能监控功能与性能需求。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码客栈，原文地址：https://m.bishedaima.com/lunwen/48670.html