推荐5篇关于说话人识别的计算机专业论文

今天分享的是关于说话人识别的5篇计算机毕业论文范文, 如果你的论文涉及到说话人识别等主题,本文能够帮助到你 面向终端的轻量化说话人识别技术研究 这是一篇关于说话人识别

今天分享的是关于说话人识别的5篇计算机毕业论文范文, 如果你的论文涉及到说话人识别等主题,本文能够帮助到你

面向终端的轻量化说话人识别技术研究

这是一篇关于说话人识别,残差网络,多尺度特征,后端注意力输出模块,轻量化模型的论文, 主要内容为说话人识别是生物身份识别中最重要的技术之一,在电子设备加解密、线上支付、智能家居、国防军事等领域有着广泛的应用前景。当今基于语音的身份验证技术凭借其便捷、安全的特点已经走进千家万户,个人身份信息和财产安全与其紧密相连。面向终端应用的高准确率、轻量化说话人识别技术是说话人识别迅速推广的关键,因此进一步提高说话人识别系统的准确率、降低算法模型参数和计算量具有现实意义。本文基于残差网络,设计了一种高准确率说话人识别模型。在语音活动性检测和语音信号预处理后使用基于梅尔频率的滤波器组的输出及其二阶差分作为模型的输入,使用特征压缩网络对特征进行压缩和初步提取。该模型基于尺度重排模型Spine Net和高效通道注意力机制ECA模块,搭建了一种SPNN-ECA(Scale-Permuted Neural Network with Efficient Channel Attention)网络结构。基线模型Res Net属于单尺度特征网络,残差块顺次连接且尺度层级单调递增,在模型的前向计算过程中会丢失部分特征信息。而Spine Net允许残差块跨尺度层级连接,同时允许尺度层级随时减小或增大,从而提供了丰富的粗粒度层级多尺度特征。同时针对Spine Net设计了基于挤压和激励通道注意力机制SE模块的后端注意力输出模块,该模块可以进一步突出特征中包含的有效信息,提高说话人识别系统的性能表现。本文设计了一种基于BPSA-SP2NN-ECA(Res2Net based SPNN-ECA with Backend Pyramid Squeeze Attention)的说话人识别轻量化模型,轻量化是指降低算法模型参数量和计算量,从而增强模型的适用性。该模型通过减少卷积通道数量,降低模型参数数量;设计了基于金字塔挤压注意力机制的轻量化后端注意力输出模块,使用自适应最大池化层取代了注意力统计池化层,进一步减小了模型参数数量,同时对轻量化说话人识别系统性能有一定程度提升。在SPNNECA基础上引入了Res2Net结构,使模型同时具有了粗、细两个粒度层级的多尺度特征提取能力,提高了轻量化模型性能。本文使用了开源普通话AISHELL语音语料库构建训练集、测试集和验证集。实验结果表明,本文提出的说话人识别模型SPNN-ECA的等错误率为0.2032%,相较于基线模型Res Net34下降了22.1%,该模型进一步提高了说话人识别系统的准确率,同时为基于残差网络的说话人识别模型提供了一种改进思路。本文提出的轻量化说话人识别模型BPSA-SP2NN-ECA的等错误率为0.6781%,相较于SPNN-ECA有小幅度增加;参数数量仅为2MB,相较于SPNNECA减少了93.1%,该模型显著提高了说话人识别系统的轻量化性,同时可以方便的部署到小型终端,为说话人识别的实际应用提供了一种方案。

说话人识别系统的硬件设计及相关软件实现

这是一篇关于生物识别,说话人识别,矢量量化,DSP,CPLD,FFT的论文, 主要内容为本论文介绍了生物识别技术的发展和基于VQ法的说话人识别算法,并设计和构建了基于DSP的说话人识时识别系统,实现了说话人的识时识别,该系统已初步应用到楼宇单元门语音控制锁的系统中,它是生物特征中的语音信号在现代门禁系统中的应用。 生物识别技术是指通过计算机利用人类自身生理或行为特征进行自动身份认定的一种技术。生物特征是指具有惟一性和稳定性、可供测量、可用于自动识别和验证的生理特性或行为方式。研究表明,人的指纹、掌纹、面孔、发音、虹膜、视网膜、骨架等都具有惟一性和稳定性的特征,可以据此识别出人的身份。基于这些特征,人们已经发展了手形识别、指纹识别、面像识别、说话人识别、虹膜识别、签名识别等多种生物识别技术。到目前为止,美国基于生物特征识别的身份鉴定产业规模已经达到数十亿美元。其他一些国家也采用法律规定的方式来使用生物识别技术。总体上来说,生物识别技术已经进入了实际的政府和商业应用,其主要应用领域包括:机场旅客控制、政府部门、门禁和考勤、法律执行、消费者管理系统、金融管理服务系统、计算机登录管理、医疗保健系统等。? 本论文所要研究的说话人识别系统是楼宇单元门语音控制锁的实验系统,它就是生物特征中的语音信号在现代门禁系统中的应用。人的声音具有唯一性,依靠声音来识别准确可靠。楼宇单元门语音控制锁与已有的门锁技术相比,具有价格便宜,使用方便,可维护性强,卫生状况好等优点,使其在与同类型其他产品的竞争中更具有广阔的市场潜力。 本文的主要工作及其内容安排归纳如下: 全文共分六章。 介绍了生物识别技术的历史概况与现状,分析了说话人识别技术在楼宇单元门系统中的应用优势,提出本文的研究内容及主要工作。 介绍了说话人识别的主要方法,重点分析了基于VQ法的说 话人识别算法,提出了基于该算法的说话人识别系统对硬件和软件的要求。 设计楼宇单元门语音锁控制器,组建了以TMS320VC5402 DSP为核心处理电路的说话人识别系统算法处理单元。 设计楼宇单元门语音锁管理器和门锁控制系统,系统用户可以通过该管理器完成对系统的管理操作。 完成说话人识别系统相关软件设计,提出了一种新的DSP与PC机通信的设计方案。 对全文进行总结,指出今后的工作和待研究的方向。 本文的主要贡献在于: (1) 对生物识别技术的发展进行了概述,比较了几种主要生物识别技术的特点,并指出说话人识别技术在现代门禁系统中的潜在应用价值。 (2) 组建了以TMS320VC5402 DSP为核心的楼宇单元门语音锁控制器和楼宇单元门语音锁管理器,完成了基于VQ说话人识别算法的硬件实现,同时采用控制器与管理器的分体式设计,满足了楼宇住户对正常使用和住宅小区集中管理的要求,。 (3) 完成说话人识别系统相关软件设计,实现了实数FFT算法的DSP设计,并提出了一种新的DSP与PC机通信的设计方案。 (4) 完成了楼宇单元门语音控制锁的实验系统设计,为以后楼宇单元门语音控制锁的商品化奠定了基础。并且该硬件平台包含DSP系统设计的一些方面知识,可以为设计者设计其它DSP系统提供一定价值的参考。 同时本文对组建楼宇单元门语音控制锁的几个待解决的问题有一定的启发性作用: (1) 寻找更有实用价值、更适合DSP实现的算法。 (2) 进一步完善系统的硬件系统设计,优化基于说话人识别算法的软件设计,提高整个系统的性能。

基于Res2Net的说话人识别研究

这是一篇关于说话人识别,深度学习,Res2Net,通道门控,特征融合的论文, 主要内容为随着社会的进步和信息技术的快速发展,人们对于安全性和可靠性的要求越来越高,促使身份认证技术的需求不断增长。生物认证技术已逐渐取代传统的身份认证技术。说话人识别技术作为生物认证技术的一种,与面部识别、指纹识别等生物认证技术相比,具有无接触性、操作便捷和成本较低的优势,在社保认证、刑侦探案、金融等领域得到了大力推广,应用前景十分可观。基于Res2Net的说话人识别技术,已取得一定的效果,但仍存在一些不足需要改进,其中包括:(1)未对说话人特征通道信息分配权重,导致说话人特征辨识力较弱;(2)在Res2Net残差模块中,特征向量仅在相邻特征组之间传递、特征融合采用简单相加操作,导致未充分挖掘身份信息,模型准确率有待进一步提高。本文针对上述基于Res2Net的说话人识别技术中存在的问题展开研究,主要研究内容如下:(1)针对说话人特征通道信息对声纹特征辨识力的影响,提出一种基于通道门控Res2Net的说话人识别模型。首先,该模型将前端所提取的梅尔倒谱系数(Mel-frequency Cepstrum Coefficient,MFCC)声学特征输入到Res2Net网络中;其次采用提出的通道门控对说话人特征中重要通道和相对无用的通道分别赋予较高和较低的权重;最后采用多头注意力池化,对序列中关键的帧级特征赋予较大的权重,以生成更具有辨识性的话语级说话人特征。(2)针对Res2Net网络特征向量仅在相邻特征组之间传递、特征融合采用简单相加操作,导致潜在身份信息挖掘不充分的问题,提出一种基于DS-AFF-Res2Net的说话人识别模型。该模型首先在残差网络中采用密集连接,通过密集连接使Res2Net的输出得到多种感受野大小的组合,从而获得多种不同尺度组合的说话人特征表达;其次引入基于注意力机制的特征融合代替密集连接Res2Net网络中相加的操作,对不同特征采用动态加权融合;最后采用Double MHA池化,为每个头部捕获的声纹信息分配权重增强池化操作,所有头部上的信息进行线性组合生成话语级说话人特征。在说话人识别技术VoxCeleb1测试集验证了第3章提出的基于通道门控Res2Net说话人识别的有效性,CG-Res2Net的EER和min DCF两个评价指标优于Res2Net,相较于Res Net网络,EER和min DCF分别提升38.05%和17.95%。相较于SE-Res2Net网络,EER和min DCF分别提升了17.6%和4.48%;相较于CNN+Transformer、G-SA&C-SA+Transfroemer两个网络,EER分别提升了45.5%和28.9%。在说话人识别VoxCeleb1测试集验证了第4章提出的DS-AFF-Res2Net模型的有效性,对比DS-AFF-Res2Net和Res Net、Res Net160+AAM模型,EER分别提升42.7%和1.5%,对比DS-AFF-Res2Net和基线网络Res2Net和SE-Res2Net可以得出,密集连接和基于注意力机制的特征融合模块具有较好的效果,EER分别提升26.7%和23.8%,对比DS-AFF-Res2Net网络与CG-Res2Net网络,EER提升了7.5%。

面向终端的轻量化说话人识别技术研究

这是一篇关于说话人识别,残差网络,多尺度特征,后端注意力输出模块,轻量化模型的论文, 主要内容为说话人识别是生物身份识别中最重要的技术之一,在电子设备加解密、线上支付、智能家居、国防军事等领域有着广泛的应用前景。当今基于语音的身份验证技术凭借其便捷、安全的特点已经走进千家万户,个人身份信息和财产安全与其紧密相连。面向终端应用的高准确率、轻量化说话人识别技术是说话人识别迅速推广的关键,因此进一步提高说话人识别系统的准确率、降低算法模型参数和计算量具有现实意义。本文基于残差网络,设计了一种高准确率说话人识别模型。在语音活动性检测和语音信号预处理后使用基于梅尔频率的滤波器组的输出及其二阶差分作为模型的输入,使用特征压缩网络对特征进行压缩和初步提取。该模型基于尺度重排模型Spine Net和高效通道注意力机制ECA模块,搭建了一种SPNN-ECA(Scale-Permuted Neural Network with Efficient Channel Attention)网络结构。基线模型Res Net属于单尺度特征网络,残差块顺次连接且尺度层级单调递增,在模型的前向计算过程中会丢失部分特征信息。而Spine Net允许残差块跨尺度层级连接,同时允许尺度层级随时减小或增大,从而提供了丰富的粗粒度层级多尺度特征。同时针对Spine Net设计了基于挤压和激励通道注意力机制SE模块的后端注意力输出模块,该模块可以进一步突出特征中包含的有效信息,提高说话人识别系统的性能表现。本文设计了一种基于BPSA-SP2NN-ECA(Res2Net based SPNN-ECA with Backend Pyramid Squeeze Attention)的说话人识别轻量化模型,轻量化是指降低算法模型参数量和计算量,从而增强模型的适用性。该模型通过减少卷积通道数量,降低模型参数数量;设计了基于金字塔挤压注意力机制的轻量化后端注意力输出模块,使用自适应最大池化层取代了注意力统计池化层,进一步减小了模型参数数量,同时对轻量化说话人识别系统性能有一定程度提升。在SPNNECA基础上引入了Res2Net结构,使模型同时具有了粗、细两个粒度层级的多尺度特征提取能力,提高了轻量化模型性能。本文使用了开源普通话AISHELL语音语料库构建训练集、测试集和验证集。实验结果表明,本文提出的说话人识别模型SPNN-ECA的等错误率为0.2032%,相较于基线模型Res Net34下降了22.1%,该模型进一步提高了说话人识别系统的准确率,同时为基于残差网络的说话人识别模型提供了一种改进思路。本文提出的轻量化说话人识别模型BPSA-SP2NN-ECA的等错误率为0.6781%,相较于SPNN-ECA有小幅度增加;参数数量仅为2MB,相较于SPNNECA减少了93.1%,该模型显著提高了说话人识别系统的轻量化性,同时可以方便的部署到小型终端,为说话人识别的实际应用提供了一种方案。

面向终端的轻量化说话人识别技术研究

这是一篇关于说话人识别,残差网络,多尺度特征,后端注意力输出模块,轻量化模型的论文, 主要内容为说话人识别是生物身份识别中最重要的技术之一,在电子设备加解密、线上支付、智能家居、国防军事等领域有着广泛的应用前景。当今基于语音的身份验证技术凭借其便捷、安全的特点已经走进千家万户,个人身份信息和财产安全与其紧密相连。面向终端应用的高准确率、轻量化说话人识别技术是说话人识别迅速推广的关键,因此进一步提高说话人识别系统的准确率、降低算法模型参数和计算量具有现实意义。本文基于残差网络,设计了一种高准确率说话人识别模型。在语音活动性检测和语音信号预处理后使用基于梅尔频率的滤波器组的输出及其二阶差分作为模型的输入,使用特征压缩网络对特征进行压缩和初步提取。该模型基于尺度重排模型Spine Net和高效通道注意力机制ECA模块,搭建了一种SPNN-ECA(Scale-Permuted Neural Network with Efficient Channel Attention)网络结构。基线模型Res Net属于单尺度特征网络,残差块顺次连接且尺度层级单调递增,在模型的前向计算过程中会丢失部分特征信息。而Spine Net允许残差块跨尺度层级连接,同时允许尺度层级随时减小或增大,从而提供了丰富的粗粒度层级多尺度特征。同时针对Spine Net设计了基于挤压和激励通道注意力机制SE模块的后端注意力输出模块,该模块可以进一步突出特征中包含的有效信息,提高说话人识别系统的性能表现。本文设计了一种基于BPSA-SP2NN-ECA(Res2Net based SPNN-ECA with Backend Pyramid Squeeze Attention)的说话人识别轻量化模型,轻量化是指降低算法模型参数量和计算量,从而增强模型的适用性。该模型通过减少卷积通道数量,降低模型参数数量;设计了基于金字塔挤压注意力机制的轻量化后端注意力输出模块,使用自适应最大池化层取代了注意力统计池化层,进一步减小了模型参数数量,同时对轻量化说话人识别系统性能有一定程度提升。在SPNNECA基础上引入了Res2Net结构,使模型同时具有了粗、细两个粒度层级的多尺度特征提取能力,提高了轻量化模型性能。本文使用了开源普通话AISHELL语音语料库构建训练集、测试集和验证集。实验结果表明,本文提出的说话人识别模型SPNN-ECA的等错误率为0.2032%,相较于基线模型Res Net34下降了22.1%,该模型进一步提高了说话人识别系统的准确率,同时为基于残差网络的说话人识别模型提供了一种改进思路。本文提出的轻量化说话人识别模型BPSA-SP2NN-ECA的等错误率为0.6781%,相较于SPNN-ECA有小幅度增加;参数数量仅为2MB,相较于SPNNECA减少了93.1%,该模型显著提高了说话人识别系统的轻量化性,同时可以方便的部署到小型终端,为说话人识别的实际应用提供了一种方案。

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设项目助手 ,原文地址:https://m.bishedaima.com/lunwen/54168.html

相关推荐

发表回复

登录后才能评论