7个研究背景和意义示例,教你写计算机语音合成论文

今天分享的是关于语音合成的7篇计算机毕业论文范文, 如果你的论文涉及到语音合成等主题,本文能够帮助到你

傣语文语转换系统开发

这是一篇关于傣语,语音合成,文本分析,声学模型,Web应用的论文, 主要内容为随着移动互联网、云计算和大数据的发展,越来越多的科技产品都带有人工智能的特性,语音合成作为人机交互中的一个重要环节,也获得了迅猛发展的机会。语音合成的过程就是计算机将信息从文本形式转换为语音形式的过程。这其中包含了从输入文本到语音信号的各种计算。要满足这些计算需求,文语转换系统必须具备抽象语言学分析、语音编码等众多复杂功能。到现在为止,语音合成主要针对中文、英语等常用的语言,而在民族语言领域的研究相对缺乏。本文以西双版纳傣语作为研究语言,研究傣语的文本分析和语音合成方法,设计并实现了傣语文语转换系统。论文的主要工作包括:1.研究了西双版纳傣语的文本分析与处理方法,并从开发的角度实现了傣语文语转换系统中的前端文本分析与处理功能。文本分析与处理主要包括文本归一化、分词和文本罗马化。2.构建可训练的傣语声学模型训练系统。介绍了基于隐马尔可夫模型的语音合成的基本原理,在此基础上研究了傣语的声学模型训练方法。着重介绍了在模型训练过程中声学参数的提取及校对。最后在Cygwin平台上,利用HTS-2.0完成整个声学模型的训练,并基于STRAIGHT合成器进行傣语语音合成的实验。3.实现傣语文语转换系统。根据前期的研究结果,利用Spring Web MVC框架,开发了一个可以实现集内文语转换的Web应用。在这个过程中,需要把前端文本分析与处理的功能和语音合成的功能都集成进去。本文最后的实验结果表明,文本分析与处理模块基本满足傣语文语转换系统中对文本归一化和罗马化的要求;训练出来的声学模型也可以合成出准确度很好、自然度有待提高的傣语语音。

傣语文语转换系统开发

基于语音输入与播报的盲人智能系统设计

这是一篇关于语音识别,语音合成,定位,Android的论文, 主要内容为视觉是人们接触世界、感知世界最重要的感觉器官,对盲人来说,视觉问题是阻挡他们探索未知世界的重要障碍,特别是独自出行时,身处陌生环境的焦虑感会在一定程度上带给他们难以言说的恐慌。现有的城市盲道一方面由于规划的原因,另一方面由于人为的破坏,带给盲人的信息非常有限,并且由于随意堆砌,甚至可能会给盲人带来危险。当今,随着智能手机的普及,一些智能化的导航软件相继出现,诸如百度地图、高德地图等手机地图类软件受到人们的欢迎。但是这些软件在设计时,也只是为视觉正常的人考虑,盲人对导航播报的某某路毫无概念,也就对导航的路线无所适从。基于以上问题,本课题结合互联网技术、GPS技术、语音识别与合成技术、超声波检测技术,提出基于语音输入与播报的盲人智能系统设计,是为解决盲人出行不知所处位置的问题,设计的具有语音播报功能的Android客户端定位软件。系统除具有定位功能,同时还有语音拨打电话、语音朗读和发送短信、语音播报来电号码等功能。在本课题的设计过程中,主要包括以下几个内容:首先,详细的分析了智能化盲人辅助工具在国内外的发展现状,论述了目前主流盲人辅助工具的优点及不足,然后对基于语音输入与播报的盲人智能系统所涉及到的技术进行了详细的分析,研究了GPS技术的概念和特点并分析了GPS的定位原理,接着研究了超声波测距模块,该模块的主要功能就是探测障碍物的距离并语音播报,继而阐述了Android系统的特点并说明选择Android操作系统作为开发平台的原因,接着研究了系统设计所需要的语音识别与语音合成技术,最后分析了用于客户端与服务器通信的Socket技术。系统的硬件设计包括两部分,第一部分是GPS数据的采集和处理阶段,首先通过以SIM868为核心的GPS接收机进行定位数据的获取,接着通过C语言编程实现有关经纬度信息的提取;第二部分是超声波测距模块的设计,课题通过超声波发射器SE05-40T与超声波接收器SE05-40R的配对使用发射和接收超声波,然后通过单片机AT89C51来计算发射和接收到超声波的时间差,从而得出障碍物和测距探头的距离,进而语音播报出来,以便盲人提前避开障碍物。系统的软件设计包括两部分,第一部分是系统服务器的搭建,此阶段首先要对第一阶段中通过C编程提取出来的GPS数据进行存储和分析,从而将相关的经纬度信息与具体的地理位置信息对应起来,同时该阶段还需要完成网页的设计,从而盲人的监护人可以实时地在网站上查看盲人的当前定位,并根据盲人的前进轨迹和行动速度推断盲人是否安全;第二部分是客户端的设计,客户端要将当前手机所处位置的经纬度信息实时上传到服务器,服务器在数据库查找相应的地理位置信息,从而将具体的值回传给客户端,客户端收到该值就以语音的形式播报出来,这样盲人就可以知晓自己当前的定位。客户端支持语音唤醒功能,以方便盲人通过语音指令直接打开客户端。为优化盲人使用智能手机的体验,方便盲人在行进时遇意外情况与家人通话、发短信求助,客户端增加语音播报来电号码、语音拨打电话、语音朗读短信、语音发送短信功能。针对基于语音输入与播报的盲人智能系统的整体设计,分析服务器和客户端所应具备的功能,明确应向盲人提供怎样的服务,使得盲人通过嘴巴和耳朵就能实现对智能手机的控制。系统在设计过程中,GPS定位数据的提取和超声波模块的设计主要通过C语言实现,服务器端GPS数据的存储和分析及客户端的设计由Java实现,其中客户端的搭建平台选择谷歌公司推出的开发环境Android Studio,服务器端的开发在MyEclipse平台下完成,并且搭建了Spring+MyBatis+Structs的网页开发框架,同时客户端和服务器都遵循了MVC(Model,View,Controller)的设计模式。在有限的外部资源下,通过对系统理论的研究以及具体方案的设计,以成都理工大学校内的道路及建筑物为参照完成基于语音输入与播报的盲人智能系统设计,并且通过实地的仿真与测试,系统达成了预定目标。基于语音输入与播报的盲人智能系统设计满足了盲人实时了解自己所处位置的需求,并且盲人可以在客户端以语音的形式拨打电话或是发送短信,也可以通过语音得到来电人的信息及收到的短信内容,同时,盲人的监护人能够在网站及时了解盲人的去向。基于语音输入与播报的盲人智能系统在一定程度上优化了盲人使用智能手机的体验,也为他们的人身安全提供了一定的保证。

基于语音输入与播报的盲人智能系统设计

个性化语音客服系统设计与实现

这是一篇关于语音合成,多轮对话,声码器,深度学习的论文, 主要内容为智能语音客服是如今机器学习和人工智能算法研究的重点,对于企业来说是节省人力回答高频重复性问题的必须,对于个人来说也希望有拟人化的智能客服快速地解决实际问题,而如今的客服系统还存在语义理解不足、多轮对话能力欠缺,语音对话不够拟人个性化等问题。本文设计了基于Rasa、React、Tacotron2、MelGAN等框架模型的个性化智能语音客服系统,解决了单轮对话回复不精准,多轮对话重要信息丢失,语音回复个性化能力弱等关键问题,完成点餐这个垂直领域的多轮对话基本服务逻辑,而且能使用特色人声完成个性化的语音服务,本文主要包含五个大模块,分别为前端交互模块、后端中转请求处理模块、Rasa NLU语义理解模块、对话管理模块和语音合成模块。1.前端交互模块使用React框架中最新的前端函数式组件技术React Hooks,在耦合度和扩展性上都能达到很好的效果,在用户呈现上达到流畅、简洁和易使用的要求,同时也使用Ts编程语言规范编写格式,实现了智能客服机器人的交互界面,完成了文本输入、语音输入和转换文字、文本输出显示、语音输出显示、音色输出选择等主要功能。2.后端中转请求模块采用了轻量级的Python异步协程包Aiohttp构建,负责接收前端的文本输入数据,并将数据信息与Rasa的NLU部分以及对话管理部分进行交互得到文本的回复输出,再与语音合成模块进行交互将文本的输出回复转换为语音波形的输出,最后将信息返回给前端模块。整体作为核心中转模块连接其他各个模块,在设计上足够轻巧和易于扩展。3.Rasa NLU模块负责单个句子的实体提取和意图识别,是语义理解的关键模块,采用了 Pipeline的构建方式将功能分层,包含了分词器、中文词向量转换、实体提取器、意图识别器等多个部分,利用机器学习方法训练了高准确度的实体提取器模型和意图识别模型,并配合同义词提取和正则化提取来优化实体提取,利用Spacy中文词向量模型优化了中文分词和中文的向量化。同时采用了时间前回溯策略增加了本轮对话的信息量,包含了前几轮对话的信息后大大提高了实体提取和意图识别的准确度,采用数据增强策略解决了训练语料不足的问题,采用动作选择策略实现了低置信度下的问题回滚,使问答更加流畅。4.对话管理模块是实现多轮对话的核心模块,本文搭建了 Action服务器用于对话的逻辑处理,与Rasa NLU模块紧密配合使用插槽管理对话上下文的关键信息,使用知识图谱管理基本的实体信息,并对中文数字提取为阿拉伯数字进行了专门优化,针对未知关键信息具备一定程度的推导能力,配合回复模板能生成拟人化的准确回复。5.语音合成模块包含语音合成模型Tacotron2、声码器模型MelGAN、格林算法和声码器模型WaveFlow,结合语音克隆技术对语音合成模型编码器部分进行了改造,解决了大量单人语音语料搜集的困难,以多人语音训练的语音模型为基础,只用较少单人语音数据通过迁移训练就得到了特殊音色的语音模型。本文自训练了声码器模型部分通过比较分析选择最优方案,最终方案同时满足了生成语音质量好和生成耗时低的要求。本人独立完成了该系统所有模块的设计和实现,数据集上使用了部分开源数据集,搜集了周星驰语音数据和自录音了本人音频数据作为语音数据,点餐文本对话数据也由本人直接模拟生成。系统整体达到了目标要求,并最终通过功能测试和性能测试验证了系统的核心功能以及交互的实时性和系统稳定性。

基于端到端的马来语语音合成技术研究

这是一篇关于语音合成,Tacotron2,CTC识别器,MelGAN声码器,FastSpeech2的论文, 主要内容为语音合成是通过电子或机械的方法将文字转化为语音的技术,在智能手机、智能音箱等设备中得到广泛的应用。语音合成也是人机交互关键技术之一。随着经济全球化,人们对合成的马来语语音要求逐渐提高,合成语音质量不高、发音漏词、错词以及合成速度慢等问题有待解决。本文的研究内容如下:(1)针对Tacotron2的马来语语音合成中错词、漏词和合成速度慢的问题,提出了一种基于Tacotron2改进的自回归式马来语语音合成模型。采用CTC识别器模块去提高预测声学特征与文本信息之间的依存关系,缓解局部信息偏好的问题,并引入计划采样、多帧预测等方法提高声学模型的鲁棒性,同时使用Mel GAN声码器提高语音的合成速度。实验结果表明:改进的Tacotron2模型的发音错误率从原始的11%降低至5%。客观评价梅尔倒谱失真为6.03分,主观评测得分为4.26分,在系统性能评价中,合成速度提高了1865倍,RTF值提高了210倍。(2)针对典型自回归式模型的误差累积可能导致稳定性不高的问题,设计了一种基于Fast Speech2改进的非自回归式声学建模方法。为了解决Fast Speech2模型合成语音不流畅问题,提出了可学习的上采样策略,让模型自身学习音素与梅尔频谱帧之间的衔接关系,并引入Soft DTW函数作为频谱的重建损失函数,让模型更快的收敛。实验结果表明:基于Fast Speech2改进的声学建模方法,梅尔倒谱失真低至5.79,证明了生成的梅尔频谱特征优于Tacotron2和Fast Speech2模型。MOS主观评测中得分4.48,与真实录音相比仅相差0.17,进一步提升了马来语语音合成效果。(3)基于上述研究,设计并实现了马来语语音合成原型系统。本文采用B/S架构,使用Django框架设计并构建了马来语文本正则化、长句子切分和语音合成三个模块,实现马来语语音合成原型系统。并对原型系统进行了功能性测试和压力测试。实验结果表明:马来语文本正则化等三个模块功能均可正常运作,合成的语音自然度高,合成语音与真人发声的相似度达95%以上。

嵌入式盲人阅读器系统设计与开发

这是一篇关于盲人阅读,汉字识别,DVS6446,QT/Embedded,语音合成的论文, 主要内容为人们日常生活中接触到的多数信息都以图像的形式进行传递,盲人以及视力障碍人士由于视力缺陷在没有正常人帮助下根本无法获取这些信息,这很大程度上限制了盲人认知世界的机会。盲人阅读器是一款融合了光学字符识别(OCR)和语音合成(TTS)技术、实现图像文字到语音转换的设备,能帮助盲人自由获取纸质以及电子版文字信息。本文所实现的盲人阅读器系统使用QT进行界面编写,可分为以下模块：(1) 视频图像采集与预处理模块。该模块主要完成摄像头视频待识别文档的采集以及包括灰度化、二值化、去噪、版面分析、倾斜校正、字符切分等的图像预处理。本文通过比较分析,选取了合适的算法,取得了良好的实验效果。该模块是整个盲人阅读器系统的基础,其性能稳定与否直接关系到系统识别率的高低。(2) 文本识别模块。该模块由字符预处理、特征提取和文本识别组成,是整个系统的核心。本文介绍了细化和归一化字符预处理算法,并详细介绍了汉字识别中常用的几种汉字特征提取过程。考虑到汉字数量巨大,属于超大类别模式识别,本文利用汉字各种特征的互补性,采取了多级粗分类和细分类相结合的多特征多分类器汉字识别方法,粗分类缩小了待匹配字符范围,有效减少了计算量,细分类利用多种特征进行联合判别,汉字识别准确率得到很大提升。(3) 语音播报模块。针对软件使用环境的不同,本文实现了基于Microsoft SpeechSDK、科大讯飞MSP、自制语音库三种语音播报方法,都取得了较好效果,其中自制语音库语音播报适用于各种平台,但语音不够流畅,且占据较大存储空间。此外,为增加软件的交互性,Windows下软件中添加了语音识别模块,方便盲人通过语音的方式使用软件。结果表明,软件系统智能友好地完成了盲人阅读基本功能,对印刷体中文文档识别准确率达到99.67%,达到了软件设计要求。本文中实现了盲人阅读器系统的嵌入式开发,选用合众达DVS6446为硬件平台,QT/Embedded为嵌入式图形界面开发工具(主要为方便调试引入)。本文完成了嵌入式Linux开发环境的搭建过程,包括搭建交叉编译环境、内核的配置与移植、QT/Embedded移植等。通过交叉编译嵌入式盲人阅读器应用程序,得到可执行文件,利用挂载网络文件系统NFS方式实现了程序在目标平台的运行,经过反复调试,该系统能够完成盲人阅读功能日运行良好。

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：毕设小屋，原文地址：https://m.bishedaima.com/lunwen/50706.html