一、文语转换系统中的韵律研究(论文文献综述)
曹盼[1](2020)在《融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究》文中研究说明语音信号中除了包含语义信息,还包含丰富的说话人身份和情感状态等信息。语音转换属于个性化语音生成的一个重要研究方向,旨在保持源语音语义信息不变,改变说话人的个性特征,使其具有目标语音的个性特征。语音转换在受损语音修复、影视配音、伪装/反伪装等领域有着广阔的应用前景。根据训练过程对语料的要求,可将语音转换划分为平行文本和非平行文本条件下的语音转换,在实际应用中,预先获取大量平行训练文本,不仅耗时耗力,而且在跨语种和医疗辅助系统中往往无法获取到平行文本,严重制约了语音转换在实际场景中的应用。因此,非平行文本下的语音转换研究具有更大的应用前景和现实意义,同时具有很大的挑战性,成为当前语音转换领域的研究热点与难点。一个理想的语音转换模型,既要保证转换后的目标说话人个性特征的准确性,同时又要兼顾转换后合成语音的音质。当前的语音转换,尤其是非平行文本条件下的语音转换,仍存在转换后的语音音质不理想和说话人个性相似度不高两大问题。鉴于此,本文基于星型生成对抗网络StarGAN的语音转换模型进行研究,针对上述两方面的问题进行了相应的探讨与改进工作。首先,为了提升转换语音的说话人个性相似度,本文提出融合x-vector嵌入的StarAGN语音转换方法。由于StarAGN模型通过传统编码中的one-hot来表征说话人身份,对转换语音的个性相似度提升有限。因此,本文在StarGAN模型的生成器解码阶段,引入含有丰富说话人个性信息的x-vector特征,与ont-hot标签互为辅助,前者为语音的合成提供丰富的说话人信息,后者作为精准的标签能准确区分不同说话人,两者相辅相成有效提升转换后语音的个性相似度,进一步实现高质量的语音转换。充分的主客观实验结果表明,转换后的语音平均MCD值较基准模型降低5.41%,MOS值提升6.64%,ABX值提升5.12%,验证了本文提出的方法能够显着提升说话人个性相似度,同时有助于改善合成语音的音质。其次,为了进一步改善转换后合成语音音质,本文提出一种基于SE-ResNet StarGAN的语音转换模型,针对基准模型StarGAN中存在的网络退化等问题,在生成器的编码和解码网络之间构建SE-ResNet网络,利用其引入注意力思想和门控机制对各通道的依赖性进行建模,通过全局信息学习每个特征通道的权重,并对特征进行逐通道调整,有选择性地加强包含有用信息的特征并抑制无用特征,从而进一步增强模型的表征能力,更好地提升模型对语音频谱的语义学习能力以及语音频谱的合成能力。充分的主客观实验结果表明,相比于基准模型,本文提出的方法转换后的语音的平均MCD值降低7.82%,平均MOS提升11.89%,平均ABX提升3.35%,验证了本文提出的方法能够有效地改善语音音质,同时也有助于提高转换语音的个性相似度。进一步,本文还将x-vector融入到上述改进模型中,即将两个改进点结合在一起,提出了SE-R StarGAN-x的语音转换模型,充分的主客观实验结果表明,转换后的语音较基准模型平均MCD值降低9.53%,MOS值提升19.58%,ABX值提升8.66%,验证了本文提出的方法在语音音质和说话人个性相似度方面均有显着的提升,实现了非平行文本条件下高质量的多对多语音转换。
刘英男[2](2020)在《基于深度学习的梅尔声谱图预测方法的TTS实现》文中进行了进一步梳理语音合成是通过机械的、电子的等方式产生人造语音的技术,在当今人工智能发展的浪潮中又表现出了新的高度。在语音合成的三个层次中,文语转换(Text-To-Speech,TTS)是现代主要发展研究的方向,其主要是采用文本文字叙述的表达方式通过一系列方法产生人类发出的声音。波形拼接法与统计参数法是两个在该领域比较流行的合成方法。这些方法都存在工作量大,合成的语音自然度低等缺陷。本论文围绕基于深度学习方法的预测语音合成所需的中间声学特征,旨在研究高效且生成语音质量较好的技术算法,后采用声码器的形式构建完整的合成系统。该TTS系统包含两个主要模块:文本到声学特征的预测模型块和将声学特征转换为语音的声码器模块。在TTS前端根据文本文字预测其对应的声学特征的研究中,本文以序列到序列(Sequence to Sequence,Seq2Seq)的深度学习网络模型为基础,采用更低层次的梅尔声谱图作为声学特征的表达形式,简化了Tacotron利用端到端模型预测生成梅尔声谱图的网络模型,利用卷积神经网络(Convolutional Neural Network,CNN)、注意力机制和循环神经网络(Recurrent Neural Network,RNN)的网络堆叠形式,在简化模型结构的同时,也将文字、词语、韵律等声学特征信息融合在一起,丰富了合成语音的细节。将前端预测生成的梅尔声谱图恢复成为语音时域波形的研究中,本文采用了WaveNet模型作为还原语音所需的后端声码器。因其自回归的深层网络的生成特性,预测速度慢,无法成为实时的语音合成工具被广为诟病,后又采用基于逆自回归流的并行WaveNet技术,其改进的独特之处是可以将声学特征快速转换为对应的语音时域波形,达到了实时的水准,提高了模型训练与加载的效率,输出语音的自然度更高。
左宇涛[3](2019)在《非平行文本条件下基于i-vector、VAE和GAN的多对多语音转换算法研究》文中研究表明语音转换是一种将源语音中的说话人身份转换为目标说话人身份,同时保留源语音语义信息的技术。作为一门交叉性较强的学科,语音转换技术目前已经在文语转换、通信保密、多媒体应用、医疗辅助和语言翻译等方面得到了重要应用,并且在其他领域展现出了广泛的应用前景。目前语音转换模型主要存在两个问题:一方面是转换后语音的个性相似度不高,另一方面则是转换后语音的音质不够理想。本文重点研究了基于变分自编码器和生成对抗网络的语音转换模型,并且针对上述两个问题进行了相应的探讨与改进。首先,为了实现更好的说话人个性相似度的语音转换,本文将身份向量i-vector应用在基于变分自编码器和生成对抗网络的语音转换模型中,利用i-vector可以表征说话人个性特征的特性提升了转换后语音的个性相似度。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了3.22%,平均MOS值提升了2.63%,平均ABX值提升了7.35%,说明本文提出的方法在提升说话人个性相似度的同时也改善了语音音质。其次,为了实现更好音质的语音转换,本文利用生成性能更好的相对生成对抗网络改进了基于变分自编码器和生成对抗网络的语音转换模型,改善了Wasserstein生成对抗网络训练困难等问题,从而提升了语音的音质。经主观和客观评价表明,本文提出的方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.36%,平均MOS提升了4.52%,平均ABX值提升了3.6%,说明本文提出的方法在提升语音音质的同时也改善了说话人个性相似度。此外,本文还将i-vector加入到上述方法中,经过主观和客观评价表明,该方法比基于变分自编码器和生成对抗网络的方法转换后的语音的平均MCD值降低了4.8%,平均MOS值提升了5.12%,平均ABX值提升了8.6%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。
王天琦[4](2019)在《基于IPv6的TTS语音云服务应用的研究与实现》文中研究说明近年来,随着物联网、云计算、大数据等技术的发展,TTS语音合成技术得到了广泛的应用,越来越多的人感受到了 TTS语音合成技术给人们带来的便利,基于IPv6协议下TTS语音云服务应用,也成为了人们对于跨平台TTS语音传输流音频标准的完善,响应时间效率的提高,IPv6协议下应用的扩展等的新的需求。因此,系统结合国内外研究现状,利用现有的成熟的TTS语音技术,开发了一套基于IPv6的TTS语音云服务系统,通过IPv6传输协议将其部署到云服务器上实现并行计算,对现有TTS服务涉及的问题进行研究,利用云服务机制在IPv6协议环境下通过相关线程池技术来解决作业调度的转换效率问题,通过测试页面展示达到的具体效果,可以满足用户对TTS语音服务页面播放的需求,为实现IPv6环境下为用户提供TTS云服务的推广做出贡献。本文主要对基于IPv6的TTS语音云服务系统进行了研究和设计实现,系统分为客户端和服务器端两个端口。客户端采用B/S的系统架构模式,以适应用户通过浏览器进行网页访问的需求,主要完成页面解析,HTML语言过滤,文本信息提取,在线语音播报等功能;服务器端则主要完成了语音任务和转换服务器在IPv4/IPv6协议下的开发及部署,并经过TTS文语转换技术的比较决定采用基于微软Speech SDK的TTS语音合成技术,以此来实现服务器端接收文本信息,任务分配调度,语音合成等功能。客户端与服务器端分工协作,既保证了系统整体性又提高了用户的体验。文章最后对本次研究开发的系统进行了测试,结果符合预期效果。
祖漪清,高丽,王祖燕,黄维,吴朗[5](2017)在《用语言复制的方法记录濒危语言——锡伯语案例》文中研究指明作者在文中提出了一种新的濒危语言记录方式——濒危语言的"复制"。语言复制指还原一个语言的全貌。通过技术手段向文语转换系统中输入任意文本后,可以获得这个语言的语音输出,从而实现复制该语言。在濒危语言锡伯语上进行的文语转换研究案例中,我们系统地建立了锡伯语标准口语的音素体系,完成了包括音变预测在内的文语转换系统,实现了将任意锡伯文输入文本转换成合成锡伯语语音。锡伯语的案例说明语言保护工程应该利用现代技术手段进行语言记录。
朱菁[6](2013)在《具有表现力的汉语文语转换》文中研究说明具有表现力的文语转换系统有着广阔的应用前景。本课题着重于研究韵律和语调对普通话语音表现力的影响以及这两者在汉语语音合成中的应用。其中,韵律特征主要从重音,停顿以及语速三方面进行描述。通常,一句话中着重强调的词语即是重音,语音合成时,重音可以通过增大语音的幅度和提高语音的基频实现控制。停顿则是指词间或句间的间歇,合成时,可以在语音参数的相应位置插入零值实现。语速是指朗读文本的速度,一般由说话者的个人风格以及文本思想内容共同决定,语速的调节分为减慢和加快,减慢是通过在语音参数一定的位置复制粘贴相邻帧的语音参数实现,加快则是通过删除特定帧参数实现。由于汉语是有调语言,所以语调对于汉语的语音合成也具有重要的意义。本课题研究的语调主要是指语句音高的变化,根据音高的不同走势,可将语调分为四种调型:升调,降调,平调以及曲折调。研究时,首先建立有调语音的语音库,然后采用STRAIGHT算法分析有调语音库的基音频率,再用多项式函数对归一化后的语音基频曲线进行拟合,建立每一种调型的基频模型。这里采用了三种方法进行语调建模:均值模型,单高斯模型以及混合高斯模型。通过建立的语调模型可以实现将一种语调转换成另一种语调。本系统中,语音合成模块也是采用STRAIGHT算法,对经过韵律及语调调整后的参数进行拼接合成。从实验结果来看,在汉语文语转换系统中,采用本课题提出的方法加入韵律和语调控制模块,可以灵活地调节语音的韵律特征,实现语调之间的转换,合成出的声音自然度较高,语音质量较好,明显地增强了语音的表现力。
景娟[7](2011)在《中文话费文语转换系统的研究与实现》文中指出旨在改变人机交互界面的文语转换技术(TTS)在许多领域的成功应用使得其潜在价值越来越大。随着研究的不断深入,这项技术已经走出实验室,开始慢的实现一些原本只能以梦想来描述的事情。针对当前国内三大电信运营商的人工服务台播报的话费语音存在明显的欠缺和不足,为了更好的提高播报话费语音的自然度和可懂度,增加人工服务台的友好性,论文对话费文本的文语转换技术进行了研究。论文首先研究了文语转换系统的基本结构,主要包括数据资源库、文本分析模块、韵律分析模块和语音合成模块四个部分。结合话费文本的特殊性,建立了以单音节语音作为基元的语料库;采用人民币小写到大写的转换算法实现文本的正规化;按照正向最大匹配算法,进行语音词的切分;在汉语声调规则的指导下,对待拼接的语音基元的声调进行了变调处理;重点研究了基音同步叠加算法(PSOLA),通过准确的基音标注,结合正常语音的时长特点,以基音周期为单位调整待合成语音的时长;针对待合成基元所处的呼吸群位置,对待合成语音的音强进行修改;在分析、比较了现有各种语音合成方法优缺点之后,论文最终采用波形拼接的方法,通过大量实验证明,在调整待拼接波形拼接点处的平滑长度为两个拼接基元中样点数较少者的1/9时,基本可以达到所有拼接的要求,合成高自然度的话费语音。仿真实验也表明,以单音节语音作为合成基元,采用PSOLA算法和基于时域的波形拼接平滑算法,可以得到自然、流畅的话费语音。此外,论文利用VC++和SQL Server数据库进行通信,在VC++平台上也初步地设计了中文话费文语转换系统的基本框架。仿真合成的语音与当前人工服务台的话费语音相比,合成语音的可懂度和清晰度都是令人满意的,自然度也得到了很大的提高。论文建立的小语料库的汉语文语转换系统,为通信行业更好的服务客户迈出了坚实的一步,提高了人机交互的能力。
傅雪[8](2011)在《基于SOM网络的语音基频模式提取研究》文中认为随着社会的发展,计算机与人们的生活已密不可分,如何才能方便地与计算机进行交流成为人们需要解决的一个重要问题。语言是人类最方便的交流方式,因此人们希望能够采用语言与计算机直接进行交流,也就是实现人机之间真正的语声通讯。作为这一要求的计算机自然语言输出部分,文语转换系统近几年来发展的非常迅速,涌现出了大量的新技术。韵律模型在文语转换系统中是必不可少的。它将文本分析和语音生成联系起来,起着一个重要的桥梁作用。好的韵律模型,使之能够更加贴近自然语言中的各种韵律现象,是高自然度文语转换系统中的重要组成部分。而基频模式的提取是研究韵律规则的基础。因此,本文对如何提取基频模式进行了深入的研究。主要研究成果如下:1.为了获取用于聚类的基频序列,对语音数据进行了一系列的预处理工作,有音节切分、基频标注、长度规整、滑动平均和零均值化等工作。2.研究了两种常用的聚类算法:K均值法和ISODATA法。在此基础上,考虑到SOM网络独特的无监督、自组织和本身具有的聚类功能,提出采用SOM算法作为基频模式提取的聚类算法,克服了其他算法的一些不足之处。3.以一个特定语音库作为实验数据,用SOM算法对预处理后的基频序列聚类,得到15种典型的基频模式,并给出相应的基频曲线。在提取基频模式后,需要通过决策树的方法挖掘出具体的韵律规则,来指导语音的合成。这将是下一步要进行的工作。
章森,刘磊,刁麓弘[9](2010)在《大规模语音语料库及其在TTS中应用的几个问题》文中指出首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值.
王亮[10](2010)在《汉语文语转换系统中韵律调节算法的研究与实现》文中认为文语转换技术是一种应用广泛的语音技术。目前,以波形合成为基础的文语转换技术已经可以合成清晰度、可懂度较好的语音,然而在合成语音的自然度方面仍需进一步提高。韵律调节是改善合成语音自然度最有效的手段之一。本文的主要工作是围绕汉语文语转换系统的韵律调节技术进行的。本文对相关的算法进行研究,并开发一种汉语普通话文语转换系统。本文首先对韵律理论和汉语的语音特点进行了分析,并对文语转换系统现有的技术路线进行了讨论,并在此基础上提出了一种基于韵律规则的波形合成法。接下来,本文对PSOLA、Fujisaki基频曲线预测算法、音节与停顿时长预测算法等韵律调节的关键算法进行了深入的研究,并在对Fujisaki模型进行部分修改的基础上,提出了一种充分考虑语音库中语音基频特性的语调曲线预测算法,这种方法能够比较准确的模拟句子的语调曲线趋势,同时对合成基元频率特性的修改较小。然后,本文从系统构成的角度介绍了系统中各个模块的功能和设计方案;同时,本文介绍了构建语音库的方法,为了提高合成语音的自然度,本文同时构建了音节语音库和汉语中高频词语音库。最后,本文从程序实现的角度介绍了代码中主要函数的功能和输入输出,并对程序设计时需要考虑的关键问题进行了分析。另外,本文还运用平均意见分的方法对开发的汉语文语转换系统的性能进行了评估,测试结果表明系统合成的语音具有比较好的自然度。
二、文语转换系统中的韵律研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、文语转换系统中的韵律研究(论文提纲范文)
(1)融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换技术概述 |
1.2.1 语音转换技术研究背景 |
1.2.2 语音转换挑战赛 |
1.3 语音转换技术的研究意义 |
1.4 本文主要工作和内容安排 |
第二章 语音转换理论基础 |
2.1 语音的产生与说话人身份 |
2.1.1 语音产生过程 |
2.1.2 说话人身份感知 |
2.2 语音转换系统基本原理 |
2.3 语音分析/合成模型 |
2.3.1 STRAIGHT |
2.3.2 WORLD |
2.3.3 WaveNet |
2.4 语音信号的特征参数 |
2.5 语音转换常用数据集 |
2.6 语音转换性能评价 |
2.6.1 客观评价标准 |
2.6.2 主观评价标准 |
2.7 非平行语音转换方法 |
2.7.1 基于C-VAE语音转换方法 |
2.7.2 基于VAWGAN的语音转换方法 |
2.7.3 基于CycleGAN的语音转换方法 |
2.8 本章小结 |
第三章 基于StarGAN的多对多语音转换 |
3.1 引言 |
3.2 StarGAN模型的基本原理 |
3.3 非平行文本条件下基于StarGAN的多对多语音转换 |
3.3.1 语音转换系统框图 |
3.3.2 基频转换 |
3.3.3 基于StarGAN的频谱转换 |
3.3.4 基于StarGAN的多对多语音转换系统 |
3.4 实验仿真与结果分析 |
3.4.1 实验环境 |
3.4.2 实验模型参数 |
3.4.3 实验结果分析 |
3.5 本章小结 |
第四章 基于StarGAN-x的语音转换方法 |
4.1 引言 |
4.2 x-vector特征 |
4.2.1 x-vector定义 |
4.2.2 x-vector提取 |
4.3 基于StarGAN-x的语音转换 |
4.3.1 融合x-vector的 StarGAN |
4.3.2 基于StarGAN-x的语音转换系统 |
4.4 实验仿真与结果分析 |
4.4.1 实验环境 |
4.4.2 实验模型参数 |
4.4.3 实验结果分析 |
4.5 本章小结 |
第五章 基于SE-R StarGAN-x语音转换方法 |
5.1 引言 |
5.2 SE-Res Net原理 |
5.3 基于SE-R StarGAN-x的语音转换系统 |
5.3.1 基于SE-R StarGAN的语音转换系统 |
5.3.2 基于SE-R StarGAN-x的语音转换系统 |
5.4 实验仿真与结果分析 |
5.4.1 实验环境 |
5.4.2 实验模型参数 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(2)基于深度学习的梅尔声谱图预测方法的TTS实现(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.1.1 课题研究背景 |
1.1.2 研究目的及意义 |
1.2 国内外研究现状与技术应用 |
1.2.1 语音合成技术的发展历史及现状 |
1.2.2 语音合成技术的关键技术及发展方向 |
1.3 本文重难点 |
1.4 本文的组织结构 |
第2章 传统语音合成技术原理及应用 |
2.1 基于波形拼接的语音合成方法 |
2.1.1 文本分析 |
2.1.2 韵律处理 |
2.1.3 TD-PSOLA算法 |
2.2 基于统计参数的语音合成方法 |
2.2.1 基于HMM统计参数的语音合成方法 |
2.2.2 HMM训练模块 |
2.2.3 HMM训练流程 |
2.3 基于深度学习的语音合成方法 |
2.3.1 端到端的语音合成方法-Tacotron |
2.3.2 利用卷积序列学习将文本转化为语音-Deep Voice3 |
2.3.3 快速高保真的语音合成方法-Parallel Wave Net |
2.4 本章小结 |
第3章 基于深度学习的梅尔声谱图预测方法 |
3.1 词向量嵌入 |
3.1.1 连续词袋模型-CBOW |
3.1.2 跳字模型-Skip-gram |
3.2 CNN在自然语言处理中的应用 |
3.3 长短期记忆网络-LSTM |
3.4 编码器-解码器框架 |
3.5 注意力机制 |
3.6 声码器-Wave Net |
3.7 本章小结 |
第4章 TTS算法研究测试数据及性能分析 |
4.1 网络模型参数配置 |
4.1.1 网络模型参数设定及流程 |
4.1.2 研究测试数据及环境 |
4.2 研究测试内容及性能分析项目 |
4.2.1 研究测试内容 |
4.2.2 性能分析项目 |
4.3 实验结果分析 |
4.3.1 主观意见得分MOS |
4.3.2 客观语音质量评估PESQ |
4.3.3 训练与合成时间 |
4.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士学位期间的学术成果 |
(3)非平行文本条件下基于i-vector、VAE和GAN的多对多语音转换算法研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 语音转换的定义 |
1.2 语音转换的研究背景和意义 |
1.2.1 语音转换的研究背景 |
1.2.2 语音转换的研究意义 |
1.2.3 语音转换挑战赛 |
1.3 非平行文本条件下语音转换的研究现状 |
1.4 本文的主要工作和内容安排 |
1.4.1 主要工作 |
1.4.2 内容安排 |
第二章 语音转换背景知识介绍 |
2.1 语音信号的产生机制 |
2.1.1 语音信号产生的生理机制 |
2.1.2 语音信号产生的数学模型 |
2.2 语音信号的特征参数 |
2.3 语音转换系统的基本原理 |
2.4 语音信号分析/合成模型 |
2.4.1 AHOcoder模型 |
2.4.2 STRAIGHT模型 |
2.4.3 WORLD模型 |
2.5 语音信号的频谱转换 |
2.5.1 平行文本条件下的频谱转换 |
2.5.2 非平行文本条件下的频谱转换 |
2.6 语音信号的基频转换 |
2.7 语音转换质量评价标准 |
2.7.1 客观评价标准 |
2.7.2 主观评价标准 |
2.8 本章小结 |
第三章 基于VAWGAN的语音转换 |
3.1 引言 |
3.2 VAE模型的基本原理 |
3.2.1 VAE模型 |
3.2.2 C-VAE模型 |
3.3 GAN模型的基本原理 |
3.3.1 SGAN模型 |
3.3.2 WGAN模型 |
3.4 非平行文本条件下基于VAWGAN的多对多语音转换 |
3.4.1 基于VAWGAN的语音转换系统 |
3.4.2 基于语音转换任务的VAWGAN网络 |
3.5 实验仿真与结果分析 |
3.5.1 实验设置 |
3.5.2 实验结果 |
3.6 本章小结 |
第四章 基于VAWGAN+i-vector的语音转换 |
4.1 引言 |
4.2 i-vector |
4.2.1 i-vector定义 |
4.2.2 i-vector提取 |
4.3 非平行文本条件下基于VAWGAN+i-vector的多对多语音转换 |
4.3.1 基于VAWGAN+i-vector的语音转换系统 |
4.3.2 基于语音转换任务的VAWGAN+i-vector网络 |
4.4 实验仿真与结果分析 |
4.4.1 实验设置 |
4.4.2 实验结果 |
4.5 本章小结 |
第五章 基于VARSGAN的语音转换 |
5.1 引言 |
5.2 RSGAN模型 |
5.3 非平行文本条件下基于VARSGAN的多对多语音转换 |
5.3.1 基于VARSGAN的语音转换系统 |
5.3.2 基于VARSGAN+i-vector的语音转换系统 |
5.4 实验仿真与结果分析 |
5.4.1 实验设置 |
5.4.2 实验结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(4)基于IPv6的TTS语音云服务应用的研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题研究背景 |
1.2 课题研究背景及意义 |
1.2.1 课题研究背景 |
1.2.2 课题研究意义 |
1.3 国内外研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 论文主要研究内容 |
1.5 论文结构安排 |
第二章 相关理论与关键技术 |
2.1 TTS文语转换系统 |
2.1.1 文本分析 |
2.1.2 韵律处理 |
2.1.3 声学处理 |
2.2 IPv6下一代互联网协议 |
2.2.1 IPv6地址体系结构 |
2.2.2 IPv6首部 |
2.2.3 ICMPV6 |
2.3 线程池技术 |
2.3.1 线程池的工作流程 |
2.3.2 线程池模式 |
2.4 TTS文语转换系统评测标准 |
2.5 相关工具介绍 |
2.6 本章小结 |
第三章 基于IPv6的TTS文语转换系统模型的研究 |
3.1 IPv4与IPv6网络区别与过渡技术 |
3.1.1 IPv4与IPv6网络区别 |
3.1.2 从IPv4到IPv6的过渡技术 |
3.2 文语转换系统SDK的选择 |
3.2.1 Microsoft Speech SDK |
3.2.2 ISpVoice接口的成员函数 |
3.3 浏览器统一页面播报的设计 |
3.3.1. 页面解析 |
3.3.2. 文本信息的采集 |
3.3.3. 流媒体播放器构建 |
3.4 作业调度模型的构建 |
3.4.1 线程池技术的选择 |
3.4.2 基于线程池模式领导者/追随者模型的改进 |
3.4.3 改进线程池数据结构设计 |
3.5 TTS文语转换数据安全的研究 |
3.5.1 地址访问格式的设定 |
3.5.2 GUID在TTS文语转换系统中的应用 |
3.5.3 服务器安全字的部署 |
3.6 实验过程与分析 |
3.7 本章小结 |
第四章 系统需求分析 |
4.1 系统可行性分析 |
4.1.1 技术可行性分析 |
4.1.2 操作可行性分析 |
4.1.3 经济可行性分析 |
4.2 系统功能性分析 |
4.2.1 任务概述 |
4.2.2 功能概述 |
4.3 系统非功能性需求分析 |
4.3.1 UI设计目标 |
4.3.2 运行设计目标 |
4.4 系统开发环境 |
4.5 本章小结 |
第五章 系统设计与实现 |
5.1 系统设计 |
5.2 系统工作流程 |
5.3 系统实体联系 |
5.4 系统核心功能模块的实现 |
5.4.1 语音转换云服务任务服务器的实现 |
5.4.2 语音转换云服务转换服务器的实现 |
5.4.3 语音转换云服务页面调用的实现 |
5.5 IPv6下的TTS语音云服务系统测试 |
5.5.1 系统功能测试 |
5.5.2 测试结果分析 |
5.6 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历 |
(5)用语言复制的方法记录濒危语言——锡伯语案例(论文提纲范文)
1. 引言 |
1.1 濒危语言研究现状 |
1.2 研究锡伯语缘起工信部项目 |
1.3 锡伯语语言概况及使用现状 |
1.4 锡伯语语音系统开发中遇到的难题及工作调整 |
1.5 文语转换技术对濒危语言处理的意义 |
2. 语言复制在锡伯语上的尝试——锡伯语文语转换系统的建立 |
2.1 录音脚本设计及录音 |
2.2 语音数据标注 |
2.3 锡伯语文本分析 |
2.3.1 文本规整 |
2.3.2 字音转换 |
2.3.3 基本韵律分析 |
2.4 锡伯语语音合成声学模型训练 |
2.5 锡伯语文语转换系统集成及评测 |
3. 语言复制的概念及其实现框架 |
3.1 语言复制的概念 |
3.2 语言复制的实现框架 |
4. 讨论 |
4.1 濒危语言处理的困境 |
4.2 有文字的濒危语言处理 |
4.3 没有文字的濒危语言处理 |
4.4 口语和书面语的区别问题 |
(6)具有表现力的汉语文语转换(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 文语转换 |
1.2 文语转换的意义及应用 |
1.3 国内外研究概况 |
1.4 课题的主要研究内容 |
1.5 论文的结构安排 |
第二章 文语转换基础理论 |
2.1 语音信号基础知识 |
2.1.1 语音信号的产生 |
2.1.2 语音的个性特征 |
2.2 文语转换基本原理 |
2.2.1 文语转换系统组成 |
2.2.2 文语系统各模块分析 |
2.3 GMM 模型 |
2.3.1 GMM 模型的基本概念 |
2.3.2 GMM 模型的训练方法 |
2.4 STRAIGHT 语音分析合成算法 |
2.4.1 去除周期影响的谱估计 |
2.4.2 精确的基频轨迹提取 |
2.4.3 语音重构 |
2.5 文语转换的评价标准 |
2.5.1 主观评价标准 |
2.5.2 客观评价标准 |
第三章 具有表现力的文语转换系统的实现 |
3.1 系统总体设计 |
3.2 语音库 |
3.3 文本分析 |
3.4 韵律分析 |
3.4.1 重音分析 |
3.4.2 停顿分析 |
3.4.3 语速分析 |
3.5 韵律转换 |
3.5.1 重音转换 |
3.5.2 停顿转换 |
3.5.3 语速转换 |
3.6 语调分析 |
3.7 语调转换 |
3.7.1 均值模型(MM) |
3.7.2 单高斯模型(SGM) |
3.7.3 高斯混合模型(GMM) |
3.8 语音合成模块 |
第四章 实验结果与分析 |
4.1 总体框架 |
4.2 韵律转换结果分析 |
4.2.1 重音 |
4.2.2 停顿 |
4.2.3 语速 |
4.3 语调转换结果分析 |
4.3.1 三种模型转换结果对比分析 |
4.3.2 语谱图对比分析 |
4.3.3 ABX 测试 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读学位期间公开发表的论文 |
致谢 |
(7)中文话费文语转换系统的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 文语转换技术的国内外发展现状 |
1.3 语音合成方法 |
1.4 本文主要的研究内容 |
第二章 文语转换系统的研究 |
2.1 数据资源库的设计 |
2.1.1 语料库的建立 |
2.1.2 语法规则库的设计 |
2.1.3 韵律模型的预测规则 |
2.2 文本分析模块 |
2.2.1 文本的正规化 |
2.2.2 语音词的切分 |
2.2.3 句法和语义分析 |
2.3 韵律分析模块 |
2.3.1 协同发音 |
2.3.2 声调规则 |
2.3.3 音长规则 |
2.3.4 能量变化规则 |
2.4 语音合成模块 |
第三章 基于PSOLA的中文话费文语转换系统的设计 |
3.1 基于PSOLA的中文话费文语转换系统的构架 |
3.2 基音同步叠加算法原理(PSOLA) |
3.3 基音标注算法 |
3.3.1 基音周期估计 |
3.3.2 基音标注 |
3.4 基音同步韵律调整 |
3.4.1 声调的调整 |
3.4.2 音长的调整 |
3.4.3 音强的调整 |
3.5 基于波形拼接语音合成 |
3.5.1 平滑处理算法 |
3.5.2 实验结果 |
第四章 中文话费文语转换系统仿真研究及性能分析 |
4.1 中文话费文语转换系统的仿真研究 |
4.1.1 仿真实验平台 |
4.1.2 中文话费文语转换系统功能需求分析 |
4.1.3 中文话费文语转换系统界面设计 |
4.1.4 中文话费文语转换系统工作流程 |
4.2 中文话费文语转换系统的性能和质量分析 |
4.2.1 TTS系统的性能分析 |
4.2.2 合成语音的主观听觉感知实验分析 |
4.2.3 合成语音参数分析 |
第五章 中文话费文语转换系统界面设计 |
5.1 主要功能 |
5.2 系统框架的结构图 |
5.3 数据库的设计 |
5.3.1 数据库建表 |
5.3.2 数据库的连接和使用 |
5.4 登陆模块的设计 |
5.5 主窗口的设计 |
5.5.1 员工操作主窗口的设计 |
5.5.2 用户操作主窗口的设计 |
5.6 本章小结 |
第六章 结束语 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 |
致谢 |
(8)基于SOM网络的语音基频模式提取研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 文语转换技术的研究与发展 |
1.2.1 文语转换技术的历史和现状 |
1.2.2 文语转换技术的发展方向 |
1.2.3 基频模型概述 |
1.3 本文研究内容及论文结构 |
1.3.1 本文研究内容 |
1.3.2 论文结构 |
第二章 文语转换技术相关理论 |
2.1 语音信号处理 |
2.1.1 发音机制 |
2.1.2 数学产生模型 |
2.2 语音学相关概念 |
2.2.1 语音的组成结构 |
2.2.2 物理特性 |
2.2.3 韵律特征 |
2.3 文语转换系统的结构 |
2.3.1 文本分析 |
2.3.2 韵律控制 |
2.3.3 语音合成 |
2.4 本章小结 |
第三章 提取基频模式的聚类算法 |
3.1 引言 |
3.2 聚类的概念 |
3.3 相似性度量 |
3.4 主要聚类算法 |
3.5 自组织特征映射网络算法 |
3.5.1 网络模型 |
3.5.2 学习算法 |
3.5.3 仿真实验 |
3.6 本章小结 |
第四章 基频模式的提取 |
4.1 实验数据 |
4.2 预处理技术 |
4.2.1 基频提取 |
4.2.2 音节切分和基频标注 |
4.2.3 长度规整 |
4.2.4 滑动平均 |
4.2.5 零均值化 |
4.3 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
攻读硕士期间的研究成果 |
(9)大规模语音语料库及其在TTS中应用的几个问题(论文提纲范文)
1 引 言 |
2 汉语语音语料库Slib |
3 倒排索引和集合运算 |
4 在TTS中的应用 |
5 结束语 |
(10)汉语文语转换系统中韵律调节算法的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
缩略语表 |
目录 |
第一章 绪论 |
1.1 语音合成与文语转换概述 |
1.2 文语转换研究发展历史 |
1.3 多语种文语转换研究现状 |
1.4 汉语文语转换现有的韵律控制方法 |
1.5 汉语文语转换韵律调节方法的研究意义 |
1.6 本文的研究背景 |
1.7 本文内容安排 |
第二章 相关韵律理论与文语转换系统的基本技术路线 |
2.1 概述 |
2.2 本文涉及到的韵律理论 |
2.2.1 语音特征的分类 |
2.2.2 声学物理量与听觉心理量 |
2.3 汉语普通话语音特点分析 |
2.3.1 汉语普通话的基本特点 |
2.3.2 汉语音节的结构与声调 |
2.3.3 汉语普通话中的协同发音现象 |
2.4 文语转换系统的基本技术路线 |
2.4.1 参数合成法 |
2.4.2 波形合成法 |
2.4.3 规则合成法 |
2.4.4 合成方法的比较与技术方案的选取 |
2.5 小结 |
第三章 汉语韵律调节若干关键算法的分析与讨论 |
3.1 概述 |
3.2 语音超音段参数调节算法 |
3.2.1 语音超音段参数调节算法概述 |
3.2.2 TD-PSOLA 算法介绍 |
3.2.3 TD-PSOLA 算法仿真与结果分析 |
3.3 Fujisaki 韵律模型与语调预测算法 |
3.3.1 韵律预测模型概述 |
3.3.2 Fujisaki 模型 |
3.3.3 修改的Fujisaki 模型 |
3.3.4 实验设计与实验结果 |
3.4 音节与停顿时长预测算法 |
3.4.1 准确预测音节与停顿时长的重要意义 |
3.4.2 一种基于规则的音节时长预测算法 |
3.4.3 汉语中停顿的规则 |
3.5 小结 |
第四章 汉语文语转换系统的总体设计 |
4.1 汉语文语转换系统的设计思路 |
4.2 语音库的构建 |
4.3 文本正则化模块 |
4.4 分词模块 |
4.5 韵律预测模块 |
4.6 语音超音段参数调整模块 |
4.7 拼接模块 |
4.8 小结 |
第五章 汉语文语转换系统的程序设计与结果评估 |
5.1 概述 |
5.2 汉语文语转换系统的程序设计 |
5.2.1 分词函数 |
5.2.2 韵律预测函数 |
5.2.3 TD-PSOLA 算法函数 |
5.2.4 wav 文件的拼接函数 |
5.2.5 wav 文件的播放函数 |
5.2.6 其它基本函数 |
5.3 TD-PSOLA 模块的重点分析 |
5.3.1 TD-PSOLA 算法函数的用法 |
5.3.2 TD-PSOLA 算法函数用于情感参数的调节 |
5.4 汉语文语转换系统的性能评估 |
5.5 小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
四、文语转换系统中的韵律研究(论文参考文献)
- [1]融合说话人嵌入和SE-ResNet的非平行多对多语音转换研究[D]. 曹盼. 南京邮电大学, 2020(02)
- [2]基于深度学习的梅尔声谱图预测方法的TTS实现[D]. 刘英男. 黑龙江大学, 2020(04)
- [3]非平行文本条件下基于i-vector、VAE和GAN的多对多语音转换算法研究[D]. 左宇涛. 南京邮电大学, 2019(02)
- [4]基于IPv6的TTS语音云服务应用的研究与实现[D]. 王天琦. 宁夏大学, 2019(02)
- [5]用语言复制的方法记录濒危语言——锡伯语案例[J]. 祖漪清,高丽,王祖燕,黄维,吴朗. 中国语音学报, 2017(01)
- [6]具有表现力的汉语文语转换[D]. 朱菁. 苏州大学, 2013(11)
- [7]中文话费文语转换系统的研究与实现[D]. 景娟. 中南大学, 2011(12)
- [8]基于SOM网络的语音基频模式提取研究[D]. 傅雪. 南京邮电大学, 2011(04)
- [9]大规模语音语料库及其在TTS中应用的几个问题[J]. 章森,刘磊,刁麓弘. 计算机学报, 2010(04)
- [10]汉语文语转换系统中韵律调节算法的研究与实现[D]. 王亮. 上海交通大学, 2010(11)