一、基于小波变换与GMM的说话人识别研究(论文文献综述)
徐文涛[1](2020)在《基于耳蜗倒谱系数特征的说话人识别研究》文中进行了进一步梳理在生物识别技术中,说话人识别技术是一种较为常见的识别技术,同时说话人识别技术的许多研究和应用也越来越多的被人们所关注。说话人识别技术就是让机器模拟人耳的特性,来对说话人进行识别和确认。人耳作为人的听觉器官在说话人识别过程中具有良好的抗噪性能和识别能力,因此更多的学者和研究人员都致力于对人耳的听觉特性进行研究。基于人耳听觉特性所提出的一些算法虽然识别性能都较好,但在噪声环境下识别效果仍然欠佳。针对这种问题,本文从人耳听觉特性算法进行研究,发现耳蜗倒谱系数(Cochlear Filter Cepstral Coefficient,CFCC)在噪声环境下识别效果相对较好。因此本文对CFCC进行进一步的研究,提高其算法的整体识别效果。论文的主要工作如下:1、提出融合非线性幂函数和维纳滤波的CFCC算法。首先,将语音信号经过维纳滤波算法,提高其语音信号的信噪比;然后,将CFCC融合非线性幂函数,得到新的CFCC(NCFCC),提高了高信噪比条件下算法的识别率;再将经过维纳滤波的语音信号作为NCFCC的输入语音信号;最后,对该算法进行说话人识别。试验结果表明,与梅尔频率倒谱系数、Gammatone频率倒谱系数和CFCC相比,所提出的算法提高了说话人整体识别率,同时在噪声条件下具有良好的鲁棒性。2、提出将Mel滤波器组融入到CFCC中得到新的特征算法MFCFCC。首先,将语音信号输入到Mel滤波器组中进行滤波,变成二维的语音信号;然后,通过加权求和方法将二维语音信号变为一维语音信号,再将得到的语音信号经过CFCC过程;最后,得到新的说话人识别特征MFCFCC。试验结果表明,MFCFCC与其它特征算法比较,其在噪声环境下,能显着提高说话人的识别率,在纯净语音条件下也能提高识别性能。
郭星辰[2](2020)在《面向说话人确认的录音回放攻击检测》文中进行了进一步梳理说话人确认系统作为生物识别领域的研究热点近几十年来得到了迅速的发展。因其便捷、有效和低成本的特点,已经被广泛应用于需要身份认证的领域。但由于录音回放攻击语音的存在,说话人确认系统在走向实际应用的过程中,其安全性问题开始受到越来越多的关注。从应用安全的角度出发,提高说话人确认系统的安全性,抵御录音回放攻击语音成为亟须解决的问题。为有效抵御录音回放攻击语音,本文通过输入信道频率响应差异分析,提出了两种适用于录音回放攻击检测的特征提取方法。其一为信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC)特征,该特征参数通过三阶多项式非线性频率尺度变换强化信道频率响应差异。其二为小波包熵密度(Wavelet Packet Entropy Density,WPED)特征,该特征参数通过小波包变换(Wavelet Packet Transform,WPT)和特定小波包节点的熵密度值计算强化输入信道频率响应差异,增大两类语音在特征空间中的距离。最后,将采用CDECC特征和WPED特征的录音回放攻击检测模块以串联方式嵌入说话人确认系统中,实现了具有录音回放攻击检测能力的说话人确认系统。基于ASVSpoof 2.0语料库的非特定说话人文本无关录音回放攻击检测实验表明,采用CDECC特征和WPED特征的录音回放攻击检测等错误率(Equal Error Rate,EER)分别为25.03%和23.22%,相比基线系统的EER相对下降了 10%和16.50%。采用CDECC特征和WPED特征作为检测特征的说话人确认系统的错误接受率(False Accept Rate,FAR)明显下降,EER 分别从 4.80%下降为 1.07%和 1.03%。
陈洪极[3](2020)在《基于非目标GMM和神经网络的声纹识别研究》文中指出声纹识别是一种对人发出的声音进行识别、辨别对象的技术,这是根据人与生俱有的声音特征,也即生物认证技术。另外这是根据语音中包含的个人特征分量来辨认说话人的身份,故又称说话人识别。理论基础在于每个人说话的声音都是不同的,这种不同表现在多个方面,可以是生理上的物理结构的差异,可以是行为说话上的习惯与控制上。在实际生活当中,人们在辨识说话人上多是在音色、音调、语速等方面上。技术原理是提取说话人的语音特征,用于存储或与已存储的语音特征做对比并给出判断结果。声纹的应用日益广泛,如刑侦、安防、软件安全等领域。声纹识别技术发展到现在,在分类上主要有文本相关与文本无关两类。文本相关的研究应用上相对成熟,但文本相关的特性极大限制了其应用范围。现在研究的热点更多在于文本无关。其相关方法有高斯模型GMM,通用背景模型UBM,FA因子分析,JFA联合因子分析,全因子空间I-vector。以上方法的演进基本都是基于最初的高斯模型GMM,在GMM的基础上一方面向着信道鲁棒性与准确性发展,另一方面则构建基于GMM参数的向量模型,分类表征声纹信息。本文研究声纹识别中应用应用的DTW动态规整的方法,在不幅度降低准确性的前提下,精简部分训练的冗余数据,降低其拟合与测试过程的数据量与运算量,以期达到可在资源有限的嵌入式系统中达到识别的目的。同时提出的非目标说话人GMM对目标说话人的后验概率在神经网络中的应用。经实验结果表明,目标用户GMM模型的识别准确率为88.73%,而GMM-BP模型的识别准确率达到92.45%。本文的工作任务包括:(1)介绍了声纹识别的发展历程、目前的研究现状,包括声纹识别的任务、评价标准、相关的公开数据集,以及相关的算法。(2)调查大量文献,深入分析介绍了声纹识别算法及其继承关系。(3)高斯混合模型的深入探究及BP神经网络的应用。
高财政[4](2019)在《面向会议场景的声纹识别技术研究与系统实现》文中研究指明传统的会议记录方式存在记录时间周期长、记录内容不准确、难以分辨说话人等问题。在机器学习迅速发展的今天,利用机器学习技术改进传统的会议记录方式,并通过对会议语音的智能记录,最终形成准确的会议记录报告。这种新的会议记录方式满足了会议场景下对会议记录的诸多要求,将具有非常大的实用价值与市场竞争力。立足于此,本文采用声纹识别技术实现对会议的智能记录、研究并开发面向会议场景的声纹识别系统,本文工作简述如下:一、研究声纹识别系统的基础理论:首先,研究声纹识别系统的基本概念、发展历史、基本步骤、基本特点;其次,研究声纹识别系统目前的理论研究进展和系统开发进展,为下文提出的两种算法与系统开发提供理论依据和开发指导。二、研究小样本条件下准确声纹识别算法:首先,研究会议场景下小样本训练产生的原因,并分析小样本训练存在的问题;其次,提出新型特征提取方法和基于会议场景模型训练方法用于小样本条件下提高系统识别准确率;再次,将算法融入到声纹识别系统中,并介绍算法的执行流程;最后,对算法的有效性进行验证分析,为小样本条件下实现准确的声纹识别目标提供理论依据和实际开发指导经验。三、研究强噪条件下可靠声纹识别算法:首先,研究会议场景下噪声的来源及特点,并对会议噪声按其特点进行分类;其次,提出新型分类噪声去除方法和会议背景噪声学习补偿方法用于去除会议噪声;再次,将算法融入到声纹识别系统中,并介绍算法的执行流程;最后,对算法的有效性进行验证分析,为强噪条件下实现可靠的声纹识别目标提供理论依据和实际开发指导经验。四、开发并实现智能会议记录系统:首先,对智能会议记录系统进行需求分析;其次,介绍系统的架构,并在此架构基础上,分别阐述终端侧模块、通信模块、服务器侧模块的具体实现流程;最后,对系统功能、系统性能进行多方面的测试验证其实用性和功能性。
雷磊[5](2019)在《基于小波分析的声纹识别关键技术研究》文中进行了进一步梳理声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对倒谱特征的影响,提高了倒谱特征的抗噪能力。实验结果表明:WSCC的抗噪能力比主流倒谱特征的抗噪能力更强。为了提高基于倒谱特征的声纹识别模型在噪音环境中的识别准确率,本论文将WSCC算法和概率神经网络(Probabilistic Neural Network,PNN)相结合,进一步提出了WSCC-PNN声纹识别模型。该模型采用WSCC算法将语音样本转化成语音特征,并采用PNN对语音特征中蕴含的说话人信息进行建模。实验结果表明:WSCC-PNN在噪音环境中的识别准确率比基于倒谱特征的声纹识别模型提高了5%左右。(2)针对小波包变换(Wavelet Packet Transform,WPT)对语音分析能力不足的问题,提出了感知小波包变换(Perceptual Wavelet Packet Transform,PWPT)。本论文首先通过Greenwood函数生成耳蜗听觉滤波器组,然后根据该滤波器组对7层WPT进行“修枝”操作,修枝后的WPT即为PWPT。由于耳蜗滤波过程能够突显语音中有价值的信息并抑制声学噪音,所以PWPT非常适合用于分析语音信号。实验结果表明:PWPT分析语音的能力比WPT分析语音的能力更强,并且它的计算量仅为WPT的25%左右。为了提高小波包熵特征(Wavelet packet entropy,WPE)的抗噪能力,本论文进一步提出了感知小波包熵(Perceptual Wavelet Packet Entropy,PWPE)特征提取算法。该提取算法首先采用PWPT将语音信号分解成一组子信号,然后采用阈值降噪技术抑制这些子信号中的噪音,最后计算每个子信号的熵。实验表明:基于PWPE的声纹识别模型在噪音中的识别准确率比基于WPE的声纹识别模型高了6%左右。(3)针对I-vector说话人模型(本论文称之为MIv)抗噪能力较差的问题,提出了基于PWPE特征的I-vector模型(PWPE-bassed I-vector,PIv)和基于WSCC的I-vector模型(WSCC-based I-vector,WIv)。它们的生成算法分别从语音样本的PWPE和WSCC特征空间中生成I-vector模型。PWPE和WSCC的提取算法均利用小波分析技术在多个尺度上抑制噪音,从而提高了PIv和WIv的抗噪能力。实验表明:PIv和WIv的抗噪能力比MIv模型的抗噪能力更强。为了提高基于MIv的声纹识别模型在噪音中的识别准确率,本论文进一步提出了PIv-CDS和WIv-CDS声纹识别模型。PIv-CDS采用PIv表示语音中蕴含的说话人信息,并采用余弦距离(Cosine Distance SCoring,CDS)比较不同PIv之间的相似度,以识别出说话人的身份。WIv-CDS和PIv-CDS非常相似,只是它采用WIv表示语音中的说话人信息。实验表明:PIv-CDS和WIv-CDS在噪音环境中的识别准确率比基于MIv的声纹识别模型高了8%左右。(4)针对DNN-UBM计算量过大的问题,提出了卷积神经网络背景模型(Convolutional Neural Network-based Universal Background Model,CNN-UBM)。CNN-UBM利用卷积神经网络(Convolutional Neural Network,CNN)结构实现背景模型功能。由于CNN具有强大的数据建模能力,因此CNN-UBM能够从背景语音中估计出高可靠性的说话人后验概率。另外,由于CNN结构包含的权重较少,并且CNN将ReLU函数作为激励函数,所以CNN-UBM易于训练且运行速度较快。实验结果表明:CNN-UBM和DNN-UBM的性能相似,但是它的计算量仅为DNN-UBM的12%左右。为了提高DNN/I-vector说话人模型的抗噪性能,本论文进一步提出了CNN/I-vector说话人模型。该模型的生成算法采用CNN-UBM从背景语音中估计出说话人后验概率,并基于该后验概率从语音的PWPE特征空间中生成I-vector。实验表明:基于CNN/I-vector的声纹识别模型在噪音中的识别准确率比基于DNN/I-vector的声纹识别模型高了9%左右。
詹展[6](2019)在《离线语音翻译技术》文中研究说明近几年来,人工智能成为了研究的热点。随着全球经济一体化,世界各国之间的交流愈加频繁,语言差异一直是全球化、国际旅行之间的一道语言鸿沟,给不同语言的人们之间的交流带来了严重障碍。语音翻译作为人工智能中的一个重要领域可以打破语言壁垒,提高各国人们之间的沟通能力。语音翻译技术涵盖了语音识别、机器翻译以及语音合成三大技术。论文主要以语音识别技术和机器翻译技术为研究对象,实现离线语音翻译。传统的语音识别是以高斯混合模型与隐马尔可夫模型相结合(GMM-HMM)进行声学建模,该模型成熟且稳定性高。但是GMM模型是一种浅层模型,对大规模语料数据集的建模能力很难有所提升。随着深度学习的兴起,深度神经网络(DNN)利用其自身独特的结构对复杂数据有更加强大的学习和建模能力。论文对GMM-HMM、DNN-HMM两种声学模型进行深入研究,并搭建离线语音识别系统;同时对基于短语的统计机器翻译进行研究,最后与语音识别系统相结合,实现了一个中英离线语音翻译系统;主要完成如下工作:(1)对语音识别的各个模块进行独立研究。其中主要研究对象有语音信号预处理,声学特征提取,声学、语言模型以及解码等相关技术。(2)对语音识别的鲁棒性进行了研究,重点研究了语音抗噪技术。利用小波变换对非平稳语音信号处理时具有多分辨率的良好特性,提出了一种基于对数的小波阈值去噪语音增强算法。通过相应的去噪实验,并与其他算法进行对比,以此来验证改进算法的有效性。(3)分析了GMM模型与DNN的结构与训练方式,对声学建模进行研究。先以GMM-HMM作为语音识别的基线系统,依次以单音素和三音素为声学单元建模;然后在此基础上建立DNN-HMM声学模型,通过实验对比分析研究了两种模型的识别性能,实验结果表明DNN模型优于GMM模型,在音素错误率和词错误率上下降了5.66%和3.48%。最后搭建了离线语音识别系统,并且测试了识别效果。(4)研究了采用Mel频率倒谱系数(MFCC)声学特征和Mel滤波器组(Fbank)声学特征分别作为训练DNN模型的输入数据,通过训练建立相应的DNN-HMM声学模型,并比较两种特征对识别结果的影响,实验结果表明Fbank特征更适合DNN模型的训练。同时对Fbank声学特征的滤波器组数目进行了探索,通过改变滤波器组数目,研究其对识别结果的影响。(5)最后对基于短语的统计机器翻译进行了研究。通过对文本数据集进行训练得到翻译所需模型,结合离线语音识别系统完成最终离线语音翻译。
巴莉芳[7](2019)在《基于含噪语音的说话人识别研究》文中研究指明随着计算机技术及移动互联网技术的快速发展,说话人识别作为一种特殊生物识别技术主要用于特定场合的说话人身份鉴定。该技术在司法鉴定、身份确认、军事国防、远程控制、信息安全等领域得到广泛应用,是模式识别和人工智能领域中的研究热点。在训练与测试环境均为干净语音环境下,说话人识别系统识别率较高,然而,受制于环境噪音,在实际应用中说话人识别系统的训练与测试环境不匹配,系统识别性能降低。因此,如何有效提高噪声环境下说话人识别系统性能成为了关键的研究点。本文主要对语音增强、特征提取等相关方面的内容进行研究,提出了一种非负矩阵分解优化算法,研究了深度学习用于特征提取的识别效果,以解决因噪声因素带来的不利影响,提高系统识别率。最后设计相关的图形用户界面完成语音信号录制和识别结果显示。本文主要研究内容如下:1.提出了一种非负矩阵分解优化算法。分析了谱减法和传统非负矩阵分解算法的优缺点,提出非负矩阵分解优化算法对含噪语音信号进行处理,得到具有较好语音质量的重构语音。结合各算法优势,将谱减法、非负矩阵分解算法以及非负矩阵优化算法的幅度进行加权融合,进一步增强算法泛化能力。实验证明,与传统语音增强算法进行对比,相同条件下非负矩阵分解优化算法的增强效果更优。与单一语音增强算法相比,融合算法在大多数噪音环境下具有较好的增强效果。2.提出了深浅层特征融合的特征提取方法。本文采用深度自动编码网络对含噪语音信号进行特征提取,基于深度置信网络的自动编码器能有效过滤语音中的噪声成分,挖掘浅层特征中隐藏个性信息的深层表示,将深层特征与浅层特征输入i-vector模型后进行分数级融合。实验表明与噪声环境下单一特征参数相比,融合特征能更全面地描述说话人信息,提高系统识别率。3.设计了基于MATLAB的图形用户界面。利用MATLAB自带工具箱和内置函数设计说话人识别平台界面。通过录制语音信号以及识别说话人对系统平台进行测试,结果表明平台具有较好的可交互性。
冯淼[8](2019)在《声纹识别技术在电缆沟外力破坏预警系统中的应用研究》文中研究说明目前,随着城镇化建设进程的加快及经济的飞速发展,城市用电日益剧增,为了维护城市形象及节约土地资源,减少可能威胁居民安全的意外事件,配电网高架已经逐步被地下电缆所替代。也因此对地下电缆沟的安全检测问题提出了严峻的挑战,设计一个自动化智能化的电缆沟外力破坏预警系统至关重要。随着计算机软硬件的更新换代及机器深度学习、大数据及物联网的快速发展,特别是特征提取新算法、语音声学新模型的出现,以及检索和自适应算法的广泛应用,声纹识别技术的发展和应用越来越成熟,基于此背景本文提出了声纹识别技术在电缆沟外力破坏预警系统中的应用研究这一课题。首先,本文为了解决电缆沟防外破的问题,通过对声纹识别技术的研究,提出本文的研究课题:声纹识别技术在电缆沟外力破坏预警系统中的应用研究。接着介绍了电缆沟外力破坏预警系统的软硬件架构,对不同条件下的振动信号进行深入的研究,根据振动信号的特征,对基于声纹识别技术进行外力破坏振动信号进行识别的可行性进行分析。接着,实验采集了外力破坏振动信号,做数据的预处理,包括去噪、预加重、加窗分帧、端点检测,并根据信号特征,选取信号的MFCC特征参数及其一阶二阶差分参数与基音周期进行加权平均获取融合参数。利用声纹识别技术中最常用的模型高斯混合模型-通用背景模型(GMM-UBM)进行模式识别。先预处理外力破坏信号,提取基音周期参数和MFCC特征参数及其一阶二阶差分参数,训练出振动信号的通用背景模型,利用目标振动信号训练高斯混合模型,并更新通用背景模型得到最终的高斯混合-通用背景模型。输入待识别信号进行模式匹配得到识别结果,实现外力破坏预警系统的功能。最后对基于声纹识别技术的外力破坏预警系统进行现场测试,通过对预警系统的实时性、报警级别、定位精度等需求进行测试,论证了基于声纹识别技术的识别模式可以应用在电缆沟外力破坏预警系统中。
解奉龙[9](2019)在《跨越说话人及语言差异的语音生成》文中指出跨越说话人及语言的语音生成是语音信号处理领域当中的重要研究方向,该问题又可分为两个子问题:1)跨越说话人的语音生成,即语音转换;2)跨越说话人及语言的语音生成,即跨语言语音合成。其中语音转换关注于转换说话人特征,即在不改变文本信息的前提下将源说话人的语音改变为目标说话人的语音使其带有目标说话人的音色和韵律。跨越说话人的语音合成专注于给定目标说话人第一语言语音数据,借助第二语言参照说话人的帮助为目标说话人量身定做第二语言语音合成器。跨越说话人及语言的语音生成在许多领域具有广泛的应用价值及实际需求,然而受限于实际场景中的数据量以及建模方法的性能,目前跨越说话人及语言所合成的语音的自然度及说话人相似度都不能令人满意,离工业界产品的需求还有相当长的距离。本论文针对语音转换及跨语言语音合成两个子问题在技术框架构建、技术改进方面进行了深入而系统的研究。本论文的具体研究内容和研究成果如下。首先,针对有平行训练数据的情况的语音转换场景,本论文对基于神经网络的语音转换训练准则进行了技术分析与改进,提出了最小化序列误差的神经网络训练准则,该训练准则一方面在人工神经网络误差反向传播训练中考虑到了整个序列的信息,另一方面消除了基于神经网络的语音生成回归模型在训练阶段优化目标和测试阶段合成目标不一致的问题。此外本文还利用神经网络将频谱和基频联合转换。实验证明基于最小化序列误差的神经网络训练准则比基于帧误差的训练准则更适合解决语音生成的回归问题。在CMU ARCTIC数据库测试集上对数谱距离(LSD)比基于神经网络的基线系统降低了0.15dB,主观测试中转换后的语音的自然度(60%vs.22%)及说话人的相似度(65%vs.35%)也都比基线系统得到了提高。其次,提出了只利用目标说话人的语音数据的一种基于说话人无关的神经网络声学(SI-DNN)模型及KL散度的完整语音转换技术框架(KLD-DNN)。说话人无关的深度神经网络输出的概率音素空间用来去除源说话人和目标说话人之间的声学差异,KL散度用来衡量不同声学单元在此音素空间的差异。之后根据目标说话人声学单元的不同,1)有监督场景下基于TTS senone;2)无监督场景下基于音素类;3)无监督场景下基于语音帧;采用了了不同的声学轨迹平滑后处理方法。实验证明基于说话人无关的神经网络及KL散度的语音转换技术框架显着超越了需要上述平行训练数据的基于神经网络回归模型的系统。在CMU ARCTIC数据库测试集上LSD比基于序列误差的神经网络语音转换模型降低了0.5dB。在主观测试中,语音自然度(91%vs.6%)及说话人相似度(88%vs.7%)两项指标显着超越了上述基于序列误差的神经网络模型的系统。第三,基于前面提出的利用说话人无关的深度神经网络去除源说话人和目标说话人之间的声学差异的思想,提出了在音素空间中单元帧拼接并利用WaveNet声码器合成语音的框架。WaveNet声码器不再依赖语音生成机制(如源-滤波器模型)的任何假设,而是利用卷积神经网络直接为语音采样点序列建模。实验证明,基于音素空间中的单元帧拼接及WaveNet框架方法在CMU ARCTIC数据库上对比上述基于KLD-DNN的方法在主观测试中取得了显着的进步,语音自然度(80%vs.7%)和说话人相似度(76%vs.8%)均获得了更高的偏好度。最后,提出了基于说话人无关的神经网络声学模型及KL散度跨语言语音合成技术框架,基于不同语言的语音在次音素或帧级别上在一定程度上可以部分共享同一音素空间的前提假设,利用第一语言训练出来的深度神经网络声学模型消除目标说话人第一语言语音及参照说话人第二语言语音的声学差异。在有监督情况下利用最小化KL散度对目标说话人第一语言决策树模型的叶节点及参照说话人第二语言决策树模型的叶节点进行一一映射;在无监督情况下,利用基于KL散度的权值和目标说话人第一语言语音数据对参照说话人的第二语言决策树模型的叶节点进行填充,从而得到目标说话人第二语言的决策树模型,实现跨越说话人及语言的语音生成。实验证明此方法比之前基于轨迹拼接的基线系统取得了显着的进步。测试集的对数谱距离(LSD)显着下降了0.89dB,主观测试中说话人相似度DMOS分比基线系统提升了0.6分(2.9分->3.5分)。本文层层递进提出了三种语音转换的方法:1)基于序列误差最小化的神经网络;2)基于KL散度和DNN的语音转换;3)基于单元帧拼接及WaveNet的语音转换。分别有效地解决了1)语音转换神经网路训练目标与测试目标不一致;2)如何有效去除不同说话人之间的声学差异;3)传统声码器合成转换语音自然度差这三个问题。三种方法较基线系统逐步地显着提升了语音转换后的语音自然度和说话人相似度。之后又提出了基于KL散度和DNN的跨语言语音合成,解决了跨语音合成不同语言之间如何消除声学差异的问题,显着提升了跨语言语音合成系统合成语音的说话人相似度。
雷磊,佘堃[10](2018)在《基于小波倒谱系数和概率神经网络的取证说话人识别模型》文中进行了进一步梳理取证说话人识别是一种利用犯罪现场留下的质疑语音来识别犯罪分子身份的技术。为了提高识别模型的抗噪能力,提出了基于小波倒谱系数(WCC)和概率神经网络(PNN)的取证说话人识别模型。该模型包含WCC特征提取和PNN分类两个步骤,WCC对噪声不敏感,所以使得该模型有抗噪能力;PNN是一种高效的分类算法,从而提高了模型识别性能。实验表明,该模型以提高时间消耗为代价提高了识别率和抗噪能力。
二、基于小波变换与GMM的说话人识别研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于小波变换与GMM的说话人识别研究(论文提纲范文)
(1)基于耳蜗倒谱系数特征的说话人识别研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的发展历史与现状 |
1.3 说话人识别的主要困难 |
1.4 论文章节安排 |
第2章 说话人识别基础 |
2.1 系统模型 |
2.2 特征提取 |
2.2.1 MFCC特征参数的提取 |
2.2.2 GFCC特征参数的提取 |
2.3 分类器 |
2.3.1 VQ算法 |
2.3.2 GMM算法 |
2.3.3 SVM算法 |
2.3.4 GMM-SVM混合算法 |
2.4 本章小结 |
第3章 CFCC特征参数 |
3.1 小波变换的定义 |
3.2 CFCC实现过程 |
3.2.1 听觉变换 |
3.2.2 耳蜗滤波器组 |
3.2.3 毛细胞窗函数 |
3.2.4 非线性响度变换和DCT |
3.3 本章小结 |
第4章 融合非线性幂函数和维纳滤波的CFCC算法的说话人识别 |
4.1 维纳滤波 |
4.2 参数设置 |
4.3 融入非线性幂函数的NCFCC的选择 |
4.4 实验设计与结果分析 |
4.4.1 FFNW算法对比试验结果分析 |
4.4.2 不同分类器比较 |
4.5 本章小结 |
第5章 MFCC和 CFCC特征组合的说话人识别 |
5.1 特征组合提取的过程与方法 |
5.2 权重的选择 |
5.3 试验设计与结果分析 |
5.3.1 MFCFCC算法对比试验结果分析 |
5.3.2 Mel滤波器组融入NCFCC和 MFCFCC结果比较 |
5.3.3 不同分类器比较 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
附录 A 个人简历 |
附录 B 硕士期间发表的学术论文 |
附录 C 论文中的用图 |
附录 D 论文中的用表 |
(2)面向说话人确认的录音回放攻击检测(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 面向说话人确认的录音回放攻击检测系统概述 |
1.2 研究背景和意义 |
1.3 课题研究现状 |
1.4 课题主要目标及研究内容 |
1.5 论文章节安排 |
第2章 说话人确认及录音回放攻击检测理论基础 |
2.1 具有录音回放攻击检测能力的说话人确认系统结构 |
2.2 预处理 |
2.3 特征提取 |
2.3.1 MFCC特征 |
2.3.2 CQCC特征 |
2.3.3 IMFCC特征 |
2.4 GMM模型 |
2.5 判决策略 |
2.6 性能评价标准 |
2.7 本章小结 |
第3章 语音输入信道频率响应及差异分析 |
3.1 原始语音和录音回放攻击语音差异分析 |
3.2 录音设备频率响应特性 |
3.3 播放设备频率响应特性 |
3.4 信道频率响应差异特点 |
3.5 本章小结 |
第4章 基于信道频率响应差异强化特征的录音回放攻击检测 |
4.1 信道频响差强化倒谱系数特征 |
4.1.1 预处理 |
4.1.2 快速傅里叶变换(FFT) |
4.1.3 谱线能量 |
4.1.4 信道差异强化滤波 |
4.1.5 对数变换 |
4.1.6 离散余弦变换(DCT) |
4.2 实验设置与结果分析 |
4.2.1 实验数据说明及参数设置 |
4.2.2 录音回放攻击检测实验 |
4.2.3 具有录音回放攻击检测能力的说话人确认实验 |
4.3 本章小结 |
第5章 基于小波包熵密度特征的录音回放攻击检测 |
5.1 小波包熵密度特征 |
5.1.1 预处理 |
5.1.2 小波包变换(WPT) |
5.1.3 小波包节点选择 |
5.1.4 熵密度值 |
5.1.5 对数变换与离散余弦变换(DCT) |
5.2 实验设置与结果分析 |
5.2.1 实验数据说明及参数设置 |
5.2.2 录音回放攻击检测实验 |
5.2.3 具有录音回放攻击检测能力的说话人确认实验 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 研究展望 |
参考文献 |
攻读硕士学位期间科研情况 |
缩略语对照表 |
致谢 |
(3)基于非目标GMM和神经网络的声纹识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 声纹识别的研究现状 |
1.2.1 声纹识别的任务描述及评价标准 |
1.2.2 声音的公开数据集 |
1.3 声纹识别的模型发展 |
1.3.1 混合高斯模型GMM与通用背景模型UBM |
1.3.2 联合因子分析JFA与全因子空间I-vector |
1.4 神经网络的发展现状 |
1.5 本文主要内容 |
第二章 语音信号处理的基本方法与神经网络 |
2.1 语音信号的预处理 |
2.1.1 信号的采样与量化 |
2.1.2 声音的预加重、分帧与加窗处理 |
2.2 端点检测 |
2.2.1 短时能量 |
2.2.2 短时帧过零数 |
2.2.3 双门限检测法 |
2.3 语音特征参数 |
2.3.1 Mel倒频谱系数MFCC |
2.3.2 线性预测系数LPC |
2.3.3 离散小波变换DWT |
2.3.4 感知线性预测PLP |
2.4 神经网络 |
2.4.1 BP 神经网络的组成 |
2.4.2 CNN卷积神经网络 |
2.4.3 DNN深度神经网络 |
2.5 本章小结 |
第三章 基于DTW动态规整方法减小运算量 |
3.1 DTW动态规整算法 |
3.2 语音信号的准周期片段 |
3.3 实验过程 |
3.4 本章小结 |
第四章 GMM高斯模型验证 |
4.1 混合高斯分布 |
4.2 极大似然估计 |
4.3 EM算法 |
4.4 基于高斯混合模型的声纹识别流程 |
4.5 实验结果与分析 |
4.6 本章小结 |
第五章 BP模型的声纹识别 |
5.1 损失函数 |
5.2 反向传播算法 |
5.3 基于梯度下降的优化算法 |
5.4 高斯混合模型与BP神经网络的结合 |
5.4.1 理论基础 |
5.4.2 实验步骤 |
5.5 本章小结 |
总结与展望 |
参考文献 |
攻读学位期间发表的论文及申请的专利 |
致谢 |
(4)面向会议场景的声纹识别技术研究与系统实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 声纹识别问题概述 |
1.2.1 基本概念 |
1.2.2 发展历史 |
1.2.3 基本步骤 |
1.2.4 基本特点 |
1.3 声纹识别研究综述 |
1.3.1 相关理论研究进展 |
1.3.2 相关系统开发进展 |
1.4 主要工作与内容安排 |
第二章 小样本条件下准确声纹识别算法 |
2.1 问题描述 |
2.2 新型特征提取方法 |
2.2.1 训练阶段特征提取方法 |
2.2.2 识别阶段特征提取方法 |
2.3 基于会议场景模型训练方法 |
2.3.1 训练会议场景下的UBM |
2.3.2 会议场景模型再训练 |
2.4 算法流程 |
2.5 实验结果 |
2.6 本章小结 |
第三章 强噪条件下可靠声纹识别算法 |
3.1 问题描述 |
3.2 新型分类噪声去除方法 |
3.2.1 双MIC降噪 |
3.2.2 小波降噪 |
3.2.3 SOX降噪 |
3.2.4 PCA降噪 |
3.3 基于学习补偿的背景噪声去除方法 |
3.3.1 基于场景的噪声分类 |
3.3.2 背景噪声估计 |
3.3.3 噪声补偿 |
3.4 算法流程 |
3.5 实验结果 |
3.6 本章小结 |
第四章 面向会议场景的智能会议记录系统实现与测试 |
4.1 需求分析 |
4.2 系统架构 |
4.3 系统实现 |
4.3.1 终端侧模块 |
4.3.2 通信模块 |
4.3.3 服务器侧模块 |
4.4 系统测试 |
4.4.1 功能测试 |
4.4.2 性能测试 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文总结 |
5.2 未来展望 |
参考文献 |
附录1 攻读硕士学位期间申请的发明专利和软件着作权 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(5)基于小波分析的声纹识别关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 声纹识别技术的发展历史 |
1.3 声纹识别的研究方法与研究现状 |
1.3.1 语音特征提取算法研究 |
1.3.2 说话人模型研究 |
1.4 声纹识别的基线模型 |
1.4.1 梅尔倒谱系数特征提取 |
1.4.2 高斯混合模型建模 |
1.5 声纹识别的性能评价指标 |
1.6 论文主要内容与章节安排 |
第二章 基于小波变换的倒谱特征 |
2.1 引言 |
2.2 语音信号的倒谱分析技术 |
2.3 WSCC特征 |
2.4 WSCC-PNN识别模型 |
2.5 实验分析 |
2.5.1 实验数据集 |
2.5.2 测试WSCC特征的性能 |
2.5.3 测试倒谱特征的性能 |
2.5.4 测试声纹识别模型的性能 |
2.6 本章小结 |
第三章 基于感知小波包的熵特征 |
3.1 引言 |
3.2 听觉感知的基本知识 |
3.2.1 耳蜗感知过程 |
3.2.2 听觉模型 |
3.3 感知小波包变换 |
3.4 感知小波包熵 |
3.5 实验分析与讨论 |
3.5.1 实验数据集 |
3.5.2 测试感知小波包变换算法 |
3.5.3 测试PWPE的性能 |
3.6 本章小结 |
第四章 基于小波语音特征的I-vector模型 |
4.1 引言 |
4.2 I-vector模型的定义 |
4.3 基于小波语音特征的I-vector模型的生成过程 |
4.3.1 估计GMM-UBM |
4.3.2 估计全局变量矩阵 |
4.3.3 I-vector的估计过程 |
4.4 基于小波I-vector的声纹识别模型 |
4.5 实验与结论 |
4.5.1 实验数据与平台 |
4.5.2 测试向量说话人模型 |
4.5.3 测试声纹识别模型 |
4.6 本章小结 |
第五章 基于卷积神经网络的I-vector模型 |
5.1 引言 |
5.2 基于CNN的背景模型 |
5.3 CNN/I-vector建模过程 |
5.4 基于CNN/I-vector的声纹识别模型 |
5.5 实验与结论 |
5.5.1 实验数据集和平台 |
5.5.2 测试背景模型 |
5.5.3 测试I-vector模型 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(6)离线语音翻译技术(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景与意义 |
1.2 语音翻译国内外研究概况 |
1.3 语音翻译技术的构成 |
1.3.1 语音识别技术 |
1.3.2 机器翻译技术 |
1.3.3 语音合成技术 |
1.4 课题研究内容及结构安排 |
第2章 离线语音翻译相关基础知识 |
2.1 语音识别基本原理 |
2.2 语音识别系统基本构成 |
2.2.1 语音信号预处理 |
2.2.2 特征参数提取 |
2.2.3 声学模型 |
2.2.4 语言模型 |
2.2.5 解码器 |
2.3 统计机器翻译理论基础 |
2.4 统计机器翻译系统构成 |
2.5 离线语音翻译特点概述 |
2.6 本章小结 |
第3章 基于小波变换的语音增强算法研究 |
3.1 小波变换的数学描述 |
3.2 小波去噪基本原理 |
3.3 小波阈值去噪原理 |
3.4 基于改进阈值函数的小波去噪分析 |
3.4.1 传统阈值函数 |
3.4.2 改进的阈值函数 |
3.4.3 确定阈值和分解层数 |
3.5 仿真实验与结果分析 |
3.5.1 去噪效果评价指标 |
3.5.2 测试信号实验仿真 |
3.5.3 语音信号去噪实验 |
3.6 本章小结 |
第4章 基于DNN-HMM声学建模的离线语音识别 |
4.1 深度神经网络理论 |
4.1.1 神经元 |
4.1.2 深度学习的训练方法 |
4.1.3 深度神经网络模型 |
4.2 基于DNN-HMM声学建模 |
4.2.1 GMM与 DNN比较 |
4.2.2 DNN与 HMM结合原理 |
4.3 Kaldi语音识别系统 |
4.3.1 Kaldi简介 |
4.3.2 系统搭建 |
4.4 数据准备 |
4.4.1 语料数据集及评价标准 |
4.4.2 准备过程 |
4.5 实验步骤 |
4.5.1 语言模型训练 |
4.5.2 DNN-HMM声学模型训练 |
4.6 实验结果与分析 |
4.6.1 实验结果 |
4.6.2 实验分析 |
4.7 离线语音识别系统测试 |
4.8 本章小结 |
第5章 离线语音翻译的研究与实现 |
5.1 基于短语的统计机器翻译系统 |
5.1.1 基于短语的统计机器翻译模型 |
5.1.2 翻译系统各子模型训练流程 |
5.1.3 各子模型获取生成 |
5.2 评测指标 |
5.3 系统实现与测试 |
5.3.1 实验语料与环境 |
5.3.2 离线语音翻译系统实现 |
5.3.3 系统测试对比分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 论文不足和后续工作 |
致谢 |
参考文献 |
附录 |
(7)基于含噪语音的说话人识别研究(论文提纲范文)
摘要 |
abstract |
注释表 |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 说话人识别技术的研究进展 |
1.3 噪音环境下说话人识别国内外研究现状 |
1.3.1 噪音环境下说话人识别特征提取方法 |
1.3.2 噪音环境下说话人识别参数模型方法 |
1.4 研究难点 |
1.5 论文主要工作 |
1.6 论文组织结构 |
第2章 说话人识别的关键技术 |
2.1 说话人识别概述 |
2.1.1 说话人识别分类 |
2.1.2 说话人识别的基本组成 |
2.2 特征提取 |
2.2.1 梅尔频率倒谱系数MFCC |
2.2.2 伽马通频率倒谱系数GFCC |
2.3 识别模型 |
2.3.1 高斯混合模型GMM |
2.3.2 i-vector说话人模型 |
2.4 噪音环境下说话人识别技术 |
2.4.1 噪声分类 |
2.4.2 噪声环境下说话人识别的基本方法 |
2.5 说话人识别系统性能评价 |
2.6 本章小结 |
第3章 说话人识别中语音增强算法的研究 |
3.1 常用语音增强方法 |
3.1.1 谱减法 |
3.1.2 非负矩阵分解算法 |
3.2 非负矩阵分解优化算法 |
3.3 语音增强算法的融合研究 |
3.4 实验结果与分析 |
3.4.1 实验条件 |
3.4.2 结果和分析 |
3.5 本章小结 |
第4章 基于深浅层特征融合的特征提取方法 |
4.1 引言 |
4.2 深度学习 |
4.2.1 深度置信网络 |
4.2.2 深度自动编码网络 |
4.3 特征提取 |
4.3.1 深层特征提取 |
4.3.2 深浅层特征融合 |
4.4 实验结果及分析 |
4.4.1 实验条件 |
4.4.2 结果与分析 |
4.5 本章小结 |
第5章 说话人识别系统平台设计 |
5.1 引言 |
5.2 实验的前提条件 |
5.2.1 实验的软硬件环境 |
5.2.2 MATLAB工具 |
5.3 说话人识别系统平台的实现 |
5.3.1 系统框架设计 |
5.3.2 系统界面设计 |
5.3.3 系统功能实现 |
5.4 识别平台测试与分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 研究工作总结 |
6.2 研究工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(8)声纹识别技术在电缆沟外力破坏预警系统中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究的目的及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文主要工作及结构安排 |
1.3.1 论文的主要工作 |
1.3.2 论文结构安排 |
第二章 电缆沟外力破坏预警系统及信号分析 |
2.1 预警系统软硬件架构 |
2.2 外力破坏信号分析 |
2.3 基于声纹识别技术进行外力破坏预警的可行性分析 |
2.4 本章小结 |
第三章 外力破坏信号声纹识别算法研究 |
3.1 信号的预处理 |
3.1.1 信号数据的采集 |
3.1.2 信号数据的去噪处理 |
3.1.3 信号的预加重 |
3.1.4 信号的加窗分帧 |
3.1.5 信号的端点检测 |
3.2 信号特征提取 |
3.3 声纹识别算法设计 |
3.3.1 GMM-UBM模型训练 |
3.3.2 GMM-UBM模式匹配 |
3.4 本章小结 |
第四章 现场测试及结果分析 |
4.1 测试目的 |
4.2 测试方法和工具 |
4.3 测试目标要求 |
4.4 测试场景 |
4.5 测试内容 |
4.5.1 外力破坏信号识别预警测试 |
4.5.2 外力破坏报警测试 |
4.6 测试结果分析 |
4.7 本章小结 |
总结与展望 |
论文总结 |
未来研究与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(9)跨越说话人及语言差异的语音生成(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 语音转换 |
1.1.2 跨语言语音合成 |
1.2 语音转换的技术与现状 |
1.2.1 语音转换的关键技术 |
1.2.2 语音转换技术的评估方法 |
1.3 跨语言语音合成的技术现状 |
1.4 现有的方法存在的问题及原因分析 |
1.4.1 语音转换存在的问题 |
1.4.2 跨语言语音合成存在的问题 |
1.5 本文的主要研究内容 |
第2章 基于神经网络回归模型的语音转换 |
2.1 引言 |
2.2 人工神经网络 |
2.2.1 前馈网络结构 |
2.2.2 循环网络结构 |
2.2.3 卷积网络结构 |
2.3 基于神经网络的语音转换框架 |
2.3.1 基于序列误差的神经网络优化 |
2.3.2 基频的小波分解 |
2.4 实验 |
2.4.1 实验设置 |
2.4.2 基于序列误差最小化训练的收敛性 |
2.4.3 最小化序列误差vs.最小化帧误差 |
2.4.4 基于高斯归一化的基频转换vs.基于神经网络的基频转换 |
2.5 本章小结 |
第3章 基于KL散度及深度神经网络的语音转换 |
3.1 引言 |
3.2 深度神经网络在声学建模中的应用 |
3.3 KL散度 |
3.4 基于KL散度及深度神经网络的语音转换框架 |
3.4.1 说话人无关神经网络去除声学差异 |
3.4.2 基于最小化KLD的匹配 |
3.4.3 声学轨迹估计 |
3.5 实验 |
3.5.1 实验设置 |
3.5.2 音素聚类的收敛性 |
3.5.3 基于TTS senone和音素类的最小化KL散度匹配的对比 |
3.5.4 音素类的数量 |
3.5.5 客观测试:KL散度 |
3.5.6 轨迹估计中的窗长 |
3.5.7 对数谱距离 |
3.5.8 目标说话人的训练数据量 |
3.5.9 语音自然度和说话人相似度的A/B主观测试 |
3.5.10 基于KLD-DNN的语音转换系统的增强 |
3.6 本章小结 |
第4章 基于SI-DNN及 WaveNet模型的语音转换 |
4.1 引言 |
4.2 声码器 |
4.2.1 基于线性预测编码的声码器 |
4.2.2 基于WaveNet的声码器 |
4.3 基于音素空间的单元帧拼接及WaveNet声码器的语音转换 |
4.4 基于SI-DNN隐层瓶颈特征及WaveNet的语音转换方法 |
4.4.1 深度神经网络隐层瓶颈特征 |
4.4.2 基于SI-DNN隐层瓶颈特征及WaveNet的框架 |
4.5 实验 |
4.5.1 实验设置 |
4.5.2 客观测试:对数谱距离 |
4.5.3 主观测试:自然度和说话人相似度的A/B偏好测试 |
4.6 本章小结 |
第5章 基于KL散度及说话人无关深度神经网络的跨语言语音合成 |
5.1 引言 |
5.2 基于GMM-HMM的单说话人单语言合成系统 |
5.3 基于轨迹拼接的跨语言语音合成 |
5.3.1 基于频率弯折的语音转换 |
5.3.2 网格构建 |
5.3.3 基于归一化交叉相关的网格搜索和拼接 |
5.4 基于KL散度及深度神经网络的跨语言语音合成框架 |
5.4.1 有监督场景基于TTS senone |
5.4.2 无监督场景基于语音帧的加权平均 |
5.5 实验 |
5.5.1 实验设置 |
5.5.2 客观测试 |
5.5.3 前提假设的验证 |
5.5.4 主观测试 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(10)基于小波倒谱系数和概率神经网络的取证说话人识别模型(论文提纲范文)
0 引言 |
1 传统的说话人识别模型 |
2 传统的模型 |
2.1 特征提取 |
2.2 说话人分类 |
3 提出的模型 |
3.1 特征提取 |
3.2 说话人分类 |
3.3 可靠性评估 |
4 仿真结果 |
4.1 仿真数据 |
4.2 识别模型性能评估 |
4.3 抗噪能力测试 |
4.4 时间代价评估 |
5 结束语 |
四、基于小波变换与GMM的说话人识别研究(论文参考文献)
- [1]基于耳蜗倒谱系数特征的说话人识别研究[D]. 徐文涛. 湘潭大学, 2020(02)
- [2]面向说话人确认的录音回放攻击检测[D]. 郭星辰. 苏州大学, 2020(02)
- [3]基于非目标GMM和神经网络的声纹识别研究[D]. 陈洪极. 广东工业大学, 2020(06)
- [4]面向会议场景的声纹识别技术研究与系统实现[D]. 高财政. 南京邮电大学, 2019(02)
- [5]基于小波分析的声纹识别关键技术研究[D]. 雷磊. 电子科技大学, 2019(04)
- [6]离线语音翻译技术[D]. 詹展. 杭州电子科技大学, 2019(01)
- [7]基于含噪语音的说话人识别研究[D]. 巴莉芳. 重庆邮电大学, 2019(02)
- [8]声纹识别技术在电缆沟外力破坏预警系统中的应用研究[D]. 冯淼. 华南理工大学, 2019(02)
- [9]跨越说话人及语言差异的语音生成[D]. 解奉龙. 哈尔滨工业大学, 2019(01)
- [10]基于小波倒谱系数和概率神经网络的取证说话人识别模型[J]. 雷磊,佘堃. 计算机应用研究, 2018(04)