外文文献翻译--使用MFCCDTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】 【PDF+中文WORD】
外文文献翻译--使用MFCCDTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】 【PDF+中文WORD】,中文4600字,PDF+中文WORD,外文文献翻译,使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】,【PDF+中文WORD】,外文,文献,翻译,使用,MFCC,DTW
【中文4600字】
使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统
Muhammad Atif Imtiaz
电子电气工程学院工程技术学院,
Taxila
atif.imtiaz@uettaxila.edu.pk
Gulistan Raja
电子电气工程学院工程技术学院,
Taxila
gulistan.raja@uettaxila.edu.pk
摘要 - 自动语音识别(ASR)系统被定义为将声音语音信号转换为字串。本文提出了一种基于Mel倒谱系数(MFCC),动态时间包络(DTW)和K最近邻(KNN)技术的基于孤立词结构的ASR系统的方法。 Mel-Frequency量表用于捕捉语音信号的重要特征;使用MFCC提取语音的特征。DTW用于语音特征匹配。KNN被用作分类器。实验设置包括从五位讲者收集的英语语言。这些话是在声学平衡,无噪音的环境中说出来的。所提出的ASR系统的实验结果是以称为混淆矩阵的矩阵形式获得的。本研究所获得的识别准确率为98.4%。
关键词:ASR; MFCC; DTW; KNN
1.简介
言语是人类肺部空气中周期性变化的传播。生产和塑造实际声音的责任由人类声带在咽,鼻腔和嘴的帮助下完成。自动语音识别(ASR)系统是在数字设备中自动解释人类语音的过程,并被定义为声学语音信号到单词串的转换。一般而言,所有ASR系统的目标是用来从输入语音信号中提取字符串[1]。在ASR过程中,输入是语音话语,输出是与给定输入相关联的文本数据形式。ASR系统的性能主要依赖的一些因素是词汇量,训练数据量和系统计算复杂度。ASR有很多应用,如广泛用于家用电器,安全设备,手机,ATM机和计算机。
本文介绍了一个用小词汇量词汇进行实验的英语语言ASR系统。本白皮书的其余部分组织如下:第II节介绍整体ASR系统概述,ASR系统中使用的主要模块。第三节描述了使用特征提取和分类技术实现ASR系统。第四节讨论了实验装置的简要描述,以及一些实验结果。第五节讨论了结论性意见。
II.ASR系统概述
ASR系统包括两个主要块,即特征提取块和分类块,如图1所示。
图1.建议的ASR系统设计的框图
块的输入是语音,块的输出是文本数据。块的工作如下所述:
A.特征提取块
特征提取是ASR系统中最重要的模块之一。在ASR中,语音信号被分成较小的帧,通常为10到25毫秒。由于存在冗余信息,存在于语音信号中。因此,应用重要而有用的信息特征提取技术。这也将有助于减少维度。感知线性预测(PLP)系数,基于小波变换的特征,线性预测系数(LPC),基于小波包特征和Mel频率倒谱系数(MFCC)是ASR广泛使用的特征。本研究中使用MFCC并在第三节详细讨论。
B.分类块
在从语音信号中提取特征之后,将提取的特征提供给分类块用于识别目的。在分类中,输入语音特征向量用于训练已知特征模式,并在测试数据集上进行测试,分类器的性能以百分比识别精度进行评估。在这项研究中,DTW用于特征匹配,KNN用于分类,在第三节中进一步讨论。
C.数据库
在ASR系统中,数据库是一组语音样本。收集这些语音数据样本以说明语言的不同变化方面。选择数据集对于成功进行ASR研究具有重要意义。它提供了一个比较不同语音识别技术性能的平台[3]。它还为研究人员提供了不同语音识别方面的平衡,即性别,年龄和方言。数据库包含大,中或小尺寸,具体取决于字数。数据可以从书籍,报纸,杂志,讲座和电视广告等来源收集。由于志愿者无法使用以及身份问题,语音数据库不易获取。一些标准的语音数据库可用于少数语言,如BREF法语,TIMIT英语和ATR日语等[4]。
3.ASR系统的实现
在本节中,将详细讨论特征提取技术Mel的频谱倒谱系数(MFCC),特征匹配技术(DTW)和特征分类技术K-最近邻(KNN)的实现和描述。
A.Mel频率倒谱系数
作为频率函数的人类言语本质上不是线性的;因此单一频率的声音语音信号的音高被映射为“梅尔”音阶。在梅尔尺度下,低于1 kHz的频率间隔是线性的,高于1 kHz的频率间隔是对数的[5]。通过使用等式(1)计算对应于赫兹频率的梅尔频率。
Mel频率倒谱系数(MFCC)计算的框图如图2所示。
图2. MFCC计算的框图
下面详细描述图2中所示的内部块:
1) 预处理:录制的音频信号采样率为16 kHz。每个单词存储在单独的音频文件中。预处理步骤包括预加重信号以提高高频信号的能量。等式(2)给出了预加重滤波器的差分方程。
预加重滤波器的输出响应如图3所示。
图3.预加重滤波器输出
2)成帧和开窗:语音信号本质上不是固定的。为了使它静止框架使用。成帧是预处理后的下一步;在该步骤中,语音信号被分成彼此重叠的较小帧。成帧开窗后用于消除帧边缘的不连续性。本研究中使用的窗口方法是Hamming Window。汉明窗由等式(3)定义。
其中,N是单个帧中的样本总数。原始信号和窗口信号的输出响应如图4所示。
图4.原始信号与窗口信号
3) 快速傅里叶变换(FFT):快速傅立叶变换用于计算信号的离散傅立叶变换(DFT),其中N = 512的大小已被使用[6]。执行此步骤将信号转换为频域。使用等式(4)计算FFT。
其中,N是FFT的大小。 FFT的幅度谱如图5所示。
图5.快速傅立叶变换幅度谱
4) MelFilter Bank:对信号进行FFT后的下一步是从Hertz到Mel Scale的转换,频谱功率转换为Mel标度[7]。梅尔滤波器组由三角形重叠滤波器组成,如图6所示
5)
图6. MFCC滤波器组输出
6) Delta能量:在这一步中取前一步输出的对数为10的对数。对数能量的计算是必不可少的,因为人耳对声学语音信号电平的响应不是线性的,人耳对振幅在较高振幅处的差异不太敏感。对数函数的优点是它倾向于重复人耳的行为。能量计算使用等式(5)计算。能量计算图如图7所示。
图7.信号记录能量输出
7) 离散余弦变换(DCT):采用离散余弦变换(DCT)后取对数的梅尔滤波器组的输出。它最终产生Mel频率倒谱系数。在这个单独的词的研究中,取出了39个三维特征,即12-MFCC(梅尔频率倒谱系数),一个能量特征,一个三角洲能量特征,一个双三角洲能量特征,12-delta MFCC特征和12-双delta MFCC功能。等式(6)定义N点DCT [8]。
单个单词的MFCC图形如图8所示。
图8.单字的MFCC
B.分类和识别
在确定系统特别是ASR系统的性能时,分类器的作用非常显着。在这项研究中,动态时间规整(DTW)和K-最近邻已被用于语音特征匹配和分类。 DTW测量两个时间序列中的相似性,这两个时间序列在时间或速度上有所不同。为了优化两个时间序列之间的相似性,在DTW的编程中考虑了动态方法。对于连续语音识别情况,隐马尔可夫模型(HMM)和人工神经网络(ANN)被认为适用于分类。人工神经网络有复制人类大脑活动的趋势。人工神经网络由一组相互连接的神经元组成。在人工神经网络中,产量是通过计算输入加权和的乘积来衡量的。最流行的连续语音识别分类技术之一是隐马尔可夫模型(HMM)。它基本上是统计分类技术,并在存在两个随机变量的情况下对时间序列进行建模[9]。建议研究侧重于基于单词结构的单词的ASR,并且不需要任何语言模型。在这项研究中,动态时间包络(DTW)和K-最近邻(KNN)技术已被用于基于MFCC的特征匹配和分类。分类步骤包括两个阶段;
i)预热
ii)测试
结果和百分比识别准确性以混淆矩阵的形式获得。下一节将进一步讨论DTW和KNN。
1)动态时间包络(DTW):DTW算法
计算是考虑在两个时间序列中测量接近度,这可能会在时间和速度上发生变化。如果一个时间安排可能通过延长或缩短它的时间枢纽而非直线地包裹,那么比较就是根据两个时间安排的位置来衡量的。
可以进一步利用两次布置中的包裹来发现两个时间布置中的相关区域或聚焦两个时间布置之间的接近度。数字上,DTW比较两个时间布置的模式并借助于最小距离公式来测量它们之间的相似性。考虑具有长度n和m的两个时间序列P和Q,即
在时间序列P和Q中,矩阵的第i和第j个分量包含两个矩阵点pi和qj [10]中的距离d(pi,qj)。然后使用欧几里得距离公式,在等式(7)中测量两点之间的绝对距离。
每个矩阵元素i和j属于点pi和qj中的对齐。然后,使用等式(8)计算累积距离。
2)K-最近邻(KNN):本研究中KNN分类器的工作如下。
l KNN方法包括分配特征空间中距离给定分数最近的特征向量的索引。
l 来自DTW的最低得分指数以KNN方法处理。
l 将当前特征融合到特征空间的各个特征上。
l KNN返回多个特征,但这些特征来自特征空间。
l KNN返回的模式特征提供最常见的特征在于它将成为认可的词
图9. KNN的流程图
3)混淆矩阵:为了检查系统的效率,即识别准确度和误差百分比,形成混淆矩阵。在N个字的情况下,它将包含N×N矩阵。在混淆矩阵的所有对角线条目中,状态Aij对于i = j,表明了一个单词i没有正确匹配的时间[11]。类似地,非对角条目,对于i≠j,状态Aij表示单词i与单词j相混淆的次数
A11 A12 A13 … A1N
A21 A22 A23 … A2N
A31 A32 A33 … A3N
. . . … .
. . . … .
AN1 AN2 AN3 … ANN
4)百分比误差:为了检查整个系统的性能,错误百分比的计算非常重要,它以混淆矩阵的形式进行计算。为此,测试一个单独的单词并检查它成功识别了多少次,并在第i行的对角线条目中声明。百分比是通过成功除以条目总数除以计算的。因此,对于特定的词,正确匹配C和百分比误差E可以如等式(9)和(10)中那样表示。从混淆矩阵得到的结果在第四节中进一步讨论。
4.实验结果与讨论
这些实验是在一个小型的英语词汇上进行的。该设置包括从五个不同的说话人说出的话。这些话是在声学平衡,无噪音的环境中说出来的。在MATLAB R2014b的帮助下分析了实现和实验结果。ASR的测试和训练结果是以称为混淆矩阵的矩阵的形式获得的,如图10所示。
图10.词的混淆矩阵图
在混淆矩阵图的图10中,x轴和y轴显示词的索引。 z轴显示高度,即显示总次数,单个单词被成功识别或与任何其他单词混淆。对角线插槽显示高度为成功识别率。在这种情况下,最大可能达到的高度是200.在这种情况下,一个单词被测试的总次数是200.表I中总结了正确匹配C和错误%E的值。
表I:词的识别和错误百分比
词汇
正确匹配的价值C
识别精度 (%)
错误 (%) =
(1-C)x100
“Dark”
0.98
98
2
“Wash”
0.99
99
1
“Water”
0.995
99.5
0.5
“Year”
0.975
97.5
2.5
“Don’t”
0.97
97
3
“Carry”
0.995
99.5
0.5
“Greasy”
0.98
98
2
“Like”
0.985
98.5
1.5
“Oily”
0.975
97.5
2.5
“That”
0.995
99.5
0.5
累计平均
0.984
98.4
1.6
表1描述了数据集的识别和错误率。首先对每个单词进行单独评估,然后计算数据集的累积平均值。作为测试ASR系统的结果,以混淆矩阵的形式获得数据。上述数据集的累计平均成功率为98.4%,错误率为1.6%。
5.总结
拟议的ASR系统研究描述了MFCC,DTW和KNN技术。特征的提取使用MFCC来执行,DTW用于语音特征匹配并且KNN用于分类。 KNN处理从DTW获取的最低分数索引。实验结果以混淆矩阵的形式得到。在整个研究过程中观察到,当MFCC,DTW和KNN联合使用时,所提出的ASR系统显示出良好的识别性能。本研究所获得的识别准确率为98.4%,误差为1.6%。
参考
[1] J.M. Gilbert *,S.I. Rybchenko,R. Hofe,S.R. Ell,M.J. Fagan,R.K. Moore,P. Green,“使用磁性植入物和传感器的沉默言语的孤立词识别”,International Journal of Medical Engineering and physics,vol。 32,第1189-1197页,2010年8月。
[2] Vimala.C和Dr.V.Radha“语音识别挑战和方法综述”计算机科学与信息技术杂志(WCSIT)的世界ISSN:2221-0741 Vol。 2,第1号,第1-7页,2012年。
[3] J.Clear和N.Ostler S.Atkins,“语料库设计标准”,Oxford Journal of Literary and linguistic computing,vol。 7,没有。 1,pp.1-16,1992。
[4] L. F. Lamel和M. Eskenazi J. L. Gauvain,“第一届国际口语语言处理会议,ICSLP,1990年,第1097-1100页,”BREF的设计考虑和文本选择,大型法语阅读语料库“。
[5] M Murugappan,Nurul Qasturi Idayu Baharuddin,Jerritta S“基于LDA和MFCC的基于人类情绪语音分类的LDA”国际生物医学工程会议(ICoBE),槟城,2012年2月27 - 28日,第203-206页。
[6] Michael Pitz,Ralf Schluter和Hermann Ney Sirko Molau,“在功率谱上计算Mel频率倒谱系数”,2001年IEEE国际声学,语音和信号处理会议,2001年。会议录。 (ICASSP '01),美国,2001年,第73-76页。
[7] Ibrahim Patel和Y. Srinivas Rao博士“使用HMM进行语音识别,使用频谱分解技术进行MFCC-AN分析”Signal&Image Processing:An International Journal(SIPIJ)Vol.1,No.2,pp.101 -110,2010年12月。
[8] AMilton,S.Sharmy Roy,S.Tamil Selvi“用于MFCC特征的语音情感识别的SVM方案”国际计算机应用杂志(0975-8887)第69卷第9期第34-39页,2013年5月。
[9] Areg G. Baghdasaryan和A. A.(Louis)Beex“Automatic Segmentation with Segmental Hidden Markov Models”IEEE 2011 Conference on Signals,Systems and Computers,ASILOMAR,2011,pp.569-574。
[10] Anjali bala,Abhijeet kumar,Nidhika birla。 “基于MFCC和DTW的语音命令识别系统”国际工程科学与技术期刊, 2,没有。 12,第7335-7342页,2010年1月。
[11] Ting-Nong Ting,Boon-Fei Yong,Seyed Mostafa Mirhassani,“Self-Adjustable Neural Network for speech recognition,”International Journal of Engineering Applications of Artificial Intelligence,vol。 26,pp2022-2027,July2013。
收藏
编号:233075192
类型:共享资源
大小:1.49MB
格式:ZIP
上传时间:2023-10-02
12
积分
- 关 键 词:
-
中文4600字
PDF+中文WORD
外文文献翻译--使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】
【PDF+中文WORD】
外文
文献
翻译
使用
MFCC
DTW
- 资源描述:
-
外文文献翻译--使用MFCCDTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】 【PDF+中文WORD】,中文4600字,PDF+中文WORD,外文文献翻译,使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】,【PDF+中文WORD】,外文,文献,翻译,使用,MFCC,DTW
展开阅读全文
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。