数字语音处理
摘 要
语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的数字处理,语音信号的好坏、语音识别率的高低,都取决于语音信号处理的好坏。因此,语音信号处理是一项非常有意义的研究课程。
语音,即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别.语音是人们交流思想和进行社会活动的最基本手段, 因此我们要对语音信号进行处理分析,优化人类通信交流。
语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。语音信号是人们构成思想疏通和感情交流的最主要的途径,通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。现在随着时代的发展,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。在本次实训中我设计的题目是:语音信号的数字处理。实训的设计是对语音信号的数字处理,通过对所采集的语音信号进行时域波形和频谱图分析,采用双线性变换法设计滤波器,语音信号通过对滤波器进行滤波,然后回放语音信号,并对其滤波前和滤波后的语音变化进行分析。现在社会衍生了很多现代的语音通信方式,手机语音、语音聊天软件以及语音小说等,涉及语音的方面几乎遍及了我们的大部分生活,和我们生活息息相关,因此语音信号处理是具有现实意义的研究课程。
一、数字处理关键技术
1.1语音编码技术
语音信号的数字化,最简单的方法是对其直接进行模/ 数转换;只要采样率足够高,量化每个样本的比特数足够多,则可以保证解码恢复的语音信号有很好的音质,不会丢失有用信息。
对语音进行压缩编码的基本依据有两个:一个是从产生语音的物理机理和语言结构的性质来看,语音信号是强相关、弱平稳信号,有很高的冗余度。语音压缩的实质就是识别这些冗余度并设法去掉它们。语音编码的第二个依据是利用人类的听觉特性。首先语音编码利用人耳分辨率有限特性,不需要对语音样点幅度做精确表示,即语音信号对于人耳带有过多的信息,通过量化可以去除这些过多的信息,从而达到压缩的目的。其次,人类听觉有“掩蔽效应”的特点,即当两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉。目前常见的语音编码算法有线性预测编码、多脉冲激励线性预测编码、码激励线性预测编码、多带激励编码等。多脉冲激励线性预测编码算法采用了由多个不均匀间隔脉冲所组成的激励序列,此算法在10kbit/s 的低码率下能产生比较好的语音质量,但对高基音说话者来说,其性能通常会有所下降。码激励线性预测编码的算法是利用矢量化的码本,将激励序列编码。码本中的每一个存储的码字矢量(简称码矢量) 都可以代替余量信号作为可能的激励信号源。
实践表明,码激励线性预测编码器在4.8-1610kbit/s 范围内可以获得质量相当高的合成语音,是最具有吸引力的语音压缩编码方式之一。多带激励语音编码将语音谱按基音谐波频率分成若干个频带,逐带分别判断是清音还是浊音,然后采用不同的激励信号源产生该带的合成信号,最后将各带相加,形成全带合成语音。多带激励语音编码是目前低速率语音编码较理想的方案,在2.4-4.skbit/s 的速率上能合成出比传统声码器好得多的语音。
目前,语音压缩编码技术主要有两个努力方向:一个是中低速率的语音编码的实用化,及如何在使用过程中进一步减低编码速率和提高其抗干扰、抗噪声能力;另一个是如何进一步的降低其编码速率。目前比较好的算法还有正弦变换编码、混合激励线性预测编码、时频域插值编码、基音同步激励线性预测编码等,同时还要求引入新的分析技术,如非线性预测、多精度时频分析技术(包括子波变换技术)、高阶统计分析技术等。这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性作语音的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。
1.2 纠错编码技术
纠错编码技术的目的有两个:一是解决由信道噪声所产生的随机性差错,二是解决由脉冲干扰所引起的突发性差错。
RS 码纠错性能分析:RS 码是非二进制码,RS 码的码字取自GF(2m),也就是由0.1、α和α的各次幂组成。RS 码不仅能够纠单个随机错误,还可以纠突发错误。在GF(24)域中,(15,11) 码可纠2 位错,(15,9) 码可纠3 位错,(15,7) 码可纠4 位错。RS 码是多进制码,而通常在实际系统中用的是二进制码。如何把二进制码与多进制码对应起来?我们以GF(24)域上的RS 码加以说明。首先,把二进制数据流按四比特分,将一个二进制序列分为四位一组。这每个四位二进制按照预先编辑好的4 一重表示法与α的某个幂值,即GF(24)域中的元素一一对应,把这4 位二进制序列可以看成是RS 码中的一个符号,这样,就可以用RS 码来解决我们实际系统中的复杂信道数据传输的纠错问题了。
1.3 自适应均衡技术
均衡的目的是在接收端对于信道非理想特性造成的信号畸变进行补偿,抑制接收信号之间的符号间干扰,从而尽可能地恢复发射波形。自适应均衡技术是目前使用较多的一种信道均衡方法。它可以通过发射学习码,来自适应的学习信道特性,实时估计信道响应,以便利用学习阶段得到的自适应均衡网络参数,对畸变的信号波形进行补偿,从而得到估计信号。总之,自适应均衡器是用来自动补偿由于信道的非理想频率特性而产生的畸变,可以简单地理解成均衡器与信道的传递函数互为倒数,作用抵消,从而获得最佳传输波形以消除IS 工,恢复原始信号,同时使有限的带宽得以充分利用。
二、语音信号降噪处理分析MATLAB 介绍
2.1 语音信号
语音信号的采集与分析作为一个重要的研究领域, 20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速博里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在
方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深。所以1969年美国贝尔研究所的Pierce 感叹地说“语音识别向何处去? ”1971年,以美国
ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。
进入20世纪90年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐
马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。
其中MATLAB 音频信号的分析与合成,采用MATLAB 分析WAV 文件。首先选择一个WAV 文件作为分析的对象 。继而进行 FFT 变换并画频域图形 ,进行该声波主要频谱的分析,根据该声音的频谱,反演时域图形 ,最后进行付立叶逆变换IFFT 并画频域图形 。
2.2 语音信号的特点
通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:第一、在频域内,语音信号的频谱分量主要集中在300~3400Hz 的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。第二、在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。
2.3 语音信号的采集
在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波
的目的有两个:
(1)抑制输入信导各领域分量中频率超出f s /2的所有分量(f s 为采样频率),以防止混叠干扰。
(2)抑制50Hz 的电源工频干扰。
为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔∆t 在模拟信号x (t ) 上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率f s 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能
正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。
在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择∆t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T )的信号,采集到过大的数据量(N =T /∆t ) ,给计算机增加不必要的计算工作量和存储空间;若数据量(N )限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。
语音信号经过预滤波和采样后,由A/D变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。
在实际工作中,我们可以利用windows 自带的录音机录制语音文件,基于PC 机的语音信号采集过程,声卡可以完成语音波形的A/D
转换,获得WAVE 文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的WAV 文件。
采集到语音信号之后,需要对语音信号进行分析,如画出采样后语音信号的时域波形和频谱图;双线性变换设计滤波器,并画出滤波器的频率响应;然后用自己设计的滤波器对采集的语音信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比,分析信号的变化;回放语音信号。
2.4信号频谱分析
信号的频谱分析是将信号源发出的信号强度按频率顺序展开,使其成为频率的函数,并考察变化规律,称为频谱分析。频谱分析主要分析信号是由哪些频率的正弦信号叠加得到的,以及这些正弦信号的振幅。信号的频谱可分为幅值谱、相位谱、功率谱、对数谱等等。对信号作频谱分析的设备主要是频谱分析仪,它把信号按数学关系作为频率的函数显示出来,其工作方式有模拟式和数字式二种。模拟式频谱分析仪以模拟滤波器为基础,从信号中选出各个频率成分的量值;数字式频谱分析仪以数字滤波器或快速傅立叶变换为基础,实现信号的时—频关系转换分析。
傅立叶变换是信号频谱分析中常用的一个工具,它把一些复杂的信号分解为无穷多个相互之间具有一定关系的正弦信号之和,并通过对各个正弦信号的研究来了解复杂信号的频率成分和幅值。
信号频谱分析是采用傅立叶变换将时域信号x(t)变换为频域信号X(f),从而帮助人们从另一个角度来了解信号的特征。时域信号x(t)的傅氏变换为:
X (f ) =⎰x (t ) e -j 2πft dt -∞+∞
式中X(f)为信号的频域表示,x(t)为信号的时域表示,f 为频率。
频谱分析主要用于识别信号中的周期分量,是信号分析中最常用的一种手段。典型信号正弦波、方波、三角波和白噪声信号是实际工程测试中常见的典型信号,这些信号时域、频域之间的关系很明确,并且都具有一定的特性,通过对这些典型信号的频谱进行分析,对掌握信号的特性,熟悉信号的分析方法大有益处,并且这些典型信号也
可以作为实际工程信号分析时的参照资料。本次实验利用DRVI 快速可重组虚拟仪器平台可以很方便的对上述典型信号作频谱分析。
2.5 信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算且少;(3)可以得到语音的一些重要的参数;(4)只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用。在计算这些参数时使用的一般是凯泽窗或汉明窗。
总结:在语音研究中,语音特征的可视化是重要的研究手段。由于语音特征的多样性和研究目的的差异性,设计一个界面友好、接口开放、扩展能力良好的研究平台具有重要的实用价值。本文设计和建立了一个模块组合式结构的数字语音处理研究平台。该平台将数字语音处理分为分析阶段和可视化阶段。可视化部分直接集成在平台内部模块中,分析功能在外部模块中实现。该平台具有良好的伸缩性,能够快速地适应不同处理业务的需求。它还内建支持了基于XML 格式的标注格式,因此能够被直接应用到语料库建设及相关的语音分析领域。
数字语音处理
摘 要
语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的数字处理,语音信号的好坏、语音识别率的高低,都取决于语音信号处理的好坏。因此,语音信号处理是一项非常有意义的研究课程。
语音,即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别.语音是人们交流思想和进行社会活动的最基本手段, 因此我们要对语音信号进行处理分析,优化人类通信交流。
语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。语音信号是人们构成思想疏通和感情交流的最主要的途径,通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。现在随着时代的发展,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。在本次实训中我设计的题目是:语音信号的数字处理。实训的设计是对语音信号的数字处理,通过对所采集的语音信号进行时域波形和频谱图分析,采用双线性变换法设计滤波器,语音信号通过对滤波器进行滤波,然后回放语音信号,并对其滤波前和滤波后的语音变化进行分析。现在社会衍生了很多现代的语音通信方式,手机语音、语音聊天软件以及语音小说等,涉及语音的方面几乎遍及了我们的大部分生活,和我们生活息息相关,因此语音信号处理是具有现实意义的研究课程。
一、数字处理关键技术
1.1语音编码技术
语音信号的数字化,最简单的方法是对其直接进行模/ 数转换;只要采样率足够高,量化每个样本的比特数足够多,则可以保证解码恢复的语音信号有很好的音质,不会丢失有用信息。
对语音进行压缩编码的基本依据有两个:一个是从产生语音的物理机理和语言结构的性质来看,语音信号是强相关、弱平稳信号,有很高的冗余度。语音压缩的实质就是识别这些冗余度并设法去掉它们。语音编码的第二个依据是利用人类的听觉特性。首先语音编码利用人耳分辨率有限特性,不需要对语音样点幅度做精确表示,即语音信号对于人耳带有过多的信息,通过量化可以去除这些过多的信息,从而达到压缩的目的。其次,人类听觉有“掩蔽效应”的特点,即当两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉。目前常见的语音编码算法有线性预测编码、多脉冲激励线性预测编码、码激励线性预测编码、多带激励编码等。多脉冲激励线性预测编码算法采用了由多个不均匀间隔脉冲所组成的激励序列,此算法在10kbit/s 的低码率下能产生比较好的语音质量,但对高基音说话者来说,其性能通常会有所下降。码激励线性预测编码的算法是利用矢量化的码本,将激励序列编码。码本中的每一个存储的码字矢量(简称码矢量) 都可以代替余量信号作为可能的激励信号源。
实践表明,码激励线性预测编码器在4.8-1610kbit/s 范围内可以获得质量相当高的合成语音,是最具有吸引力的语音压缩编码方式之一。多带激励语音编码将语音谱按基音谐波频率分成若干个频带,逐带分别判断是清音还是浊音,然后采用不同的激励信号源产生该带的合成信号,最后将各带相加,形成全带合成语音。多带激励语音编码是目前低速率语音编码较理想的方案,在2.4-4.skbit/s 的速率上能合成出比传统声码器好得多的语音。
目前,语音压缩编码技术主要有两个努力方向:一个是中低速率的语音编码的实用化,及如何在使用过程中进一步减低编码速率和提高其抗干扰、抗噪声能力;另一个是如何进一步的降低其编码速率。目前比较好的算法还有正弦变换编码、混合激励线性预测编码、时频域插值编码、基音同步激励线性预测编码等,同时还要求引入新的分析技术,如非线性预测、多精度时频分析技术(包括子波变换技术)、高阶统计分析技术等。这些技术更能挖掘人耳听觉掩蔽等感知机理,更能以类似人耳的特性作语音的分析与合成,使语音编码系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。
1.2 纠错编码技术
纠错编码技术的目的有两个:一是解决由信道噪声所产生的随机性差错,二是解决由脉冲干扰所引起的突发性差错。
RS 码纠错性能分析:RS 码是非二进制码,RS 码的码字取自GF(2m),也就是由0.1、α和α的各次幂组成。RS 码不仅能够纠单个随机错误,还可以纠突发错误。在GF(24)域中,(15,11) 码可纠2 位错,(15,9) 码可纠3 位错,(15,7) 码可纠4 位错。RS 码是多进制码,而通常在实际系统中用的是二进制码。如何把二进制码与多进制码对应起来?我们以GF(24)域上的RS 码加以说明。首先,把二进制数据流按四比特分,将一个二进制序列分为四位一组。这每个四位二进制按照预先编辑好的4 一重表示法与α的某个幂值,即GF(24)域中的元素一一对应,把这4 位二进制序列可以看成是RS 码中的一个符号,这样,就可以用RS 码来解决我们实际系统中的复杂信道数据传输的纠错问题了。
1.3 自适应均衡技术
均衡的目的是在接收端对于信道非理想特性造成的信号畸变进行补偿,抑制接收信号之间的符号间干扰,从而尽可能地恢复发射波形。自适应均衡技术是目前使用较多的一种信道均衡方法。它可以通过发射学习码,来自适应的学习信道特性,实时估计信道响应,以便利用学习阶段得到的自适应均衡网络参数,对畸变的信号波形进行补偿,从而得到估计信号。总之,自适应均衡器是用来自动补偿由于信道的非理想频率特性而产生的畸变,可以简单地理解成均衡器与信道的传递函数互为倒数,作用抵消,从而获得最佳传输波形以消除IS 工,恢复原始信号,同时使有限的带宽得以充分利用。
二、语音信号降噪处理分析MATLAB 介绍
2.1 语音信号
语音信号的采集与分析作为一个重要的研究领域, 20世纪60年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、快速博里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在
方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深。所以1969年美国贝尔研究所的Pierce 感叹地说“语音识别向何处去? ”1971年,以美国
ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。
进入20世纪90年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐
马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。
其中MATLAB 音频信号的分析与合成,采用MATLAB 分析WAV 文件。首先选择一个WAV 文件作为分析的对象 。继而进行 FFT 变换并画频域图形 ,进行该声波主要频谱的分析,根据该声音的频谱,反演时域图形 ,最后进行付立叶逆变换IFFT 并画频域图形 。
2.2 语音信号的特点
通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:第一、在频域内,语音信号的频谱分量主要集中在300~3400Hz 的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。第二、在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。
2.3 语音信号的采集
在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波
的目的有两个:
(1)抑制输入信导各领域分量中频率超出f s /2的所有分量(f s 为采样频率),以防止混叠干扰。
(2)抑制50Hz 的电源工频干扰。
为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔∆t 在模拟信号x (t ) 上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率f s 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能
正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。
在采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择∆t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T )的信号,采集到过大的数据量(N =T /∆t ) ,给计算机增加不必要的计算工作量和存储空间;若数据量(N )限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。
语音信号经过预滤波和采样后,由A/D变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。
在实际工作中,我们可以利用windows 自带的录音机录制语音文件,基于PC 机的语音信号采集过程,声卡可以完成语音波形的A/D
转换,获得WAVE 文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的WAV 文件。
采集到语音信号之后,需要对语音信号进行分析,如画出采样后语音信号的时域波形和频谱图;双线性变换设计滤波器,并画出滤波器的频率响应;然后用自己设计的滤波器对采集的语音信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比,分析信号的变化;回放语音信号。
2.4信号频谱分析
信号的频谱分析是将信号源发出的信号强度按频率顺序展开,使其成为频率的函数,并考察变化规律,称为频谱分析。频谱分析主要分析信号是由哪些频率的正弦信号叠加得到的,以及这些正弦信号的振幅。信号的频谱可分为幅值谱、相位谱、功率谱、对数谱等等。对信号作频谱分析的设备主要是频谱分析仪,它把信号按数学关系作为频率的函数显示出来,其工作方式有模拟式和数字式二种。模拟式频谱分析仪以模拟滤波器为基础,从信号中选出各个频率成分的量值;数字式频谱分析仪以数字滤波器或快速傅立叶变换为基础,实现信号的时—频关系转换分析。
傅立叶变换是信号频谱分析中常用的一个工具,它把一些复杂的信号分解为无穷多个相互之间具有一定关系的正弦信号之和,并通过对各个正弦信号的研究来了解复杂信号的频率成分和幅值。
信号频谱分析是采用傅立叶变换将时域信号x(t)变换为频域信号X(f),从而帮助人们从另一个角度来了解信号的特征。时域信号x(t)的傅氏变换为:
X (f ) =⎰x (t ) e -j 2πft dt -∞+∞
式中X(f)为信号的频域表示,x(t)为信号的时域表示,f 为频率。
频谱分析主要用于识别信号中的周期分量,是信号分析中最常用的一种手段。典型信号正弦波、方波、三角波和白噪声信号是实际工程测试中常见的典型信号,这些信号时域、频域之间的关系很明确,并且都具有一定的特性,通过对这些典型信号的频谱进行分析,对掌握信号的特性,熟悉信号的分析方法大有益处,并且这些典型信号也
可以作为实际工程信号分析时的参照资料。本次实验利用DRVI 快速可重组虚拟仪器平台可以很方便的对上述典型信号作频谱分析。
2.5 信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算且少;(3)可以得到语音的一些重要的参数;(4)只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处理技术中都要应用。在计算这些参数时使用的一般是凯泽窗或汉明窗。
总结:在语音研究中,语音特征的可视化是重要的研究手段。由于语音特征的多样性和研究目的的差异性,设计一个界面友好、接口开放、扩展能力良好的研究平台具有重要的实用价值。本文设计和建立了一个模块组合式结构的数字语音处理研究平台。该平台将数字语音处理分为分析阶段和可视化阶段。可视化部分直接集成在平台内部模块中,分析功能在外部模块中实现。该平台具有良好的伸缩性,能够快速地适应不同处理业务的需求。它还内建支持了基于XML 格式的标注格式,因此能够被直接应用到语料库建设及相关的语音分析领域。