语音的质量评价方法

语音质量包括两方面内容:可懂度和自然度。前者对应语音的辨识水平。而后者则是是衡量语音中字、单词和句的自然流畅程度。总体上看可以将语音质量评价可分为两大类:主观评价和客观评价。

1、主观评价

主观评价以人为主体来评价语音的质量。主观评价方法的优点是符合人类听话时对语音质量的感觉,目前得到了广泛的应用。常用的方法有平均意见得分(Mean Opinion Score,MOS得分),诊断韵字测试(Diagnostic Rhyme Test,DRT得分),诊断满意度测量(Diagnostic Acceptability Measure,DAM得分)等。语音质量的主观评价要求大量的人、大量次数的测听实验,以便能得到普遍接受的结果。但是由于主观评价耗费大、经历时间长,因此语音质量的主观评价不容易实现。

为了克服主观评价缺点,人们寻求一种能够方便,快捷地给出语音质量评价的客观评价方法。不过值得注意的是,研究语音客观评价的目的不是要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便快捷并能够准确预测出主观评价价值的语音质量评价手段。尽管客观评价具有省时省 力等优点,但它还不能反映人对语音质量的全部感觉,而且当前的大多客观评价方法都是以语音信号的时域、频域及变换域等特征参量作为评价依据,没有涉及到语义、语法、语调等影响语音质量主观评价的重要因素。

MOS评分:

MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的比较标准。它采用五级评分制。

MOS评分五级标准:

MOS判分 质量级别 失真级别

5 优 不觉察

4 良 刚有觉察

3 一般 有觉察且稍觉可厌

2 差 明显觉察,可厌仍可忍受

1 极差 不可忍受

MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异;质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。

在数字语音通信中,通常认为MOS分为4.0 4.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。MOS分3.0以下常称为合成语音质量,系指一些声码器合成的语音所能达到的质量。它虽然有较高的可懂度,但自然度较差。

MOS得分法的优点是:

一、由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;

二、评测者只需实现进行简单训练,就可直接参与评测,因而容易完成。

其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。另外,测试条件的选择及其他一些因素会影响MOS方法的结果。

诊断韵字测试(Diagnostic Rhyme Test)

判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质量测试,因为这时可懂度已成为主要问题。这种测试方法使用若干对(通常是96对)同韵母进行测试,例如中文的“为”和“费”,英文的’fast’和’vast’等。让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是DRT得分,通常认为DRT为95%以上时清晰度为优,85%-94%为良,75%-84%为中,65%-75%为差而65%以下为不可接受。在实际通话中,清晰度为50%时,整句的可懂度大约为80%,这是因为整句中具有较高的冗余度,即使个别字听不清楚,人们也能理解整句话的意思。当清晰度为90%时,整句话的可懂度已接近100%,所以对于低速率语音编码,一般要求其清晰度能达到90%或以上。

诊断满意度测量(Diagnostic Acceptability Measure)

DAM是对语音质量的综全评估,它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面,也相当复杂,这里就不再赘述。

2、客观评价

语音质量客观评价方法采用某个特定的参数去表征语音通过增强或编码系统后的失真程度,并以此来评估处理系统的性能优劣。

信噪比(Signal-to-Noise Ratio,SNR)

SNR一直是衡量针对宽带噪声失真的语音增强算的常规方法。但要计算信噪比必需知道纯净语音信号,但在实际应用中这是不可能的。因此,SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。

信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。

坂仓距离测度(Itakura-Saito Distortion, ISD)

坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。

对数似然比测度(Log Likelihood Ratio Measure,LLR)

LLR可以看成一种坂仓距离(Itakura Distance,IS),但IS距离需要考虑模型增益。而LLR不考虑模型增益引起的幅度位移,更重视整体谱包络的相似度。

对数谱距离(log spectral distance,LSD)

对数谱距离的定义

PESQ(Perceptual Evaluation of Speech Quality)

2001年2月,ITU-T推出了P.862 标准《窄带电话网络端到端语音质量和话音编解码器质量的客观评价方法》,推荐使

用语音质量感知评价PESQ算法,该建议是基于输入-输出方式的典型算法,效果良好。

PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5 -- 4.5之间。得分越高表示语音质量越好。

参考文献:

张雄伟,陈亮,杨吉斌, “现代语音处理技术及应用”,机械工业出版社2003年8月

John H.L.Hansen, Bryan L.Pellom. “An effective quality evaluation protocol for speech enhancement algorithms”.

语音质量包括两方面内容:可懂度和自然度。前者对应语音的辨识水平。而后者则是是衡量语音中字、单词和句的自然流畅程度。总体上看可以将语音质量评价可分为两大类:主观评价和客观评价。

1、主观评价

主观评价以人为主体来评价语音的质量。主观评价方法的优点是符合人类听话时对语音质量的感觉,目前得到了广泛的应用。常用的方法有平均意见得分(Mean Opinion Score,MOS得分),诊断韵字测试(Diagnostic Rhyme Test,DRT得分),诊断满意度测量(Diagnostic Acceptability Measure,DAM得分)等。语音质量的主观评价要求大量的人、大量次数的测听实验,以便能得到普遍接受的结果。但是由于主观评价耗费大、经历时间长,因此语音质量的主观评价不容易实现。

为了克服主观评价缺点,人们寻求一种能够方便,快捷地给出语音质量评价的客观评价方法。不过值得注意的是,研究语音客观评价的目的不是要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便快捷并能够准确预测出主观评价价值的语音质量评价手段。尽管客观评价具有省时省 力等优点,但它还不能反映人对语音质量的全部感觉,而且当前的大多客观评价方法都是以语音信号的时域、频域及变换域等特征参量作为评价依据,没有涉及到语义、语法、语调等影响语音质量主观评价的重要因素。

MOS评分:

MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的比较标准。它采用五级评分制。

MOS评分五级标准:

MOS判分 质量级别 失真级别

5 优 不觉察

4 良 刚有觉察

3 一般 有觉察且稍觉可厌

2 差 明显觉察,可厌仍可忍受

1 极差 不可忍受

MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异;质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。

在数字语音通信中,通常认为MOS分为4.0 4.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。MOS分3.0以下常称为合成语音质量,系指一些声码器合成的语音所能达到的质量。它虽然有较高的可懂度,但自然度较差。

MOS得分法的优点是:

一、由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;

二、评测者只需实现进行简单训练,就可直接参与评测,因而容易完成。

其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。另外,测试条件的选择及其他一些因素会影响MOS方法的结果。

诊断韵字测试(Diagnostic Rhyme Test)

判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质量测试,因为这时可懂度已成为主要问题。这种测试方法使用若干对(通常是96对)同韵母进行测试,例如中文的“为”和“费”,英文的’fast’和’vast’等。让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是DRT得分,通常认为DRT为95%以上时清晰度为优,85%-94%为良,75%-84%为中,65%-75%为差而65%以下为不可接受。在实际通话中,清晰度为50%时,整句的可懂度大约为80%,这是因为整句中具有较高的冗余度,即使个别字听不清楚,人们也能理解整句话的意思。当清晰度为90%时,整句话的可懂度已接近100%,所以对于低速率语音编码,一般要求其清晰度能达到90%或以上。

诊断满意度测量(Diagnostic Acceptability Measure)

DAM是对语音质量的综全评估,它是在多种条件下对话音质量的接受程度的一种度量。这种评分体系相当全面,也相当复杂,这里就不再赘述。

2、客观评价

语音质量客观评价方法采用某个特定的参数去表征语音通过增强或编码系统后的失真程度,并以此来评估处理系统的性能优劣。

信噪比(Signal-to-Noise Ratio,SNR)

SNR一直是衡量针对宽带噪声失真的语音增强算的常规方法。但要计算信噪比必需知道纯净语音信号,但在实际应用中这是不可能的。因此,SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。

信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。

坂仓距离测度(Itakura-Saito Distortion, ISD)

坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。

对数似然比测度(Log Likelihood Ratio Measure,LLR)

LLR可以看成一种坂仓距离(Itakura Distance,IS),但IS距离需要考虑模型增益。而LLR不考虑模型增益引起的幅度位移,更重视整体谱包络的相似度。

对数谱距离(log spectral distance,LSD)

对数谱距离的定义

PESQ(Perceptual Evaluation of Speech Quality)

2001年2月,ITU-T推出了P.862 标准《窄带电话网络端到端语音质量和话音编解码器质量的客观评价方法》,推荐使

用语音质量感知评价PESQ算法,该建议是基于输入-输出方式的典型算法,效果良好。

PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5 -- 4.5之间。得分越高表示语音质量越好。

参考文献:

张雄伟,陈亮,杨吉斌, “现代语音处理技术及应用”,机械工业出版社2003年8月

John H.L.Hansen, Bryan L.Pellom. “An effective quality evaluation protocol for speech enhancement algorithms”.


相关文章

  • 弋江区职称论文发表-小学英语语音教学重要性原则论文选题题目
  • 云发表,专业论文发表网站!http://www.yunfabiao.com/ 面向作者直接收稿,省去中间环节,价格更低,发表更快,收录更快! 弋江区职称论文发表-小学英语|语音教学|重要性|原则论文选题题目 弋江区职称论文发表-以下是小学英 ...查看


  • 英语教材教法试题
  • 英语教材教法试题 1.语言技能( C ) A.包含听.说.读.写.译五个方面的能力 B.是指一个人说话时遣词造句的能力 C.包含听.说.读.写四个方面的技能以及这四种技能的综合运用能力 D.是指一个人的语言表述能力 2.英语课程评价体系的改 ...查看


  • 谈谈小学与初中英语教学的衔接
  • 中小学英语一般都采取"一条龙"的整体设计,小学和初中的英语教学如果彼此脱节的话,会导致教师教学资源的浪费,效率低下,而且会严重导致学生学习英语情绪的两级分化,从而极大地影响初中生英语学习的质量.在此,笔者结合多年教学实践 ...查看


  • [高一译林牛津英语]教学大纲
  • 湖南师范大学研究生课程论文 论文题目 <高一译林牛津英语>教学大纲 课程名称 应用语言学 姓 名 李佳庆 学 号 [1**********]3 专 业 学科(英语) 年 级 2013级 学 院 外国语学院 日期(年月日) 201 ...查看


  • 压疮防治新进展
  • CHINESENURSINGRESEARCHJune,2010V01.24No.5B 压疮防治新进展 Newprogress on preventionandtreatmentofpressureulcer 董晓江.吕巧芸 DongXiao ...查看


  • 英语问答题
  • 1]<英语课程标准>在教学设计中提出提倡"任务型"教学途径,培养学生综合语言运用能力.你是如何理解"任务型"教学的? 1]定义:指学生在教师的指导下,通过感知.体验.实践.参与.合作的方式 ...查看


  • 供应链管理的主要内容和实现技术
  • 供应链管理的主要内容和实现技术 DEA法:在人们的生产活动和社会活动中常常会遇到这样的问题:经过一段时间之后,需要对具有相同类型的部门或单位(称为决策单元)进行评价,其评价的依据是决策单元的"输入"数据和"输出 ...查看


  • 学前儿童语言
  • 1. 语言能力指的是个人使用语言的能力, 具体表现为听说读写四项. × 2. 分析语言的能力, 具体表现在对各语言层次和各语言单位所具有的特征的知觉上, 带有较强的直觉性. √ 3. 在一切动物中, 唯独人类具有高度发展的语言系统. × 4 ...查看


  • 初中英语教学研讨4篇
  • 初中英语教学研讨4篇 第一篇 一.专研新教材,创设真情境 2012年的新教材注重语境体现语言的交际性,适合于学生的发展,而且选取贴近学生的话题,活跃学生的思维,拓展学生的视野,为学生创造亲身体验与实践的机会,引导学生关注生活,关注身边的人和 ...查看


热门内容