听审测试主观评价简介

2018-06-29 11:15:37· 来源：模态空间

为了量化人们对声音的感受，研究人员找到并定义了一些单维度的、心理声学度量指标来描述声音的特点，如响度（Loudness）、粗糙度（Roughness）、尖锐度（Sharpness）、波动度（Fluctuation）等。当提及以上这些指标时，在人的大脑里立刻就能产生与其对应的主观感受。或者说对于不同的声音，只要比较这些指标的数值大小，就能判断出对应声音的特定的主观感受的区别。

但是人们在一开始是怎么找到，这些如今已经被广泛用来描述声音主观感受的度量指标的呢？这其中，听审测试（Jury Testing）是必不可少的一个环节。同时，这些单维度度量指标往往不能准确表达复杂的声品质（如奢华性），而需要多个单维度的度量指标进行复杂的组合，形成多维度的声品质度量指标，为了达到这个目标，听审测试也是必经之路。

1听审测试的主要应用
听审测试的应用有很多，其中最主要的应用是开发出合理的声品质指标（Sound Quality Metrics）或者搭建起评估模型来合理准确地描述某个产品的声品质。从而一方面，避免大规模的产品声品质主观测试造成的资源浪费；另一方面，对新产品的声品质设计和优化（Sound Design）起到关键性作用。

孙恬恬博士在《浅谈声品质》一文中详细地介绍了声品质的一些常见的度量指标，同时也指出“在实际应用中应该根据不同类型的产品、应用环境、使用对象，制定具体的计算参数和判断标准”。由于产品的多样性，以及用户需求的个性化，在评价产品声品质上，单一的度量指标往往是不够的。

例如，某款电动汽车想在不同的工况下分别表现出“奢华性”、“运动性”、“稳健性”等声品质，就需要进行声品质研究，整个过程大致如下：

· 调试不同电机参数，正确采集音频文件；

· 对音频文件进行处理，设计和执行听审测试，得到主观评测结果；

· 对音频文件进行客观度量指标的分析，如响度L（Loudness）、尖锐度S（Sharpness）、波动度F（Fluctuation）等；

· 相关性分析：找出与听审结果有紧密相关（线性或非线性）的客观度量指标（一个或多个）；

· 利用线性或非线性回归，以及多元线性回归分析等拟合出听审结果与一个或多个客观度量指标之间的数学关系（即新的度量指标）。例如：
“奢华性” = 2.5* sin(1.7*LA - 1.2) + 1.9*cos(3.2*LM- 7.8) - 159*sin(5.7*SM-4.6) -42.5*sin(6.2*FA-9.6) + 123 （L：响应；S：尖锐度；F：波动度。下标：A=平均值，M=最大值）。

· 整合多个声品质和度量指标的数学关系，开发出多维度度量指标体系，或者搭建起评估模型；

· 通过鲁棒性分析验证模型的准确性。

从而建立起电机参数（客观测量）和特定的声品质（主观感知）之间的复杂可靠的联系，进而也实现了对将来新开发的产品声品质的可靠预测。产品声品质的研究过程大致如图1所示。

图1 产品声品质研究流程示意图

2听审测试的设计
听审测试是一项由测试对象在可控条件下，对经过设计的音频文件进行评审判断的科学研究。为了获得准确可靠的实验结果，在设计听审测试时要注意以下事项：

· 测试目标的定义和音频文件的采集。对测试的目标（研究哪些声品质）要有清楚的定义，并将其转化为合理可执行的问题，根据目标采集适当种类和数量的待测试音频文件。

· 测试对象的选择。根据文献资料，对不同类型的测试对象，所需要的人数也是不同得。如专家：< 5人，工程师：25-50 人，顾客：75-100 人。

· 测试对象的个人信息收集。注意在测试开始前或结束后对测试对象的性别、年龄、工作、听觉灵敏度以及对测试产品是否有使用体验等个人信息进行收集，以便于对后续的可靠性结果分析起到一定提示作用。

· 测试时间。为保证测试的可靠性，避免疲劳效应，测试时间应该小于30-45 分钟。

· 测试环境。测试环境应尽可能与产品的工作环境相同或相似。如果是在实验室进行，应注意避免环境因素如背景噪声、温度湿度、光线强弱以及装修布置等，可能对测试对象造成判断上的干扰。

· 测试设计者注意事项。在测试开始前应该给测试对象耐心解释整个测试流程，并引导测试对象做一些测试训练，在测试过程中测试设计者应该出现在测试对象可随时招呼到的地方，以便减轻测试对象的紧张感。

图2 听审测试示意图

3听审测试的方法
所谓听审测试的方法指的是，让测试对象以怎样的形式来听审采集的音频文件，从而实现对主观评价数据的采集，其中常用的方法有如下几种，在实际应用中需要根据实际问题选择合适的方法。

· 排名法（Ranking）：即通过听审对一组测试中的n个音频文件按照一定的标准（如运动性）进行排序，这种方法简单容易理解，结果也十分清晰，但是如果一组排序中音频文件过多，会造成测试人员认知上的压力，从而使得结果可靠性降低。所以文献建议一组测试中的音频文件数量应该小于等于7个。

· 成对比较法（Paired Comparison）：这种方法也非常简单，且对测试对象的门槛要求比较低，容易得出可靠的结果。测试对象需要在听完两段音频（A和B）之后，根据提问做出选择，比如：A和B哪个听起来更有动感？答案根据需求可以设置为强迫性选择（forced-choice），即A和B之间必须选一个（A<B或者A>B），也可以设置为非强迫性选择（unforced-choice），即可以认为A和B之间无法听出区别（A=B）。同时为了避免听力疲劳造成的判断失误，每段音频不宜过长，且总的音频的数量也不宜过多。n个音频所产生的测试的数量为n(n-1)/2对（无重复）。

图3 成对比较法示例

· 分类测试法（Category test）：用于对产品的某种性能进行细化分类，根据实际情况，通常可进行5至10个等级的分类，这些等级之间的比例可以自由设定，不一定要相等，重要的是对不同产品的性能有明确区分。

图4 分类测试法示例图

· 语义细分法（Semantic differential）：可以看成分类测试法的一个特殊形式，特别适合用于成对指标（如昂贵和便宜）的判断测试，且结果统计简单方便。这种方法的核心功能是用来研究产品多种多样的性能属性。通常可将成对指标之间分成若干个等级（7个等级比较常见），这些等级可以对称布置，也可以非对称布置。

表1 语义细分法示例

如今已经有很多商业软件提供完善的听审测试软件包，以上这些方法大都可以按照实际问题在软件中进行设置，直接应用。

值得一提的是，很多大学或个人也利用Matlab工具包开发出了很多可用于听审测试的软件包（免费开放），并且各有特色。如柏林工业大学（TU Berlin）开发的WhisPER，科隆应用技术大学（TH Köln）开发的Scale，伦敦玛丽王后大学开发的Audio Perception evaluation （APE）等等，当然我们也可以根据自身需求利用Matlab工具包进行个性化软件开发。

4听审测试的数据收集
大部分听审测试的数据收集方法比较简单明了，即对测试者的打分结果进行简单统计即可，但是对于成对比较法（Paired Comparison）来说，过程稍微有点复杂，下面简单介绍一下。

成对比较法应用的核心知识是“优势矩阵”（Dominance Matrices），即将所有要用来比较的音频文件分别放在第一行和第一列，让他们两两之间进行比较，结果填在矩阵中。其结构有一点像质量屋（QFD）的中间部分。

表2是一个测试对象的测试结果的优势矩阵。其中1分代表更好，0.5分代表相同，0分代表更差（赋分值可根据需求自定义）。例如表中黄色背景的1分方格表示音频S2比S3好，同时其对角上方的0分方格表示音频S3比S2差。进行完所有的对比后，会将每一列的得分累积，得到该列音频的总分，然后按照总分进行排序。如果有多个测试对象，则先对每个测试对象生成一个优势矩阵，最后将所有测试对象的结果相加起来即可。

表2 某测试对象的优势矩阵

一般成熟的商业软件都已经实现自动将测试结果进行统计和表达，且可以导出为Excel进行进一步处理。

5听审测试的误差控制
对听审测试的结果进行处理时通常要进行误差控制。两个常用的误差控制的参数分别为一致性（Consistency）和相关性（Concordance），且他们之间没有必然的联系。

一致性（Consistency）中常用Replication Consistency和Circular Triad Consistency。前者很好理解，即当同一组测试被重复执行的时候，测试对象选择的答案是否是一致的，当结果不一致时就产生了误差，可用于所有具有重复判断的测试；后者只应用于成对比较法（Paired Comparison）中，其表达的是，测试对象的测试的逻辑传递性，举个例子（见图5），有A、B、C三段音频相互成对比较，测试对象首先选择了A>B和B>C，当他判断A和C比较时，按照逻辑传递性，他应该选择结果A>C，当他选择了结果A<C时，从一定程度上说，该测试对象的判断是有误差的。（注意一致性是针对单个测试对象而言）

图5 Circular Triad Consistency示意图

相关性（Concordance）用在有多位测试对象参与的测试中，用来监测多位测试对象测试结果的相关性。例如两位测试对象对音频文件S1，S2，S3，S4的判断分别为：S1>S2>S3>S4 和S1>S3>S2>S4，可以看出两位测试对象对S1和S4音频的判断完全一致，对S2和S3的判断产生了分歧，利用相应算法，计算出每位测试对象与大多数人的相同选择占其总体的选择的比例作为其相关性指标，数值处于0-1之间。

商业软件会在对听审结果进行分析的时候计算出一致性和相关性的值，并且会按照相应的标准（如两者都大于0.6）来进行划分，以方便听审测试设计者进行数据筛选。

6总结
本文主要从实际应用的角度，简单介绍了听审测试的操作流程。虽然听审测试过程比较繁琐，但其在产品声品质设计（Sound Design）研究中有着不可替代的作用。

参考文献
1.Genuit, K.: Sound-Engineering im Automobilbereich. Berlin, Heidelberg: Springer Berlin Heidelberg 2010
2.Wolfgang E. et al. u. Deutsche Gesellschaft für Akustik e.V.: Kompendium zur Durchführung von Hörversuchen in Wissenschaft und industrieller Praxis (2008)
3.Otto, N. et al.: Guidelines for Jury evaluations of Automotive Sounds. SAE Technical Paper Series. SAE International 400
4.HEAD acoustics GmbH: Durchführung von Hörversuchen. Application Note (2011)
Bortz, J. u. Döring, N.: Forschungsmethoden und evaluation für Human und Sozialwissenschaftler. Berlin, Heidelberg: Springer-Verlag 2006
5.The Analysis of Dominance Matrices: Extraction of Unidimensional Orders within a Multidimensional Context, Reynolds, T. J., 1976
6.Punch, J. et al.: Paired-comparison hearing aid preferences. evaluation of an unforced-choice paradigm. Journal of the American Academy of Audiology 12 (2001)
7.Sound Quality Jury Testing (Siemens)：https://community.plm.automation.siemens.com/t5/Testing-Knowledge-base/Sound-Quality-Jury-Testing/ta-p/497769

作者简介
黄军军，德国卡尔斯鲁厄理工学院（KIT）硕士，车辆噪声与舒适性方向。

分享到：