对参考麦克风而言,其他麦克风的到达上的差异称为时延。为使波束形成器的输出达到最大的信噪比,保持各麦克风接收到的期望语音信号同步是很重要的问题。这是进行后续处理的一个前提条件,也是多数麦克风阵列语音增强算法中的一个基本问题。设计上对延迟的数据的获得,很大程度上影响到降噪的效果。由于实际环境中存在混响和噪声干扰问题,有时噪声是相干的,有时是不相干的,也会有散射场的情况,这都对时延估计的准确性和稳定性提出了很大的挑战。
由于时延估计的困难,信号子空间的计算方法正是为了避开这个难题而设计的,可以把信号自空间法看做是单通道谱减法在麦克风阵列中的应用。
尽管麦克风阵列的语音增强有诸多的优点,但是从理论上讲语音信号是宽带信号,而阵列多用窄带信号。噪声源可能与语音信号的频谱有相同特性,这将致使波束形成失去作用。混响会影响阵列中的时延估计和语音检测活动,较大的混响还会影响自适应阻塞矩阵的判断,不能有效地阻塞语音信号,造成输出中的语音信号被当作噪声衰减。实际环境中说话者提供的语音并不是在空间上固定不变的点声源,与多数设计的计算方法中的模型不同。
纵观上述各法,无论用何种方法,最终的目标是要最大限度地去除噪声,最低程度地影响语音,尤其是对清音的影响,同时要减少因各种计算方法引起的残留的噪音。事实上,助听器使用者所处的环境千变万化,自然界的噪声也各有各的特性。而且目前多数的单通道处理过程都是对信号中的前一段信号作出统计分析,再将结果应用于后一段信号中,也就是在对目前的信号进行处理的过程中,使用的对照参数是来自前一个样本的。处理结果的优劣很大程度上依赖于假设参数、模型、统计数据的精确性,而且仅单独地使用一种方法而想去除各种噪声是不现实的。
但同时也应看到,随着信息论、子带滤波等理论的发展,出现了盲源分离、子带分解、多分辨率分析等新的语音增强方法。语音增强的发展基本上是从语音分析工具和具体计算方法这两大方面来展开的。
5.7.4助听器中使用的降噪技术
研究显示,高品质的降噪效果是促使助听器的佩戴者更易接受及长时间地使用助听器的重要因素之一,因此助听器生产厂家在进行产品宣传时均热衷于标榜各自所研发的助听产品降噪系统的优越性,以期能使其产品更多地受到听障人士的青睐。
但事实是目前助听器因为处理能量的局限性,信号处理越精确复杂,要求的能耗就越大,这与助听器中有限空间中电池所能提供的能量是矛盾的。基于此,应用于现今助听器中的处理技术相对于理论的发展都是简单的。
降噪的方法用于单通道的助听器中虽然能提高佩戴者的舒适度,但并不能增加言语可懂度。
这里的单通道不是压缩特性中的通道数,是指单麦克风拾音的情况。可能是因为单通道降低增益不能有效地增加最相关频率段的信噪比,也可能是因为处理过程中非线性滤波引起的失真以及对噪声非精确的估计。因为在现实环境中,语音与噪声在频域和时域上往往是相互交叠的,这也使得仅使用单通道技术而要完全地分离噪声、不影响语音质量的可能性几乎为零。特别在信噪比低或者噪声呈现非稳态的情况下,单通道的处理更是不能解决问题。
单麦克风的降噪一般都是使用信号和噪声在频谱或者调制率上的差异来实现降噪的。最简单的是通过高通滤波器来实现的。假设一背景噪声是以低频为主,并掩蔽了语音信号中的低频部分,高频滤波器可以降低噪声的响度,而对言语可懂度的影响却不大。高级一点的助听器把拾取到的信号分到各频段后,根据各频段的调幅深度来降噪。一般认为语音声是高调制信号,噪声是低调制信号,信号处理的结果是含高调制频率的成分可以通过,而含低调制频率的成分不可以通过。Oticon Digifocus,GN Danavox2Danalogic,GN ReSound Canta 7,Phonak Claro,WidexSenso,Widex Senso Diva,Siemens Prisma在他们单通道信号拾取的产品中是使用调制技术的。这种对信号调制情况的判断可以理解为是语音检测中的一种。
到了2001年,唯听的Senso Diva,Phonak Claro,GN ReSound Canta 7耳背式助听器中开始出现了双麦克风自适应降噪的技术。相对于固定方向性麦克风,在单一噪声的情况下,该麦克风能提供更好的言语可懂度。但在比较复杂的情况下,比如有多个噪声、存在混响的情况下,该类麦克风的工作类似于固定方向性麦克风。为了应对复杂的噪声环境,在助听器中开始使用三个麦克风技术,比如BTE Siemens Triano 3。
国外有学者的论文中提到单通道中使用维纳滤波和谱减法,多通道中使用自适应维纳滤波来进行自适应噪声对消。也有学者提到可以使用子带自适应滤波、离散余弦变换-最小均方差准则(该论文中认为此法优于离散傅立叶变换-最小均方差准则和小波变换-最小均方差准则)。在Danavox‐163D的耳背机中,使用独立分量-最小均方差准则。GN ReSound Canta 7的计算方法是GSC。
除了考虑到使用不同分析工具、计算方法外,麦克风的匹配问题一直是设计者比较棘手的问题。匹配问题是多麦克风可以正常工作的前提,虽然可以通过校准滤波系数或者把获得的极性数据与内在的正确数据进行比较完成,但由于目前使用于多麦克风系统的计算方法没有包括稳定性的参数,使得上述问题在实际使用中无法避免地存在着。而且助听器在外形设计上小型化的趋势,也使得降噪设计中麦克风的失匹配、安装位置、头影效应对性能的影响越来越严重。虽然许多厂家通过各种方法来减缓该类问题(比如防尘防水、简单的几点频响匹配),但总是不能从技术的根本上解决问题,由此更加需要包含稳定性计算的计算方法来完善这个问题。
5.7.5降噪的量
降噪的程度问题也是语音在助听器中比较特殊的问题。由于助听器计算量、耗电等的局限性,使得能用于助听器中的语音增强的算法相对比较简单。无论助听器使用何种计算方法,在其设计过程中通常依靠减少助听器输出的方式,即通过减少助听器在噪声环境中的增益,来实现降噪。列举现今各助听器生产厂家所研发的助听器降噪系统,不难发现尽管不同厂家所生产的助听器在其降噪系统的设计上存在差别,但最后在助听器输出方面所得到的体现就是助听器增益的减少,并且在助听器的各个编程程序中,其增益所减少的数值是被固定的。既要保持语音信号的完整、可听,又要尽可能地降低噪声,是一对矛盾的对立面,有时候不得不以牺牲一项的利益来确保另一项目的的实现。
可是,此类被固定的增益减少量,对听力损失程度不同的助听器佩戴者所造成的效果往往大相径庭。
在很多情况下,相对于轻度听力损失的助听器佩戴者而言,固定的增益减少量在一定程度上仍没有达到其所需要的噪声控制量,他们仍会感觉环境相当的嘈杂;相反的,对于重度听力损失的助听器佩戴者而言,相同量的增益减少可能会过多地降低增益,在减小了噪声的同时也影响了助听器使用者对言语的拾取,从而影响了其言语可听度。因此,目前在这些传统降噪方法的基础上,出现了通过计算言语清晰度指数(speech intelligibility index,SII)来实现弥补本身计算方法的简单的新型计算方法。该降噪方法的设计厂家在其官方的宣传资料上,将其称之为言语增强降噪方法(speech enhancer)。
言语清晰度指数(SII)与清晰度指数(AI)相类似,是一种可间接推断言语可懂度的测量方法。通常而言,SII或AI的指数处于0和1之间,数值越大表示与其相关的言语可懂度越好,特别是SII指数,理论上可将其理解为AI的升级,这是由于SII指数在计算过程中不仅考虑了高强度给声时所产生的掩蔽效应,同时也顾及了不同频率的可听度对言语可懂度的影响。因此,SII的计算除了需要获得相应的言语频谱和噪声频谱外,还需输入用户的纯音听阈作为依据,方能针对相应的听力损失程度,分别计算出各频率处有多少可听的言语信号,并根据这些不同频率处可听言语信号对言语可懂度的有用性差异,计算不同频率处应提高多少增益用以实现言语可懂度的最大化。与此相对应的是助听器所具备的可调试通道越多,代表需要计算的频率也越多,数据随之也将更加的精确。
目前助听技术日新月异,更为科学化、人性化的助听器也在不断地被研发和应用之中,但是直至今日如何使助听器完美地进行降噪处理对于助听器研究工作者而言仍是一个难以解决的问题。这是因为将言语信号与用户所不需要的噪声信号进行完全而清楚的区分是极其困难的,特别是面对不同的使用者和使用环境,助听器在降噪过程中,降噪系统对增益进行何种程度的调整,才能既减少环境噪声,又不影响有用的言语信号的拾取,更是极难控制。若对不同程度听力损失的使用者均采用相同的增益减少量,无疑会在很大程度上影响一部分助听器使用者的言语可听度,从而进一步影响其言语的可懂度。因此,SII降噪技术应运而生,弥补了对噪声强度无自适应的计算方法。