5.环境
(1)混响
在封闭的室内由于声波在传导过程中碰到坚硬物体表面(如墙壁、天花板、地面等)被折回,造成声音的延长,形成混响。因此,混响声滞后于未经折回直接到达的言语声,往往会掩蔽随后直接到达的言语声,降低言语分辨率。而房间越大,混响时间越长,方向性优势降低也将越明显。
(2)噪声源的数量及位置
尽管方向性麦克风技术隶属于助听器降噪技术的一种,但是对于噪声源的数量和位置却有一定的要求。因此,当噪声源的数量增多或者噪声源的方向与言语信号的方向一致时,方向性麦克风技术的降噪能力将会大幅度降低。
5.7助听器降噪技术
降噪技术并不是一项很新的技术,早在应用于助听器以前,许多领域就要求有降噪技术的应用,比如通信、机械等领域。顾名思义,降噪技术即是把噪声从带噪语音的信号中区分开来,并把噪声去除的技术。尽管目前的信号处理技术千变万化,但应用于助听器中的降噪技术与这些技术却有很大的相似性。
在助听器领域中,自助听器问世以来,作为全世界助听器研发人员和生产厂家的追求目标,如何使助听器在噪音环境中更好地处理声音,从而帮助助听器使用者获得更为清晰的言语信号的问题,一直以来被所有的听力学临床工作者和助听器使用者所关注。这是因为高品质的降噪能力是促使助听器的佩戴者更易接受并使用助听器的重要原因之一,也因为助听器使用中用户最大的问题就是在各种噪声环境中对语言的理解。只有通过提高助听器佩戴者对助听器的接受程度,增加助听器佩戴率和使用时间,才能为助听技术的更新提供最为基础的观察条件,为临床工作者提供更多的机会用以了解新型助听技术的临床应用情况,以此建立一个良性循环,使助听技术不断更新、验证、再更新。但与一般语音算法不同的是,应用于助听器的语音增强算法必须考虑到算法的实时性和计算量的有限性,同时也要最大限度地保持语音结构的完整性。从另外一个角度说,助听器降噪技术的进步只有硬件和算法的不断进步、优化,才有可能使降噪的性能和计算的复杂度找到一个平衡点,并趋于最佳化。
目前,若助听器使用者希望凭借现有的助听降噪技术,而帮助其在日常复杂多变的生活环境里更多地获得言语信号,更好地与人交流,除方向性麦克风技术是一项被反复通过实验临床验证的技术外,助听器中降噪技术的应用也随着芯片内存的扩充、运算能力的提高而逐步改善,同时为了更深入地了解助听器降噪的工作原理,更应该注重助听器内部所设置的降噪系统的工作方法及其效用,以确保有效的应用。
下面从语音与噪声的特性、语音信号处理的分析工具、降噪的方法、助听器中使用的降噪技术等几方面来展开本节内容。
5.7.1语音与噪声
语音信号最基本的组成单位是音素,音素可以分为浊音和清音两大类。浊音在时域上具有周期性的表现,即可以把浊音看做是一种有节律的声音;在频域上浊音有共振峰结构,在某些频段包含的能量远远大于其他频段,而且这种能量多集中在低频段内。而清音与浊音不同,无明显的可归纳性特征,无周期性,且时程短,能量弱,类似于白噪声。清音信号在噪声中容易被掩蔽。
语音信号具有时变、非平稳的随机特性,也具有非连续的特性,即正常的语音是有停顿和间歇的,停顿和间歇时是无语音区的。虽然语音是一个随时改变、非平稳的过程,但语音信号在10-30ms的时间内,其各种特征相对较稳定,即在总体上随时改变的语音信号中,瞬时内的信号有相对的稳定性。这个短时平稳特征的存在,使得许多降噪的计算方法成为可能。
噪声从主观上讲,不需要的声音都可以定义为噪声。常见的噪声有冲激噪声、周期性噪声、宽带噪声和语音噪声。各种突发的大声属于冲激噪声;风扇这类周期运动发出的噪声属于周期性噪声,其特点是有许多离散的窄谱峰;风声、呼吸声属于宽带噪声。干扰信号可以是窄带或宽带、白噪声或有色噪声、声学的或电学的。多数工作环境中的噪声相比于抑扬顿挫、跌宕起伏的语音信号,其能量在时域和频域上比较稳定,一般的计算方法都是在假设噪声平稳的前提下完成的。
5.7.2语音信号处理的分析工具
当系统接收到各种信号后需要用合适的分析工具来观察信号。语音信号包含时域、频率、空域的信息,用不同的分析工具得到的观察结果侧重面会有所不同。每一种分析工具都有其独特的观测视野,但也有其观测不到的信息。
在语音信号处理的分析工具中最常见是傅立叶变换。傅立叶变换是一种时-频转换的工具,它把待分析波形分解成不同频率正弦波的叠加。针对信号在时域上的不同表现(周期、非周期、连续、离散),有多种傅立叶变换。其中离散傅立叶变换是为了在频域利用数字处理技术来分析信号,就需要将其离散化。傅立叶变换是一种整体变换,要么在时域,要么在频域,无法给出信号频谱随时间变换的规律。也就是说,傅立叶变换是在整个时域上进行的,所以无法给出时间上的局部信息。为了了解某个时间段中频谱的改变,需要给傅立叶变换加一个滑动的“时间窗”,这就是短时傅立叶变换。但是由于该“窗口”函数是固定的,所以短时傅立叶变换的时间和频率的分辨率也是固定的。而小波变换就具有变化的时间和频率分辨率,是分析非平稳信号的有力工具,既可分析信号的概貌,又可分析信号的细节。除了傅立叶变换,在与助听器相关的语音信号分析工具中还可以见到离散余弦变换、独立成分分析、盲源分离等。离散余弦变换类似于离散傅立叶变换,在进行余弦变换时,语音信号主要分布在余弦系数的低频区域,而随机噪声主要分布在高频区域。盲源分离是目前比较热的分析技术,简单的理解是对未知来源、特征的信号进行分析、恢复独立语音的过程。它将观察到的数据进行某种线性分解,并分解成统计独立的成分,再把这个统计独立的特征作为输入的表示,为接下去的各种运算做好准备。独立成分分析最初是被研究用来解决盲源分离问题的,它的变换可以使输出元素之间互相统计独立,在语音特征提取方面的应用也逐渐被人们所重视。
5.7.3降噪方法
基于对语音和噪声的各种特性以及对语音产生的逐步理解,几十年来,逐步出现了各种语音增强的方法。这种语音增强的方法可以理解为一种数学运算的结果。如果纯净的语音信号是我们的运算目标,通过对目前获得的带噪语音信号进行各种数学方法上的运算,使最后的运算结果最大限度地接近原有信号中纯净语音的方法,即称为语音增强。整个语音增强的过程包括对带噪语音信号的预处理、噪声估计、增强算法等。其中在增强算法中涉及了各种滤波器,虽然计算的目的是一致的,但在过程的完成中因为计算中预先设定的数学目标不同,使用的参数不同,出现了各种带有优缺点的滤波器。
1.滤波器
滤波器是一种信号处理系统,它能提取信号中的有用成分,抑制干扰成分。之所以能提取信号中的有用成分是因为对不同频率的信号产生不同的增益,能有选择地放大或抑制某些频率的信号。比如经常听到的高通滤波、低通滤波、带通滤波等模拟滤波,也有如自适应滤波一类的数字滤波。如果希望设计的滤波器能最大限度地滤除干扰信号,就需要设计最佳的滤波参数以产生最佳的频率响应。而滤波参数往往与输入信号的特性密切关系。
2.信号预处理
麦克风在接收到信号后,第一步就是对信号进行预处理。预处理的目的是消除各种混叠、高频谐波失真,减少对语音信号质量的影响,同时对高频的信号进行放大。由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,频率越高相应的强度越小,因此要在预处理中提升高频部分,使从低频到高频的整个频带中信号的频谱变得平坦,以便于频谱分析或声道参数分析。预处理还包括将连续的语音信号分割成一段一段的短时语音信号段(一般认为在10~30ms的短时间内,语音信号特性基本保持不变),借助平稳随机信号处理的理论来提取语音特征参数,以备进一步作降噪处理。
在语音增强算法中,确定语音信号的有无和准确定位语音信号的起止位置是预处理中非常重要的部分。与语音增强算法一样,语音有无的判断方法也具有多样性:有的使用基于短时能量和短时平均幅度的端点检测;有的使用基于能量比方法的端点检测,该方法采用带噪语音处理前后能量比来估计语音段和寂静段;有的根据语音信号的幅度相对于背景噪声其幅度的动态范围大小来判断语音信号的有无;有基于频带方差的检测法,其根据语音和噪声在频带上的不同分布来进行判断,语音各频带的起伏,短时能量大,噪声反之;比较常用的是短时过零率,表示一段连续语音信号在时域波形中通过时间轴的次数,浊音富含低频,过零率低,清音则相反。不同语音有无的判断方法的基本思想都是从输入信号中提取一些度量特征值,再与相应的阈值进行比较并判断。关键问题是选择哪些度量特征值,如何定义确定阈值,这些会影响语音检测活动的好坏。除了单通道信号的语音有无的判断外,多通道的语音检测在原有算法的基础应用了空间能量参数。
3.噪声估计
在语音增强中,对噪声进行准确的估计是后续算法得以顺利进行的前提条件。噪声估计中有使用语音有声和无声检测方法的,即在无声时更新噪声估计,有声时把估计的噪声应用到目前的有声信号;也有不使用有声和无声检测方法的,是指无论是有声还是无声都对噪声估计进行更新。
4.算法分类及常见增强算法
(1)算法分类
语音增强算法的分类方法各异。如从计算方法是从时域还是频域来分类:有基于时域分析的,如参数或模型法;有基于频域分析的,如谱减法、短时谱估计、对数谱估计等;有基于时域频域分析的,如小波分析等。
如按照实现估计(对信号的估计和对输出结果的估计)的方法不同分类,可以分谱减法、维纳滤波、最小均方误差估计法等。
如按是否使用参数,可以分为参数和非参数法。参数法是先建立语音或噪声和语音产生的模型。简单的如使用信号的周期性参数作为模型,复杂的以信号的统计分析作为模型。非参数法不需要估计语音、噪声的特性,谱减法、自适应滤波技术均属于此法。
(2)常见语音增强算法
各类语音增强方法中最常见的算法是基于语音短时谱估计的增强算法。除了谱减法外,还有维纳滤波、最小均方误差法等,以及新出现的在助听器中使用较多的自适应滤波技术。
1)谱减法
谱减法是利用语音短时稳定,字与字或词与词之间存在间歇的特性,对噪声和语音特性做出良好的估计,把在间歇和停顿期提取到的无语音的信号特征进行统计并作为样本对含噪的语音进行处理,这是一种相减的方法。谱减法有幅度谱相减、功率谱相减以及各种改进、修正的方法。
一般的谱减法中都不包含特殊运算的理论。该方法分析的基础是基于人耳对语音的感知是通过语音信号中各频谱分量幅度,但对各分量的相位不敏感获得的,即从带噪语音的短时谱幅度信息中减去噪声的平均谱幅度信息来得到增强语音的谱幅度信息。这种处理方法以运算量较小、容易在DSP上实现而成为目前数字助听器中最常见的方法之一。但这种谱减法是一种最大的似然估计,它放弃了对语音频谱的分析假设。其最大的缺点是频谱相减会产生一种具有一定节奏感的残余噪声,一般称为“音乐噪声”。其产生的原因是把用前几个样本语音寂静段获得的噪声数据应用于当前的非平稳的噪声,出现降噪过多或过少的现象就无可避免了。最近几年对谱减法的改进主要致力于对噪声谱的估计,只有对噪声的估计越接近真实数据,才能越有效地减低“音乐噪声”。虽然有这个缺点,但在实际使用中因算法简单有效而被广泛应用。经典谱减法的过程是先读入带噪语音数据,把语音数据按时间分段,取前几段的数据来估计噪声功率谱平均值;同时对每一段带噪语音估计功率谱,最后进行相减运算。
2)维纳滤波法
维纳滤波法是假设在语音、噪声为平稳信号的基础上产生的。带噪语音信号是在通过该滤波器后其中的噪声幅度谱被减去,再加上带噪语音频谱的相位后获得目标信号的一种计算方法,可以把其理解为谱减法的衍生算法。它的设计方法是建立在最小均方误差准则基础上的,最小均方误差准则是为了使滤波效果最优化,在滤波器设计过程中预设定数学计算目标的一种。它是指将估计值(对语音信号的估计值)与需要值(通过滤波器的输出值)差平方的统计平均值作为性能函数的一种计算方法。它是根据全部过去观测值来估计信号的当前值。它的优点是语音增强后的残留噪声类似于白噪声,缺点是比较适合于平稳随机信号,而语音信号只在短时间内近似平稳,噪声很多情况下是非平稳的。其经典的运算过程是在完成谱减法步骤的基础上,再根据最小均方误差准则求出传递函数,所需的语音信号等于带噪语音的频谱乘以传递函数求得。