20051334072曹春燕 联系客服

发布时间 : 星期一 文章20051334072曹春燕更新完毕开始阅读

1.引言

1.1研究意义

按世界听力研究机构的统计,中度以上听力损失患者约占世界总人口的6%。由于卫生医疗水平、人口年龄分布及健康意识的差别,世界各国的听损比率也有较大差别,在中国,听损患者比率超过9%,约为一亿三千万人。

随着社会的老龄化和城市化,因衰老和噪声引起的听力障碍发病率不断增加,而临床耳毒性药物的使用至今尚缺乏有效的控制手段,导致儿童药物中毒性耳聋的发病率亦有增无减,听力障碍已成为影响我国社会经济发展的重要因素之一。

在众多的听力矫正治疗中,助听器是一种最常用、最有效的治疗人耳听力损失的医疗设备,合适、可靠的助听器可以在不损伤耳组织的情况下提高患者的听力水平。因而,得到越来越多听损患者的青睐,

据调查,目前中国助听器市场每年的实际销售额在7亿元左右,而中国市场上的全数字助听器几乎由六家跨国企业垄断,这些企业包括德国西门子、瑞士峰力、丹麦瑞声达、丹麦奥迪康、丹麦唯听和美国斯达克。这些公司的全数字助听器动辄数万元,甚至数十万元,导致国内的普通听损患者迫切需要而又难以承受。中国由于缺少具有自主知识产权的数字助听器核心语音处理算法研究,导致完全失去了高端市场。而且,无论国内还是国外目前都缺少针对连续汉语环境的数字助听器语音处理核心算法的研究

[1][2]

汉语是具有特征化的音调性语言,声调特征对于汉语的理解起到至关重要的作用。在使用基于不同语系研究成果制成的助听器时,各语系语音特征的差异对助听器语音的理解影响很大,分析和处理汉语特征、在此基础上再进行特征识别和增强、并进一步提高语音的可懂度对于听损患者得听力矫正治疗具有重要的影响。因此,针对听力矫正的语音处理算法研究,特别是针对汉语环境的听力矫正语音处理算法研究对于今后的汉语数字助听器的发展、汉语环境下听损患者的听力矫正治疗与生活质量的提高有着积极的影响,具着重要的社会意义和可观的市场前景。

1.2国内外研究的现状

国外众多研究机构上个世纪末开始研究针对听力矫正的语音处理算法。除了专门的听力研究中心以外,各知名高校如美国斯坦福大学、加州大学、华盛顿大学、波士顿大学,欧洲的德国、瑞士和丹麦的高校以及亚洲的日本、韩国的高校,都投入了大量资金和科研人员进行数字助听器语音处理算法的研究,并取得了一定的成果。

1998年瑞声达听力机构的Brent W.Edwards 发表了Signal Processing Techniques for a DSP Hearing Aid 一文,指出数字助听器语音处理的方向。美国纽约大学的James M.Kates 最先提出数字助听器声反馈抑制的自适应滤波方法,他所使用的是基于最小均方误差的LMS算法虽然收敛速度和收敛精度都不高,但由于运算量低,至今仍为声反馈抑制的主流算法。美国MIT的Bernard Widrow 最先研究了方向性技术在数字助听器中的应用,并制作了第一台基于麦克风阵列的数字助听器,该助听器采用时延估计理论进行声源定位并利用波束形成技术进行语音信号增强,显著提高了语音信号的信噪比。但他所采用的固定阵列波束形成技术对复杂声场景的适应性不强,而且,挂在项链上的麦克风阵列方案也难以推广。

复杂环境下汉语语音特征分析与识别一直是语音研究的热点。已经相对成熟的基音估计、共振峰估计、倒谱分析和动态时间规整算法为汉语的音节划分、元辅音识别和声调识别提供了基础。但是听损患者的生

5

[4][3]

理缺陷导致其对汉语发音特征的不敏感,在汉语理解过程中又显示出不同于正常人的特点。2005年David Jiang 发表了《中文语音处理技术在数字助听器中的开发和应用》一文,指出汉语助听器语音处理算法研究的迫切性,并综述性提出了利用中文语音处理策略提高听损患者在复杂汉语环境之下对语言的识别和理解能力的研究方向。但迄今为止,国内外尚无针对汉语语音特征的听力矫正语音处理算法方面的成果。

2 数字助听器

助听器是一种专门为耳聋患者设计的电子设备。它能将外界的声音放大并调整,以补偿耳聋患者的听力损失,是帮助听力患者改善听力困难的有效工具。随着电子技术的快速发展及听力学领域研究的长足进步,助听器技术突飞猛进地提高。听力损失患者也逐步开始关注助听器的质量和性能,他们的要求从最初的“能够听到”发展到现在“不但能够听到还要能够听清”。数字助听器以其低噪声、低失真、节能、小型化、可调性强等特点,成为听损患者的希望。

2.1数字助听器的结构

数字助听器的硬件构成相对简单:麦克风把声信号转换成电信号,经过低通滤波后,经A/D采样,由数字信号处理芯片处理(频响补偿,自动增益控制,反馈抑制,减少背景噪声等),再传到扬声器(如图1所示)[5]。

图1 全数字助听器示意图

与模拟助听器相比,数字助听器更加灵活,完全摆脱了固化的模拟电路对算法的桎梏,可灵活调整和更新算法,完成预定目标。

2.2数字助听器的特点

随着90年代数字信号处理技术的引入,助听器技术的发展有了翻天覆地的变化。除了将传统的多通道压缩技术等传统的助听器放大技术数字化以外,还产生了许多以前模拟电路无法实现的新技术。 (1)智能降噪

采用这一技术的数字助听器能够分析环境信号的频谱,并且对频谱的变化进行跟踪,以确定噪音的频段和语音的频段,对噪音进行衰减,对语音放大。不同助听器公司采用不同的频谱跟踪分析算法。 (2)适应性方向性处理

在模拟技术条件下,助听器麦克风的方向性指向是固定的,无法根据环境噪音的变化调整。采用数字技术后,根据前后麦克风采集的信号进行分析,可以根据噪音变化的情况实时调整麦克风的指向,这对于复杂环境中的用户能带来一定的受益度。

6

(3)适应性声反馈控制

带有这一技术的数字助听器能随时监视每个波段信号强度,当有反馈发生时自动降低发生反馈波段处的增益或产生一个反相信号进行抵消,大大降低了反馈发生的几率。 (4)多程序自动切换

在模拟技术条件下,配置了多个听音程序的助听器只能靠手动切换以适应不同的听音环境,有些助听器有多达4、5个听音程序,切换很麻烦。数字技术可以自动分析当前环境,自动选择一个合适的听音程序,大大方便了使用者。 (5)自动电感档

传统的助听器都使用拨动开关切换麦克风和电感,打电话的时候手动切换很不方便。带有这一技术的助听器能随时监视助听器附近电磁场强度,当电话靠近时自动切换到电感,电话放下后再切换回麦克风,非常方便。

(6)使用日志记录

数字助听器就是一台微电脑,带有日志记录功能的数字助听器能自动记录用户每日助听器的使用情况,设置的音量大小,甚至环境,为自动验配提供更个性化的参数。 (7)测听功能

通过改变程序,数字助听器也能变成一个听力计,检测用户的听力情况。有些助听器在使用一些附件后甚至能测试RECD参数,实现真耳验配功能。

3 麦克风阵列声源定位

3.1 麦克风阵列的简述

基于麦克风阵列的方向性技术是目前解决助听器用户在噪声环境下语言理解困难最有效的方法之一。由于引进了空间方位差异进行信号处理,因而摆脱了噪声平稳性的限制,可以极大地提高数字助听器系统的信噪比、增强语音信号可懂度、提升声音的现场感,特别是在复杂的噪声环境下具有很强的鲁棒性。国外研究机构和研究人员已成功将这一技术应用到数字助听器产品中,并取得了很好的市场效益。

麦克风作为助听器产品中的重要组成部分,在其中起到收集声音的功效。但长期以来,国产助听器中的麦克风的使用方式仍然是以使用单个、孤立的麦克风为主。在采音过程中,只能全向采音,即接受声音不集中于某一方向,而是对整个区域的声音进行收集,包括不希望的噪音都会被接收。因此,单个麦克风接收的信号,是由多个声源和环境噪声的叠加构成。

但是,在实际应用中,人们常常只对这些声源中的一个或某几个感兴趣。同时,由于声源(说话人)可能在室内小范围内走动,以及室内各种其它声音的多径反射和混响等因素,都会导致单个麦克风接收的信号信噪比降低,从而导致语音通信质量严重恶化,使得感兴趣的说话人声音难以听清,以致55%的病人配了助听器而不愿戴。

在无噪声、无混响的情况下,距离声源很近的高性能、高方向性的单麦克风可以获得高质量的声源信号。但是,这要求声源和麦克风之间的位置相对固定,如果声源位置改变,就必须人为地移动麦克风。若声源在麦克风的选择方向之外,则会引入大量的噪声,导致拾取信号的质量下降。而且,当麦克风距离声源很远,或者存在一定程度的混响及干扰的情况下,也会使拾取信号的质量严重下降。为了解决单麦克风

7

系统的这些局限性,人们提出了用麦克风阵列进行语音处理的方法。麦克风阵列系统就是由一组按一定几何结构摆放的单向麦克组成的系统。麦克风阵列系统较之单麦克风系统具有许多优点,其优越性表现在:

1)高方向性的单麦克风通常只能拾取一路信号,而麦克风阵列系统可以采集多路信号。虽然麦克风阵列是对单个目标的数据采集,但由于各麦克位置的不同,它采集的数据在时间或者空间上必然存在某些差异。从而通过多路信号的数据融合技术,就可以提取出所需要的信息。

2)麦克风阵列系统具有空间选择特性。它以“电子瞄准”的方式使所形成的波束对准声源,这抑制了其他说话人的声音和环境噪声,从而获得高品质的声源信号。

因此,基于双耳联合处理的麦克风阵列与左、右耳单独处理的麦克风阵列相比,可以获得更精确的空间信息。

在麦克风阵列中,依据阵列到目标源距离的大小,阵列信号处理可分为近场(near field)处理和远场(far field)处理;依据阵列所处理信号的频域性质,阵列处理又可分为宽带(broad field)信号处理与窄带(narrow band)信号处理[6]。

有研究表明在数字助听器中,麦克风阵列对于语音信号的处理大体上遵循远场,宽带信号的假设。

3.2 麦克风阵元的排布与间距

在阵列处理中,阵元之间的排列方式多种多样,如“一”字线阵、“十”字交叉阵、“V”字型阵,球百阵等等。而用于数字助听器上的麦克风阵列,其阵元之间多采用线性排列。根据目标声源与阵列之间的相对位置关系,线性麦克风阵列又可分为Broadside型和Endfire型这两种排布方式。下面图3-1给出了这两种排布方式的区别。

(a)Broadside型 (b)Endfire型

图3-1 Broadside线性阵(左)与Endfire线性阵(右)

从图3-1的对比中不难看出,如果基于远场的假设,若采用Broadside型的排布,目标声源到达各个阵元(麦克风)之间的时差最小,如果我们假设目标声源距离阵元为无限远,那么目标声信号到达各个阵元的时刻是相同的;而对于Endfire型排布的线性阵,目标声源的声信号是沿着麦克风的排列线进行传播,因此各个麦克风之间接收到目标声信号之间的时差最大,来自其他方向的声信号在各个麦克风之间的传播

8