声音信号的特征检测

沉默的骑士 范文 工作总结范文
精选回答

声音信号的特征检测本文简介:摘要语言是人类最为重要的交流工具,它具有简易方便,准确自然等其他工具所无法替代的特点。随着信息社会的迅速发展,计算机已经渗透进人类生活工作的每一个角落,因此人机交互显得尤其重要。在人机交互的各种通信方式中,语音通信又是最好的交流方式,而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。

声音信号的特征检测本文内容:

语言是人类最为重要的交流工具,它具有简易方便,准确自然等其他工具所无法替代的特点。随着信息社会的迅速发展,计算机已经渗透进人类生活工作的每一个角落,因此人机交互显得尤其重要。在人机交互的各种通信方式中,语音通信又是最好的交流方式,而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。因此,声音信号的特征检测在语音信号处理中是一项非常重要的工作。

本文利用MATLAB软件检测声音信号的特征参数,以语音信号为主,首先讨论了声音信号的基本特性,包括声音信号的产生,传播,声学特性等等。然后又分别讨论了声音信号在时域,变换域的特征参数。最后详细研究了声音信号的特征参数的检测提取。

第一章

声音信号的基本特征

1.1声音信号的产生

声音是一种波,它是由物体振动产生的,能被人耳听到,它的振动频率在20~20000Hz之间。自然界中有各种各样的声音,如雷声,树叶被风吹时发出的“飒飒”声,大海波涛汹涌的翻滚声,机械工作时发出的声音等等。语音也是声音的一种,它是由人的发声器官发出的,语音的振动频率最高可达15000Hz。

语音信号的产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言表达的信息;然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度。基音周期的升降等表示出来。一旦对这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带震动,并塑造声道的形状以便发出编码中指定的声音序列。神经肌肉命令必须同时控制调音运动中涉及的各个部位:唇、腭、舌头以及控制气流进入鼻腔的软腭。一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。听者内耳的基底膜对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取过程有些类似。作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。

人类的语音是由人体发声器官在大脑控制下的生理运动产生的。人的发声器官包括肺、气管、喉、咽、鼻腔和口腔等,如图1-1所示。喉以上的部分称为声道,发出声音的不同会导致其形状的变化,所以听到的声音也不同;而喉(包括声带)的部分称为声门,呼吸时左右两声带打开,讲话时则合拢。声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期,其倒数称为基因频率,简称基频。基因频率取决于声带的尺寸和特性,也决定于它所受的张力。声带振动的频率决定了声音频率的高低,频率快则音频高,频率慢则音调低。基音的范围约为80-500Hz左右,它随发音人的性别、年龄及具体情况而定,老年男性偏低,小孩和青年女性偏高。

现在我们来讨论一下声音的产生过程。其原理图如图1-2所示。根据声带是否震动,语音又分为浊音和清音。在发声的过程中,肺当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音成为浊音,没有声带振动的音称为清音。当声带处于松弛状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型声音。这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。另一种方式是声带处于松懈状态,利用舌头和嘴唇关闭声音,暂时阻止气流。当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。对应于声道闭紧点的不同位置和

声道的形状,形成不同的爆破音。

综上所述,声道是气流自声门之后最为重要的器官,它是一个具有分布参数系统的谐振腔,因而有许多谐振频率。谐振频率由瞬态的声道外形所决定。人在说话的时候舌和唇连续运动,使得声道发生外形和尺寸上的改变,随即改变了谐振频率。谐振频率发生在

Fn=(2n-1)4Lc,n=1,2,3,.

C为声速,空气中c=340m/s。L为声道长度,n表示谐振频率的序号。这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓或者谱包络。声音的频率特性也主要是由共振峰决定的。其中共振峰特性和元音的音色密切相关。

1.2声音信号的特征

1.2.1声音信号的基本特性

声音是一种波,它具有以下几种物理特征:音质。它是一种声音区别于其他声音的基本特征。音调。就是声音的高低。音调取决于声波的频率,频率快音调就高,频率慢音调就低。响度。响度表示声音的强弱,它是由声波振动幅度决定的。音长。它表示声音的长短,是由发音持续时间的长短决定的。

除了有物理特征外,它还具有另一个重要的性质,这就是声音总是能表达一定的意义和思想内容。而且不仅如此,它还能表达出一定的语气、情感。因此,声音中所包含的信息是丰富多彩的。

我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的语音片段的,称为音节。音节是构成语音的最小单位,是发声的最小单位。而一个音节又是由一个或若干个音素构成,音素是语音的最小、最基本的组成单位。各种音素组合到一起构成了不同的音节,各种音节组合到一起又构成了更大的单位——词,词是文章的基础,是有意义的语言的最小单位。

任何语音都有元音和辅音两种音素。一个音节由元音和辅音构成。元音是由声带的振动发出的声音,它是一个音节的主要部分。每个元音的特点是由声道的形状和尺寸决定的。所有元音都是浊音。辅音则是由呼出的气流克服发音器官的阻碍而产生的。发辅音时如果声带不振动,称为清辅音;发辅音时如果声带振动,则称为浊辅音。

1.2.2声音信号的时域波形及特性

在进行声音信号数字化处理时,能最为直观的了解声音信号的方式便是看它的时域波形。下面我们利用计算机声卡录音,看一下这段声音的时域波形。要求采样频率为8kHz,每个采样点用16位进行量化,录音时间为1s,内容为“你好”。图中横轴为时间,纵轴为信号的幅度。从图1-3(a)中可以看出声音能量的起伏,以及声音信号随时间变化的过程。图1-3(b)是将“好”的元音部分/ao/拉长后的形状。图1-3(c)是“好”的辅音/h/的波形图。

图1-3(a)语音信号“你好”的时域波形

图1-3(b)元音部分/ao/的波形

图1-3(c)辅音部分/h/的波形

可以看出,元音/ao/的波形具有很强的准周期性并且有较强的振幅。它的周期对应的就是基音频率。而/h/的波形类似于白噪声,并且振幅也弱一些。

1.2.3声音信号的频域波形及特性

前面我们所研究的时域波形虽然简单直观,但是对于一些复杂的声音信号

,一些特性只有在频域中才能体现出来

;并且频谱是表征语音特征的基本参数

。共振峰即是一个典型的频域参数,它决定了信号频谱的包络。在声音的发音过程中,声道通常都处于运动状态,但是这个运动状态的时变过程同振动过程相比要缓慢得多,因此我们研究声音信号的时候都要假设其为一种短时平稳信号,一般都假定在10ms~30ms之内是相对平稳的,但在长时间的周期中声音信号的特性会发生变化,这种变化的不同决定了声音的不同。根据声音信号这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。图1-4给出了“你好”的频谱特性。

图1-4

“你好”的频谱

1.2.4语谱图

前面的频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量。这种视频图称为语谱图。能量功率谱的表达式为

Pxn,ω=12N+1|Xn,ω|2

其中,X(n,ω)=k=-∞∞xkωn-ke-jωk;

ω[n]是一个长度为2N+1的窗函数,X(n,ω)表示在时域以n点为中心的一帧信号的傅里叶变换在ω处的大小。在实际情况下,一般不用对每个可能的频率和时间计算相应的能量。对于频率轴,一般计算2N+1点就足够;对于时间轴,取N个点也足够了。

图1-5给出了一段语音的语谱图。图中横轴表示时间,纵轴表示频率,颜色的深浅表示该处能量的大小,一般用能量的对数表示。

图1-5

一段语音的语谱图

第二章

声音信号的特征分析

对于声音信号的分析所采用的主要技术是“短时分析技术”。声音信号的特征是随时间变化的,是一个非稳态的过程。但即便如此,由于发声时人的口腔肌肉运动频率相对于语音频率来讲是相对缓慢的,所以在一个短时间范围内,它的基本特征是可以被认为是保持不变的,那么我们就可以将其视为一个准稳态过程。因此,对于一段较长的语音我们必须将其分为一段一段的“帧”进行处理,帧长一般取10ms~30ms。

对声音信号进行特征分析之前,首先需要对信号进行数字化处理,这一部分我们只做简单讨论。

2.1声音信号的数字化

2.1.1采样与量化

声音信号在时间和幅度上都是连续变化的模拟信号,如果想在计算机上对其处理必须先进行采样和量化,将它变成在时间和幅度上都离散的数字信号。所谓采样,就是把模拟信号在时域上进行等间隔抽样,其中两相邻抽样点之间的间隔称为采样周期,倒数为采样频率。根据奈奎斯特采样定理,采样频率必须大于声音信号最高频率的2倍,只有这样,在恢复信号的时候才能确保原始信号被完整地重构。在实际语音信号处理中,采样频率一般为8kHz~10kHz.

采样后的信号在时间上是离散的,但在幅度上仍然保持连续,所以要进行量化处理。量化就是将信号的幅度分成若干个有限的区间,并且把同一区间的样本点都用一个幅度值表示,这个幅度值称为量化值。量化有3种方式:零记忆量化、分组量化和序列量化。其中零记忆量化是最简单的一种,它的输入-输出特性采用阶梯型函数的形式。

信号经过量化后,一定存在一个量化误差。其定义为

en=x1(n)-x(n)

式中,e(n)为量化误差;x1(n)为量化后的采样值,即量化的输出;

x(n)为未量化的采样值,即量化的输入。

经过采样和量化后,一般还要对信号进行预加重。其实质就是提升高频部分,使信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。预加重滤波器一般是一阶的形式如下

H(z)=1-uz-1

式中,u值接近于1,一般取值在0.94~0.97之间。预加重后的信号在分析处理后,需要进行去加重处理。

2.1.2短时加窗处理

为了得到短时声音信号,要对声音信号进行加窗处理。窗函数在声音信号上滑动,将声音信号分成帧。分帧可以连续,也可以采用交叠分段的方法,交叠部分称为帧移,一般为窗长的一半。在加窗的时候,不同的窗口选择将会得到不同的分析结果。在选择窗函数时,需要考虑两个问题。

(1)

窗函数形状

窗函数可以选择矩形窗,其表达式为

ωn=

1,0≤

&n≤N-10,&其他

也可以选择汉明窗,表达式为

ωn=0.54-0.46cos2πnN-1,0?&n≤N-10,&其他

或汉宁窗

ω(n)=0.5[1-cos?(2πnN-1],0≤

n≤N-10,&其他

式中,N为窗口长度。

虽然这些窗函数的频率响应都具有低通特性,但不同的窗函数形状将影响分帧后短时特征的特性。我们拿矩形窗和汉明窗作比较。图2-1(a)给出了N=51时的矩形窗及其频率响应的对数幅度。51点汉明窗的频率响应如图2-1(b)所示。可以看出,汉明窗的第一个零值频率位置比矩形窗要大一倍左右,也就是说,汉明窗的带宽大约是同样宽度矩形窗带宽的两倍。从两个图中也可以看出在通带外,汉明窗的衰减比矩形窗大得多。

图2-1(a)矩形窗

图2-1(b)汉明窗

(2)

窗函数长度

窗函数长度对能否反映声音信号的幅度变化其决定性的

作用。如果N特别大,即等于几个基音周期量级,则窗函数等效于很窄的低通滤波器,此时信号短时信息将和慢地变化,因而也就不能充分反映波形变化的细节;反之,如果N特别小,即等于或小于一个基音周期的量级,则信号的能量将按照信号波形的细微状况而很快地起伏。如果N太小,滤波器的通带变宽,则不能得到较为平滑的短时信息,因此窗函数的长度要选择合适。窗函数的衰减基本上与窗的持续时间无关,因此当改变宽度N时,只会使带宽发生变化。

综上所述,矩形窗的频谱平滑性较好,但波形细节容易丢失,并且矩形窗会产生泄露现象;而汉明窗可以有效地克服泄漏现象,应用更为广泛。

2.2声音信号的时域参数分析

2.2.1短时能量分析

声音信号的能量分析是基于声音信号能量所时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多这一特性。声音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号x(n),短时能量的定义如下:

En=m=-∞∞[xmωn-m]2=m=-∞∞h(n-m)x2(m)=x2*h(n)

式中,h(n)=ω2(n),En表示在信号的第n个点开始加窗函数时的短时能量。根据定义式可以看出,窗函数加权的短时能量相当于声音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲击响应为h(n)。冲激响应h(n)的选择,或者说窗函数的选择决定了短时能量表示方法的特点。为了反映窗函数选择对短时能量的影响,假设h(n)非常长,且为恒定幅度,那么En随时间的变化将变为很小,这样的窗就等效为很窄的低通滤波器。我们要求的是对声音信号进行低通滤波,但还不是很窄的低通滤波,至少短时能量应能反映声音信号的幅度变化。因此出现了窗长选取上的矛盾,这种矛盾将在声音信号的短时表示方法的研究中反复出现。即希望有一个短时窗(冲激响应),以响应快速的幅度变化。但是,太窄的窗将得不到平滑的能量函数,并且窗函数的形状和长短直接影响着短时能量的性质。如果用xω(n)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为

En=m=nn+N-1xω2(m)

短时能量En反映了声音能量随着时间缓慢变化的规律,它的主要用途有:首先可以从清音中区分出浊音来,因为浊音的能量要比轻音的能量大得多;其次可以用来确定声母与韵母,无声与有声,连字等的分界。除此之外短时能量还可以作为一种超音段信息用于语音识别。

短时能量由于是对信号进行平方运算,因而人为增加了高低信号之间的差距,在一些应用场合不太适用。解决这个问题的简单方法是采用短时平均幅值来表示能量的变化,其公式为

Mn=m=-∞∞xmωn-m=m=nn+N-1|xω(m)|

这里用加窗后的信号的绝对值之和代替平方和,使运算进一步简化。

图2-2(a)加矩形窗的声音文件“你好”的短时平均能量

图2-2(b)加矩形窗的声音文件“你好”的短时平均幅度

2.2.2短时平均过零率

短时平均过零率是声音信号时域分析中最简单的一种特征,它是指每帧内信号通过零值的次数。对于连续声音信号,可以考察其时域波形通过实践轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零,由此可计算过零率。过零率就是样本改变符号的次数。单位时间内的过零率称为平均过零率。如果信号是正弦信号,它的平均过零率就是信号的频率除以两倍的采样频率,采样频率是固定的,因此过零率在一定程度上可以反映出频率的信息。因为声音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。然而短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计,短时平均过零率的公式为

Zn=12m=-∞∞|sgn[xm-sgn[xm-1]|ωn-m=12m=nn+N-1|sgn[xω(m)]-sgn[xω(m-1)]|

式中,sgn[x(n)]是符号函数,即sgn[x(n)]=-1,&x(n)<01,&x(n)≥0

根据公式可以看出,首先对声音信号序列x(n)进行成对处理,检查是否有过零现象,若有符号变化,则表示又一次过零现象;然后进行一阶差分计算,取绝对值;最后进行低通滤波。

短时平均过零率可以用于声音信号分析。发浊音时,声带振动,因而声门激励是频率为基频的声压波,它在经过声道时产生共振。尽管声道由若干个共振峰,但由于声门的影响,其能量分布主要集中在3kHz频率范围内;反之,在发清音时,声带不振动声道的某部分收到阻塞产生类白噪声的激励,该激励通过声道后能量集中在比浊音时更高的频率范围内。因此,浊音时的能量集中于低频段,而轻音的能量集中在高频段。由于短时平均过零率可以在一定程度上反映频率的高低,因此在浊音段,一般具有较低的过零率,而在清音段具有较高的过零率,这样可以用短时平均过零率来初步判断清音和浊音。然而这种高低仅是相对而言的,没有精确的数值关系。

另外,可以讲短时平均过零率和短时平均能量结合起来判断语音起止点的位置,即进行端点检测。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测效果。因此一般的识别系统,其前端的端点检测过程都是将这两个参数结合用于检测语音是否真的开始。短时平均过零率的另一个用途是作为声音频域分析的一个中间步骤,方法是不用窗口型的低通滤波器来处理过零,而改用多通道的带通滤波器,这时的输出就是频域的短时平均过零率,如果再加上用带通滤波器的短时能量输出,就可以得到声音信号的频域分析结果。

用上面定义计算的短时平均过零率容易受到低频的干扰。解决这个问题的一种方法是对上述定义做一个简单的修改,即设立一个门限T,将过零率的定义修改为跨过正负门限的次数。于是有

Zn=1/2m=-∞∞sgnxm-T-sgnxm-1-T+sgnxm+T-sgnxm-1+Tω(n-m)

这样计算的短时平均过零率就有一定的抗干扰能力。即使存在小的随机噪声,只要它不超过正、负门限所构成的带,就不会产生虚假过零率。

图2-2(c)加矩形窗的声音文件“你好”的短时平均过零率

2.2.3短时相关分析

相关分析是一种常用的时域分析方法,一般情况下,相关函数用于测定两个信号在时域内的相似程度,它分为自相关和互相关两种,分别由自相关函数和互相关函数来定义。自相关函数主要研究信号本身的同步性、周期性。而互相关函数主要讨论两个信号之间的相关性,如果两个信号完全不同,相互独立,则互相关函数接近于零;如果两个信号波形相同,则在超前、滞后处出现峰值,由此可求出两个信号的相似程度。

月亮的温度 2022-07-10 09:24:00

相关推荐

benzo brilliant orange gr

benzobrilliantorangegr汉语翻译:【建】苯并亮橙GR...
展开详情

cosmos

cosmos汉语翻译:n.宇宙,秩序,和谐,*斯菊【医】*斯菊词意辨析:space,universe,cosmos这些名词均含“宇宙,太空”之意。space:指大气层或太阳系之外的极高的天空,即太空之意。uni...
展开详情

zinc (electro)plating

zinc(electro)plating汉语翻译:【化】电镀锌...
展开详情

kleene hierarchy

kleenehierarchy汉语翻译:【计】克林分层...
展开详情

air fuel ratio

airfuelratio汉语翻译:【机】混合比...
展开详情

精选推荐更多>

众说纷纭的解释是什么

众说纷纭,汉语成语,拼音是zhòng shuō fēn yún,意思是人多嘴杂,各有各的说法,议论纷纷。出自清·蒲松龄《聊斋志异·阿纤》:“君无二心,妾岂不知?但众口纷纭,恐不免秋扇之捐。”
例句:
1、对于天上的不明飞行物,人们众说纷纭。
2、专家对恐龙的灭绝问题众说纷纭,莫衷一是。
3、如何选拔运动会的参赛队员,大家众说纷纭,最后还没有形成统一意见。
4、他心平气和,不因众说纷纭而坐立不安。
5、过去的两年间,关于这次空难的原因众说纷纭,但至今没有一个一致认可的结论。
6、对于众说纷纭的科学问题;应该采取慎重态度。

国之大事在于什么

“国之大事,在祀与戎”意思是国家的大事情,在于祭祀和战争。出自《左传·成公·成公十三年》。
原文节选:能者养以之福,不能者败以取祸。是故君子勤礼,小人尽力,勤礼莫如致敬,尽力莫如敦笃。敬在养神,笃在守业。国之大事,在祀与戎,祀有执膰,戎有受脤,神之大节也。今成子惰,弃其命矣,其不反乎?
译文:有能力的人保持这些可以得福,没有能力的人败坏这些足以取祸。所以君子勤于礼法,小人竭尽力量。勤于礼法莫过于恭敬,竭尽力量莫过于敦厚笃实。恭敬在于供奉神灵,笃实在于各安本分。国家的大事情,在于祭祀和战争。祭祀有分祭肉之礼,战争有受祭肉之礼,这是和神灵交往的大节。现在成子表现出懒惰不恭,丢弃天命了,恐怕回不来了吧!
《左传》,相传为左丘明著,是中国古代一部叙事完备的编年体史书,更是先秦散文著作的代表。作品原名为《左氏春秋》,汉代改称《春秋左氏传》、《春秋内传》、《左氏》,汉朝以后多称《左传》。它是儒家重要经典之一,是历代儒客学子重要研习史书,与《公羊传》《谷梁传》合称“春秋三传”。《左传》实质上是一部独立撰写的记史文学作品,它起自鲁隐公元年(公元前722年),迄于鲁哀公二十七年(公元前468年),以《春秋》为本,通过记述春秋时期的具体史实来说明《春秋》的纲目。

金闪闪有这个词吗

金闪闪有这个词,意思是光亮四射,闪烁不定。
“金闪闪”造句:
1、这少妇的一对耳朵小巧而白嫩,垂着两只金闪闪的大耳环,看起来格外的不协调。在阳光的照射下,那两只大耳环随着她身子的扭动而一摇一摆的,非常引人注目。
2、秋天是丰收的季节,遍地金闪闪、黄澄澄的,秋天的田野更是非同一般。
3、网在落日余晖中银光光金闪闪。
4、太阳金灿灿,月亮黄橙橙,星星金闪闪。
5、小精灵把一个金闪闪的小瓶子扔到女巫脚下,随之消失。

相互的欣赏流淌在那一击中是对少年什么的描写

“相互的欣赏流淌在那一击中”是对少年的动作描写。出自冀教版语文五年级上册的课文《一诺千金》。
这句话写的是无论是画中人还是欣赏画的人都有一种心灵的慰藉。原因是那个少年等来了守约的朋友,而远道而来的朋友也看到了真诚守候的少年,他们热烈地击掌问候,这一份快乐使作者受到了感染,感到了灵魂的升华。
《一诺千金》作者为秦文君。作者通过对两个男孩子风雨无阻地赴约的描写,突出了诚信的主题,赞扬孩子的真诚守信。作者在他们身上看到了一诺千金的珍贵品质;他们通过这件事证明了自己所坚信的东西是正确的,并且为找到了一个同样言而有信的朋友而快活。