售前電話
135-3656-7657
售前電話 : 135-3656-7657
參數(shù)編碼特又稱聲碼器(Vocoder),它的原理和設(shè)計思想和波形編碼完全不同。波形編碼的基本思路是忠實地再現(xiàn)話音的時域波形,為了降低比特率,可以充分利用相鄰抽樣點之間的信息冗余性,對差分信號進行編碼,在不影響話音質(zhì)量的前提下,比特率可降至32kbit/s。在話務(wù)過載的情況下,還可降質(zhì)使用24或16khit/s編碼,但要進一步降低比特率就有困難了。
參數(shù)編碼根據(jù)對聲音形成機理的分析,著眼于構(gòu)造話音生成模型,該模型以一定精度模擬發(fā)話者的發(fā)聲聲道,接收端根據(jù)該模型還原生成發(fā)話者的音素,在頻域上該模型就對應(yīng)為具有一定零極點分布的數(shù)字濾波器。編碼器發(fā)送的主要信息就是該模型的參數(shù),相當(dāng)于話音的主要特征,而并非具體的話音波形幅值。而且由于話音信號變化是緩慢的,一個音素要持續(xù)相當(dāng)長一段時間(相對于抽樣周期而言),因此模型參數(shù)的更新頻度較低,不但可以利用抽樣值間的相關(guān)性,還可以充分利用幀與幀之間的信息冗余性以及更長時間段中的音源信息冗余性,有效地降低編碼比特率。因此,目前小于16kbit/s的低比特率話音編碼都采用參數(shù)編碼。它在移動通信、多媒體通信和IP網(wǎng)絡(luò)電話應(yīng)用中起到重要的作用。
需要指出的是,雖然參數(shù)編碼和波形編碼的原理完全不同,但是歸根結(jié)底信息都取自于對抽樣值的分析計算,為了去除冗余信息都需對差分信號(或稱殘差信號)進行處理,因此在技術(shù)上兩者并無明顯的界線,許多技術(shù),如線性預(yù)測、自適應(yīng)預(yù)測、矢量量化等既可用于參數(shù)編碼,也可用于波形編碼。
不難理解,為了掌握參數(shù)編碼原理,首先必需懂得話音特征分析和聲音形成機理。
聲音形成機理
話音形成的大致過程可由圖3.8表示:
從肺部壓出的空氣由氣管到達聲門,氣流流經(jīng)聲門時形成聲音,然后再經(jīng)咽腔,由口腔或鼻腔送出。其中咽腔和口腔、鼻腔構(gòu)成由多節(jié)聲管組成的聲道,當(dāng)腔體呈不同形狀,舌、齒、唇等處于不同位置時,相當(dāng)于形成一個具有不同零極點分布的濾波器,氣流通過該濾波器后產(chǎn)生相應(yīng)的頻響輸出,從而發(fā)出不同的音素。
音素可分為兩類。伴有聲帶振動的音稱為濁音(VoicedSound),它包括元音、濁輔音、半元音和鼻音。聲帶不振動的音稱為清音(unvoicedsound),包括清輔音和氣音。由于聲帶振動有不同的頻率,因此濁音就有不同的音調(diào),稱之為基音頻率。男性基音頻率范圍一般為50-250Hz,女性基音頻率一般為100-500Hz。另外氣流壓出的不同強度就對應(yīng)為聲音的音量大小。
從頻域角度看,濁音氣流流經(jīng)聲道后,其幅頻特性在聲道的濾波作用下將呈現(xiàn)兩個顯著的特點。一是幅頻頻譜的包絡(luò)有幾個明顯的局部最大值,稱之為共振峰。在這些頻率點處,反射波相互迭加,聲波能量加強。二是頻譜的精細結(jié)構(gòu)呈現(xiàn)周期性,即每隔一定頻率間距出現(xiàn)一個峰值,該間距對應(yīng)的就是基音頻率。而且頻譜的能量主要集中在低頻段,超過4kHz后頻譜迅速下降。
圖3.9示出元音[A]的對數(shù)振幅頻譜:
由圖可見,其包絡(luò)有4個共振峰,其頻率分別為F1=550Hz,F2=1.15kHz,F3=2.45kHz和F4==3.6kHz。另外,該頻譜顯示在0-1500Hz之間大致有12個峰值,表示基音頻率約為125Hz。分析表明,對于濁音尤其是元音,頻譜的前3個共振峰為特征共振峰,據(jù)此可以識別不同的元音,這一特性可以應(yīng)用于語音識別和語音壓縮編碼,它表明聲道的基本特性可以用一個全極點濾波器近似模擬。圖3.10示出[i]:[o:]、[u:]三個元音的特征共振峰。由于共振峰可以識別音素,而一個音素持續(xù)的時間相對較短(音節(jié)時間),因此我們說頻譜包絡(luò)反映了話音的短時相關(guān)性。而發(fā)話者基音頻率的變化則比較緩慢,因此頻譜的精細結(jié)構(gòu)反映了話音的長時相關(guān)性。
清音的頻譜特性和濁音有很大差別。因為聲帶沒有振動,因此頻譜形狀沒有周期性,峰值的分布也沒有明顯的規(guī)律,整個頻譜相對比較平坦,反映了清音音源類似于白噪聲。而且清音的頻譜能量集中在高頻區(qū),即使超過8kHz頻譜也沒有顯著的下降。