簡述說話人語音特征子空間分離及識別應(yīng)用

出處：電路與系統(tǒng)學報發(fā)布于：2011-06-29 14:05:11

　　1 引言

　　說話人識別技術(shù)被認為是自然的生物技術(shù)，它是一項根據(jù)語音中反映的說話人生理和行為特征的語音參數(shù)，自動識別說話人身份的技術(shù)。目前，說話人識別的主流特征往往只反映了說話人的聲道頻率特性，而忽略了聲門的振動信息，以及聲門振動對于聲道的潛在影響。在詳細分析說話人識別的主要特點和進展，特別是基于聲門特征的說話人識別研究現(xiàn)狀的基礎(chǔ)上。生物特征的身份識別技術(shù)是當前國際上的重點研究內(nèi)容,自動說話人識別通過語音識別說話人的身份,在系統(tǒng)安全、司法鑒定、金融服務(wù)以及電子偵聽等領(lǐng)域有著廣泛的應(yīng)用價值。本文在對現(xiàn)有說話人識別技術(shù)分析的基礎(chǔ)上,運用互信息理論進行說話人識別的研究,提出了可實際應(yīng)用的語音信號互信息計算方法,并針對基于文本和文本無關(guān)的說話人識別分別提出了相應(yīng)的說話人語音模型和互信息匹配算法,實驗證明了本文提出的語音信號互信息計算方法的有效性。

本文依據(jù)主元分析(PCA：Principal Component Analysis)原理和說話人語音特征在觀察空間的分布散度提取主要散度向量構(gòu)造說話人語音特征子空間，將說話人語音特征子空間從觀察空間分離出來。實驗分析了基于特征子空間的說話人識別性能，結(jié)果證明了這種方法的有效性，特別是在小于3秒的短時測試語音情況下識別性能明顯優(yōu)于VQ和GMM等方法。

　　2 特征子空間分離

在宇宙大空間中，子空間是指有許多同樣存在的小空間，這些小空間是并存的，而在每個空間的邊緣都有類似一種間隔的存在，它們的作用就是把每個子空間隔開，但是這種間隔并不是層狀的，它們像是空間一樣有著自己的領(lǐng)域，但是這些領(lǐng)域中，存在于子空間的規(guī)則在這里卻并沒有效用，在這種間隔中光飛行的速度可以達到在子空間速度的億倍以上。

　　基于語音特征子空間分離的說話人識別系統(tǒng)中，說話人模型由特征子空間表示，模式匹配部分則通過計算輸入測試語音特征矢量與子空間的距離進行。特征子空間根據(jù)說話人訓練語音提取的特征矢量在觀察空間的統(tǒng)計分布特性，依據(jù)PCA原理選取具有較大權(quán)值的散度向量構(gòu)成。

　　設(shè)一個說話人訓練語音集合為{S1，S2，…，SN}，每一個訓練語音樣本經(jīng)過特征提取后形成特征矢量序列，即

如果特征矢量具有P個參數(shù)，則特征矢量Vij表示P維觀察空間的一個點，所有的特征矢量

在觀察空間形成具有一定統(tǒng)計分布特性的點集{V1，V2，…，VM}，其中M是說話人所有訓練語音特征矢量的總數(shù)。描述說話人語音特征矢量在觀察空間分布的一個主要統(tǒng)計指標是分布散度，它可以由平均特征矢量和自協(xié)方差矩陣表示，如下：

公式(1)中平均特征矢量V反映說話人所有特征矢量在觀察空問的中心點。公式(2)中自協(xié)方差矩陣R是一個P×P正定對稱矩陣，它反映了說話人特征矢量各參數(shù)的平均偏離值，因此可以衡量特征矢量在觀察空間的分布散度。

求自協(xié)方差矩陣R的本征值{λ1，λ2，…，λP}和相應(yīng)的本征向量{e1，e2，…，eP}，則它們之間的關(guān)系如下式(3)～(5)所示。其中φ是由本征向量作為每一列構(gòu)成的P×P矩陣，A是由本征值構(gòu)成的對角矩陣。

因為本征向量ei，i=1～P是從描述說話人語音特征矢量分布散度的自協(xié)方差矩陣計算得到，所以，從空間的角度看，說話人的語音特征分布完全可以由以平均特征矢量V為中心，本征向量ei，i=l～P為正交歸一化基底的子空間描述，如圖1所示。這樣，就從語音特征觀察空問將說話人語音特征子空間分離了出來，不同的說話人具有不同的特征子空間。

雖然計算得到的本征向量個數(shù)與觀察空間維數(shù)相同，但有些本征向量對應(yīng)的本征值較小，在表示語音特征分布散度時影響較小。因此，實際應(yīng)用中可以選擇具有較大散度權(quán)值(本征值)的向量構(gòu)成子空間的基向量。圖1顯示了一個三維觀察空間中分離出的兩個二維說話人特征子空問例子，這些子空間的基底對應(yīng)前兩個較大的散度權(quán)值。第4小節(jié)分析了選取不同散度權(quán)值本征向量構(gòu)成子空間情況下的識別性能，結(jié)果表明子空間維數(shù)并非越多越好。

說話人語音特征子空間本質(zhì)上是根據(jù)訓練語音特征矢量在觀察空間的統(tǒng)計分布特性分析得到的一種結(jié)構(gòu)性說話人模型，各子空間的基底描述了說話人語音特征分布的框架結(jié)構(gòu)。因此，可以認為子空間融合了說話人語音特征的統(tǒng)計特性和結(jié)構(gòu)特性，可由下式(6)表示：

　　3 子空間距離測度與模式匹配

　　系統(tǒng)模式匹配對輸入測試語音與各說話人子空間的相關(guān)度進行分析，提供說話人身份的判別依據(jù)。設(shè)輸入測試語音St相應(yīng)的特征矢量序列為

則通過計算該特征矢量序列與說話人特征子空間的距離來分析測試語音與子空間的相關(guān)度，距離越小，相關(guān)度越大。終的說話人識別判決可以依據(jù)距離準則進行，即測試語音說話人所對應(yīng)的子空間應(yīng)該與測試語音之間的距離，即相關(guān)度。

輸入語音特征矢量Vt與子空間的距離測度采用子空問投影距離計算，如下式(7)所示。其中Q是子空間的維數(shù)，Q≤P。

上式項是觀察空間特征矢量Vt與說話人語音特征子空間中心矢量V之差向量Vt一V的平方模；第二項是這個差向量Vt一V在子空間各維投影的平方和，代表了這個差向量在子空間上的投影長度的平方。兩項相減就是輸入測試語音特征矢量Vt與子空間的距離。

以上距離測度中采用了訓練語音的平均特征矢量V，使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式。實際應(yīng)用中，說話人語音特征是時變的，并引起特征矢量統(tǒng)計分布特性的變化，其表現(xiàn)之一是平均特征矢量隨時問的漂移。從子空間角度看，這個平均特征矢量的變化代表了說話人語音特征子空間的一種整體時變漂移，在計算子空間距離時如果不能及時反映這種變化，將可能引起一定程度的失真，為此，定義第二種距離測度如下：

前面兩項的含義與種測度d1(Vt，SF)是一致的，但差向量不是根據(jù)訓練語音的平均特征矢量V形成，而是由輸入測試語音的平均特征矢量Vt形成。這樣，不僅使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式，并且使形成差向量的兩個特征矢量在時間上一致起來。但是，子空間是根據(jù)訓練語音構(gòu)造的，其中心特征矢量是訓練語音的平均特征矢量，距離測度中必須反映這一差異。所以，在第二種距離測度中增加第三項描述訓練語音和測試語音特征矢量的平均差異，兩者通過加權(quán)系數(shù)c結(jié)合，其中N是測試語音短時幀個數(shù)。因此，這一距離測度不僅描述了特征矢量與說話人特征子空間的距離，而且描述了測試語音特征與子空間所表示的說話人語音特征的平均距離，同時考慮了語音特征的結(jié)構(gòu)性和統(tǒng)計特性差異。加權(quán)系數(shù)c的選擇使兩類距離對整個測度的影響保持平衡，可以通過各自的統(tǒng)計方差之比計算。

模式匹配通過計算整個輸入測試語音特征矢量序列與子空間的距離進行。利用以上距離測度，輸入測試語音St與說話人語音特征子空問的總距離如下：

設(shè)系統(tǒng)需要識別的M個說話人對應(yīng)的子空間分別為SF1~SFM，經(jīng)過模式匹配得到輸入測試語音St與各子空間的距離SFD1～SFDM，則識別判決準則如下：

　　4 實驗分析

　　需要通過實驗分析的問題包括：（1）基于特征子空間識別方法的有效性？（2）子空間維數(shù)與識別性能的關(guān)系，并確定一個子空間維數(shù)。（3）不同子空間距離測度下識別性能的比較分析（4）不同特征參數(shù)，例如LPCC、MFCC情況下識別性能分析？（5）不同長度測試語音輸入時，說話人識別性能的變化趨勢（6）在相同訓練語音數(shù)據(jù)、實驗環(huán)境和條件下，子空間方法和VQ、GMM等其他方法的識別性能比較分析。

　　4.1 實驗數(shù)據(jù)與條件

　　語音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫，該數(shù)據(jù)庫中包含了在普通實驗室環(huán)境下通過計算機聲音系統(tǒng)采集得到的40個說話人的280條語音片段，其中，男聲26人，女聲14人，每人分別有7段語音，每段語音包括停頓間隙長度為12秒。語音采樣率為11025Hz，16位量化，單聲道輸入。

　　在模型訓練和識別測試中，預(yù)處理部分首先消除輸入語音信號的背景噪聲，保留純語音數(shù)據(jù)，并進行權(quán)重系數(shù)為0.97的高頻提升。短時分析采用27ms哈明窗，幀移步長18ms。特征參數(shù)LPCC和MFCC為16階，其中，LPCC由16階LPC線性預(yù)測系數(shù)推導得到，MFCC是基于Mel頻率尺度的倒譜系數(shù)，通過計算Mel頻率域均勻分布的19個三角濾波器組的DFT輸出，并經(jīng)DCT變換得到，實驗中選取第l～16個系數(shù)作為特征參數(shù)。實驗中，特征子空間采用說話人的前4段語音信號進行訓練，其純語音成分的長度平均為32秒。測試實驗采用每說話人的后3段語音。

　　4.2 不同距離測度和特征參數(shù)下子空間維數(shù)與識別性能關(guān)系分析

　　根據(jù)PCA原理，特征子空間可以選擇較大散度本征值對應(yīng)的本征向量為基底，這樣可以提高子空間之間的非相關(guān)性。但是，選擇的基向量不能過少，否則可能引起子空間不能充分表示語音特征的分布結(jié)構(gòu)。因此，需要在實驗分析子空間維數(shù)與識別性能關(guān)系的基礎(chǔ)上確定一個子空間維數(shù)。

　　將散度本征值按大小順序排列，并選取前面幾個較大本征值所對應(yīng)的本征向量作為子空間的基向量進行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測度情況下系統(tǒng)誤識率隨子空間維數(shù)變化的情況，其中測試語音長度為3秒?？梢钥吹剑诙N子空間距離測度總體上比種距離測度更優(yōu)越，但兩種測度下都顯示當子空間維數(shù)為6時系統(tǒng)的誤識率。圖3顯示了采用第二種子空間距離測度時，兩種特征參數(shù)LPCC和MFCC所對應(yīng)的識別性能隨維數(shù)變化的情況，其測試語音長度也是3秒?？梢钥吹?，MFCC參數(shù)相對而言比LPCC要優(yōu)越些，但差距并不大。另外，從圖3同樣可以看到當子空間維數(shù)為6時系統(tǒng)具有識別性能。

　　根據(jù)以上實驗結(jié)果可以得出這樣得結(jié)論：基于子空間分離的說話人識別方法是有效的，但其識別性能隨子空間維數(shù)是變化的，當維數(shù)為6時識別性能達到，誤識率僅為0.189％。因此，在以下的實驗分析中子空間維數(shù)均采用6。

　　4.3 不同特征參數(shù)下識別性能與測試語音長度關(guān)系分析

　　實際應(yīng)用中，測試語音的長度不是固定的。因此，衡量一個說話人識別系統(tǒng)的識別性能必須針對不同的測試語音長度進行分析。

　　圖4顯示了當采用兩種特征參數(shù)LPCC和MFCC時，不同測試語音長度下系統(tǒng)的識別性能情況。其中，子空間距離的計算采用第二種測度，即d2（Vt，SF）。

　　從圖4可以看到，所有測試語音長度下系統(tǒng)都能夠得到較好的識別性能，誤識率均在3％以下，當測試長度達到5秒時，MFCC對應(yīng)的誤識率趨于零，但LPCC對應(yīng)的誤識率下降趨勢慢一些。另外可以看到，采用MFCC作為特征參數(shù)時的識別性能比LPCC時優(yōu)越，但差距并不大。

　　4.4 子空間方法與其他方法的比較分析

　　說話人識別的根本性問題是模型和特征參數(shù)，即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。常用的文本無關(guān)說話人模型有GMM和VQ。

　　圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中，VQ碼本的碼字數(shù)為128，GMM的混合分量數(shù)為16?？梢钥吹?，子空間方法在測試語音長度小于3秒時其識別性能優(yōu)于其他方法，而在大于等于3秒時則相反。這個結(jié)果說明，GMM和VQ等完全基于統(tǒng)計聚類的方法由于運用了說話人語音的統(tǒng)計特性，所以對于較長的測試語音有較可靠的識別性能，但當測試語音較短時，由于無法提供可靠的統(tǒng)計特性進行匹配，誤識率就很快下降。而子空間方法是根據(jù)說話人語音特征的分布散度得到的一種空間結(jié)構(gòu)性模型，由于不是完全依靠語音特征的統(tǒng)計特性，所以在較短的測試語音時也能夠得到較好的識別性能。

　　5 結(jié)論

　　本文依據(jù)主元分析原理從語音特征觀察空間分離說話人語音特征子空間，對輸入語音特征矢量與子空間的距離測度進行了定義，并對基于特征子空間的說話人識別性能進行了分析。說話人語音訓練樣本提取特征后在語音特征觀察空間形成具有一定散度的分布，根據(jù)主元分析原理和分布散度提取主要散度本征向量作為基底構(gòu)成說話人語音特征子空間，并通過測試語音特征矢量與子空間的距離測度進行模式匹配。實驗結(jié)果表明，特征子空間方法對說話人識別是有效的，特別是在小于3秒的短時測試語音下能夠得到較高的識別率。

關(guān)鍵詞：簡述說話人語音特征子空間分離及識別應(yīng)用

上一篇：ADSP-BF533在低耗高速實時系統(tǒng)中的設(shè)計應(yīng)用

下一篇：一種基于ColdFire平臺的便攜式WiFi電話的設(shè)計

版權(quán)與免責聲明

凡本網(wǎng)注明“出處：維庫電子市場網(wǎng)”的所有作品，版權(quán)均屬于維庫電子市場網(wǎng)，轉(zhuǎn)載請必須注明維庫電子市場網(wǎng)，http://m.58mhw.cn，違反者本網(wǎng)將追究相關(guān)法律責任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品出處，并自負版權(quán)等法律責任。

如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

相關(guān)技術(shù)資料

掌握 DSP：原理剖析與應(yīng)用實踐2025/5/8 14:03:24
模糊邏輯在 DSP 上實時執(zhí)行2023/7/25 17:13:30
多速率DSP及其在數(shù)模轉(zhuǎn)換中的應(yīng)用2023/6/12 15:28:52
使用 DSP 加速 CORDIC 算法2023/3/29 15:46:30
高速DSP系統(tǒng)的信號完整性2022/9/26 16:45:38

技術(shù)分類

熱門技術(shù)資料

最新技術(shù)資料

維庫電子市場網(wǎng)-十六年專注打造電子元器件采購網(wǎng)

簡述說話人語音特征子空間分離及識別應(yīng)用

版權(quán)與免責聲明

建議反饋