基于分帶譜熵的語(yǔ)音激活檢測(cè)算法的設(shè)計(jì)與實(shí)現(xiàn)
出處:張 敏 發(fā)布于:2011-07-09 16:29:40
采用一定的信號(hào)處理技術(shù)來(lái)檢測(cè)信號(hào)中是否包含語(yǔ)音信號(hào),并從背景噪聲中找出每一段語(yǔ)音的開(kāi)始和終止,以明確找出語(yǔ)音信號(hào)存在的范圍,這就是語(yǔ)音激活檢測(cè)VAD(Voice Activity Detection)。該技術(shù)目前被廣泛應(yīng)用在語(yǔ)音編碼、語(yǔ)音增強(qiáng)、語(yǔ)音合成、回聲抵消以及語(yǔ)音通信等領(lǐng)域。
語(yǔ)音激活檢測(cè)的研究歷史很長(zhǎng),從早的基于短時(shí)能量、過(guò)零率的判斷,到基于語(yǔ)音模型和統(tǒng)計(jì)知識(shí)的各種復(fù)雜算法,語(yǔ)音激活檢測(cè)算法的原理和實(shí)現(xiàn)方法都在不斷地更新。近年來(lái),一些學(xué)者提出了基于支持向量機(jī)[1]、小波理論[2]、神經(jīng)網(wǎng)絡(luò)[3]和循環(huán)累積量[4]等理論的檢測(cè)方法,對(duì)語(yǔ)音檢測(cè)方法的研究給出了新的思路。如何在保證算法魯棒性的同時(shí)降低算法的復(fù)雜度是一個(gè)極具挑戰(zhàn)性的問(wèn)題,也是目前語(yǔ)音激活檢測(cè)中的熱點(diǎn)問(wèn)題。本文設(shè)計(jì)了一種基于分帶譜熵的語(yǔ)音激活檢測(cè)算法,該方法采用分帶譜熵作為判決參數(shù),達(dá)到了較高的判別準(zhǔn)確率及較低的算法復(fù)雜度。
1 特征提取
特征提取的框圖如圖1所示。首先對(duì)加噪語(yǔ)音進(jìn)行分幀和加窗處理,然后進(jìn)行時(shí)頻變換,由參考文獻(xiàn)[5]知,與常用的FFT相比,用離散余弦變換譜熵來(lái)區(qū)分噪聲與語(yǔ)音具有更大的隔離度,因此本文選用離散余弦變換(DCT)。離散余弦變換的定義式為:


在DCT變換之后,對(duì)DCT系數(shù)進(jìn)行分帶,分成32個(gè)子帶,然后分別計(jì)算它的能量,其計(jì)算公式為:

為了提高概率密度函數(shù)分辨語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)的能力,提出了一些經(jīng)驗(yàn)性的約束。首先,由于大部分語(yǔ)音信號(hào)都在250 Hz~6 000 Hz頻帶內(nèi),因此有:

為進(jìn)一步提高語(yǔ)音激活檢測(cè)的準(zhǔn)確率,本文采用短時(shí)平均能量進(jìn)行加權(quán)的方法,即:


從圖2(c)和圖2(d)可以看出,加權(quán)譜熵對(duì)幀能量更加敏感,而通過(guò)對(duì)其取對(duì)數(shù),在一定程度上降低了能量的影響。正因?yàn)槿绱耍疚牟捎眉訖?quán)譜熵的對(duì)數(shù)值作為特征量,提高了算法的魯棒性。
2 語(yǔ)音激活檢測(cè)算法
?。?) 對(duì)輸入的語(yǔ)音信號(hào)s(n)進(jìn)行分幀處理,幀長(zhǎng)32 ms (256個(gè)樣點(diǎn)),得到每幀信號(hào)si(n),i表示第i幀,并對(duì)si(n)進(jìn)行加窗處理,窗函數(shù)采用漢明窗。
(2) 自適應(yīng)閾值的確定。可合理假設(shè)待檢測(cè)語(yǔ)音的前幾幀是非語(yǔ)音信號(hào),本文中假設(shè)前10幀為非語(yǔ)音信號(hào),計(jì)算其加權(quán)譜熵的對(duì)數(shù)值,然后求它們的值,門限值就是前10幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值中的值。
?。?) 計(jì)算每一幀信號(hào)的加權(quán)譜熵的對(duì)數(shù)值,然后把它與門限值進(jìn)行比較。如果大于門限值,則判為語(yǔ)音幀,否則判為噪聲幀或靜音幀。
?。?)對(duì)判決結(jié)果進(jìn)行平滑處理。為了有效地避免激活狀態(tài)的頻繁切換,本文對(duì)判決結(jié)果進(jìn)行平滑后處理。由于無(wú)論是非語(yǔ)音信號(hào)還是語(yǔ)音信號(hào),一般都會(huì)持續(xù)一段時(shí)間,因此為了剔除判決時(shí)的少數(shù)壞點(diǎn),在判決結(jié)束后加入了平滑后處理。即:

3 仿真與實(shí)驗(yàn)結(jié)果
本文的算法用VC、Matlab進(jìn)行仿真。圖3所示為原始語(yǔ)音、加噪語(yǔ)音(噪聲為汽車內(nèi)部噪聲,信噪比為0 dB)、人工標(biāo)注的結(jié)果和使用本文算法檢測(cè)的結(jié)果。圖3(a)是一段純凈語(yǔ)音,其采樣率為8 000 Hz。圖3(b)是加噪語(yǔ)音,所加噪聲為汽車內(nèi)部噪聲,信噪比為0 dB。圖3(c)為本文算法檢測(cè)的結(jié)果。圖3(d)為人工標(biāo)注的結(jié)果。由圖3(c)可以看出,本文的方法對(duì)低信噪比條件下的語(yǔ)音依然具有較好的分類效果。

為進(jìn)一步說(shuō)明本文算法對(duì)加噪語(yǔ)音進(jìn)行檢測(cè)的魯棒性,對(duì)本文算法和G.729B中的VAD算法進(jìn)行對(duì)比。對(duì)1 000幀中文信號(hào)進(jìn)行實(shí)驗(yàn), 測(cè)試環(huán)境分別選取了-5 dB、 0 dB、5 dB、10 dB、20 dB、30 dB等6個(gè)不同的信噪比,充分體現(xiàn)了算法在不同信噪比下的性能。圖4給出了不同算法在相同背景噪聲類型(都為汽車內(nèi)部噪聲)、不同信噪比情況下的檢測(cè)準(zhǔn)確率。
從圖4可以看出,本文算法的性能基本上不隨信噪比的變化而變化。同時(shí)可以看出當(dāng)信噪比逐漸降低時(shí),G.729B算法性能有了明顯的下降。

文中提出了一種能夠準(zhǔn)確進(jìn)行VAD判決的算法。該算法提取了加權(quán)譜熵的對(duì)數(shù)值作為特征,然后通過(guò)自適應(yīng)閾值,實(shí)現(xiàn)語(yǔ)音和靜音(或噪聲)的準(zhǔn)確檢測(cè)。實(shí)驗(yàn)表明,該語(yǔ)音激活檢測(cè)算法在汽車內(nèi)部噪聲條件具有較高的準(zhǔn)確率和穩(wěn)定性,是一種有效、簡(jiǎn)單的語(yǔ)音激活檢測(cè)算法。
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://m.58mhw.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- ARM技術(shù)架構(gòu)與應(yīng)用開(kāi)發(fā)實(shí)踐指南2026/1/6 10:40:19
- 嵌入式實(shí)時(shí)操作系統(tǒng)(RTOS)選型與移植技術(shù)指南2025/12/31 10:42:31
- 工業(yè)嵌入式系統(tǒng):通信接口技術(shù)選型與抗干擾設(shè)計(jì)實(shí)踐2025/12/15 14:36:53
- 深入解析嵌入式 OPENAMP 框架:開(kāi)啟異核通信新時(shí)代2025/7/22 16:27:29
- 一文快速了解OPENWRT基礎(chǔ)知識(shí)2025/7/14 16:59:04









