| 引言 從技術(shù)角度講,語(yǔ)音信號(hào)處理是信息高速公路、多媒體技術(shù)、辦公自動(dòng)化、現(xiàn)代通信及智能系統(tǒng)等新興領(lǐng)域應(yīng)用的核心技術(shù)之一。用數(shù)字化的方法進(jìn)行語(yǔ)音的傳送、存儲(chǔ)、識(shí)別、合成、增強(qiáng)等是整個(gè)數(shù)字化通信網(wǎng)中最重要、最基本的組成部分之一。 作為語(yǔ)音信號(hào)處理最重要應(yīng)用之一的IP網(wǎng)絡(luò)電話,由于具有價(jià)格低廉,可以靈活地提供各種增值業(yè)務(wù),有利于企業(yè)建立高效綜合服務(wù)內(nèi)部網(wǎng),有利于運(yùn)營(yíng)商開(kāi)拓新的市場(chǎng),有助于和新技術(shù)的融合以及促進(jìn)網(wǎng)絡(luò)技術(shù)發(fā)展等許多獨(dú)特的應(yīng)用優(yōu)勢(shì)而在近年里得到迅猛發(fā)展。 IP網(wǎng)絡(luò)電話中的語(yǔ)音處理主要需解決兩個(gè)問(wèn)題,一是在保證一定話音質(zhì)量的前提下盡可能降低編碼比特率,二是在IP網(wǎng)絡(luò)環(huán)境下保證一定的通話質(zhì)量。前者主要是語(yǔ)音編碼技術(shù),包括靜音檢測(cè);后者包括分組丟失補(bǔ)償和回波抵消技術(shù)。 在語(yǔ)音編碼方面,如何在中低速率上獲得高質(zhì)量的語(yǔ)音且算法復(fù)雜度較小,一直是研究的主要目標(biāo)。70年代中期,特別是80年代以來(lái),語(yǔ)音編碼技術(shù)有了突破性進(jìn)展,提出如多脈沖激勵(lì)等一些有效的算法,產(chǎn)生了新一代的聲碼器,在16kbit/s以下速率上能夠得到高質(zhì)量的語(yǔ)音。 計(jì)算機(jī)和集成電路技術(shù)的發(fā)展,推動(dòng)了語(yǔ)音信號(hào)處理的實(shí)用化。目前有很多專用語(yǔ)音處理芯片,這些芯片與微處理器或微型計(jì)算機(jī)相結(jié)合可以組成各種復(fù)雜的語(yǔ)音處理系統(tǒng)。 語(yǔ)音信號(hào)的基本特點(diǎn)及其產(chǎn)生模型 1. 語(yǔ)音信號(hào)的特點(diǎn) 語(yǔ)音是由一連串的音所組成,它是組成語(yǔ)言的聲音。語(yǔ)音具有稱為聲學(xué)特征的物理性質(zhì)。語(yǔ)音中各個(gè)音的排列由一些規(guī)則所控制。形成文章的基礎(chǔ)是單詞,各單詞由音節(jié)組成,音節(jié)又由音素組成。音素分為兩類:元音和輔音。重音、語(yǔ)調(diào)和聲調(diào)也是構(gòu)成語(yǔ)音學(xué)的一部分。 聲道(由咽、口腔和鼻腔組成)是一個(gè)分布參數(shù)系統(tǒng),它有許多自然諧振頻率(在這些頻率上其傳遞函數(shù)具有極大值),所以聲道是一諧振腔,它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。講話時(shí),舌和唇連續(xù)運(yùn)動(dòng),使聲道常常改變外型和尺寸,隨即改變諧振頻率。這些諧振頻率稱為共振峰頻率,簡(jiǎn)稱為共振峰,它是聲道的重要聲學(xué)特征。 2. 語(yǔ)音信號(hào)的數(shù)字模型 (1)激勵(lì)模型(發(fā)聲模型) 發(fā)濁音時(shí),整個(gè)激勵(lì)模型可表示為: 發(fā)清音時(shí),聲道可模擬成隨機(jī)白噪聲。 (2)聲管模型(聲道模型一) 最簡(jiǎn)單的聲道模型是將其視為由多個(gè)不同截面積的管子串聯(lián)而成的系統(tǒng),在語(yǔ)音信號(hào)的某一“短時(shí)”期間,聲道可表示為形狀穩(wěn)定的管道。每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)具有反射系數(shù),這時(shí)聲道可由一組截面積或一組反射系數(shù)來(lái)表示。 (3)共振峰模型(聲道模型二) 將聲道視為一個(gè)諧振腔,共振峰就是這個(gè)腔體的諧振頻率?梢越⑷N實(shí)用模型:級(jí)聯(lián)型、并聯(lián)型和混合型。 (4)輻射模型(終端模型) 口唇的輻射效應(yīng)可表示為R(z)=R0(1-z-1)。 由上所述,完整的語(yǔ)音信號(hào)數(shù)字模型可以用三個(gè)子模型:激勵(lì)模型、聲道模型和輻射模型的串聯(lián)來(lái)表示。其轉(zhuǎn)移函數(shù)為 H(z)=U(z)V(z)R(z) 這里,U(z)是激勵(lì)信號(hào),V(z)是聲道傳遞函數(shù)。R(z)如上式所示。 語(yǔ)音信號(hào)的分析 根據(jù)所分析的參數(shù)不同,語(yǔ)音信號(hào)分析可分為時(shí)域、頻域、倒譜域等方法。時(shí)域分析具有簡(jiǎn)單、運(yùn)算小、物理意義明確等優(yōu)點(diǎn);但更為有效的分析多是圍繞頻域進(jìn)行的。另一方面,按照語(yǔ)音學(xué)觀點(diǎn),可將語(yǔ)音分析分為模型分析法和非模型分析法兩種。貫穿于語(yǔ)音分析全過(guò)程的是“短時(shí)分析技術(shù)”。相應(yīng)于不同的分析方法,也就有不同的語(yǔ)音編碼方法和標(biāo)準(zhǔn)。 語(yǔ)音編碼標(biāo)準(zhǔn) 由ITU-T制定的IP電話使用的語(yǔ)音編碼標(biāo)準(zhǔn)如下表所示: (1)G.711 G.711是電話網(wǎng)中廣為使用的64kbit/s PCM編碼,屬波形編碼。目前IP網(wǎng)絡(luò)電話一般采用5~16kbit/s比特率的中低速率編碼器,但一般都支持G.711 PCM編碼。雖然波形編碼理論上只要預(yù)測(cè)階數(shù)足夠高、量化誤差足夠小,重建信號(hào)將收斂于原信號(hào),而參數(shù)編碼無(wú)論怎樣都不能使重建信號(hào)將收斂于原信號(hào);但是參數(shù)編碼的一個(gè)重要優(yōu)勢(shì)是可以有效降低編碼比特率,從而得到越來(lái)越廣泛的應(yīng)用。下面的標(biāo)準(zhǔn)都是參數(shù)編碼。 (2)G.728 G.728比特率為16kbit/s,對(duì)具有背景噪聲的信號(hào)或音樂(lè)具有很好的健壯性,抗隨機(jī)比特差錯(cuò)能力優(yōu)于G.711,可通過(guò)所有的網(wǎng)絡(luò)信號(hào)音,還能通過(guò)2.4kbit/s的低比特率modem信號(hào)。 (3)G.723.1 G.723.1為雙速率語(yǔ)音編碼器,其中6.3kbit/s比特率采用多脈沖LPC編碼,對(duì)于一般的語(yǔ)音信號(hào),其語(yǔ)音質(zhì)量相當(dāng)于G.721,但對(duì)于童聲、音樂(lè)和具噪聲背景的語(yǔ)音輸入,其質(zhì)量不如ADPCM。5.3kbit/s比特率采用多脈沖碼本激勵(lì),定義該速率的目的是增加系統(tǒng)設(shè)計(jì)的靈活性。如用于低速率通道時(shí),可為視頻編碼器留出一些比特空間;可為復(fù)用系統(tǒng)提供1kbit/s的“虛信道”以傳遞附加信息。 (4)G.729和G.729A G.729A是G.729的DSVD(語(yǔ)音和數(shù)據(jù)同時(shí)傳送系統(tǒng))形式,與G.729比特流兼容,即它們的編碼都能被對(duì)方的解碼器加以接收并重建信號(hào)。但G.729A的復(fù)雜度降低了50%,代價(jià)是在某些運(yùn)行條件下性能稍有下降。 語(yǔ)音編碼標(biāo)準(zhǔn)的改進(jìn) 各種標(biāo)準(zhǔn)相繼制定后,人們便不斷地對(duì)其進(jìn)行研究,并提出了一些改進(jìn)的算法?傮w來(lái)說(shuō),對(duì)低速率編碼算法的改進(jìn),一般集中在提高重建語(yǔ)音信號(hào)的質(zhì)量和減小算法的時(shí)延兩方面。 * 提高重建語(yǔ)音信號(hào)質(zhì)量 對(duì)噪聲信號(hào)的優(yōu)化處理,Paul Mermelstein 和 Yasheng Qian提出了一種廣義基音預(yù)測(cè)(generalized pitch prediction)的CELP。與典型的CELP不同之處在于:對(duì)噪聲部分,是語(yǔ)音信號(hào)被分解成可用自適應(yīng)碼本預(yù)測(cè)的預(yù)測(cè)分量和不能預(yù)測(cè)的非周期分量,而不是LPC殘差信號(hào)。Pierre Combescure、Jürgen Schnitzler等人提出了一種自適應(yīng)轉(zhuǎn)換聲碼器(Adaptive Transform Codec,ATC)和CELP相組合的算法(ATCELP)。對(duì)語(yǔ)音信號(hào),主要運(yùn)用CELP算法;而對(duì)樂(lè)音和噪聲信號(hào),則采用ATC模式。與此原理類似,S.Heinen、M.Adrat等人提出了針對(duì)自適應(yīng)多速率傳輸應(yīng)用的變速率CELP(VR-CELP)。根據(jù)當(dāng)前信道條件,在信源和信道間動(dòng)態(tài)分配傳輸系統(tǒng)的總位速率。Tadashi Amada,Kimio Miseki and Masami Akamine提出的自適應(yīng)分配候選脈沖位置的方案解決了低位速率時(shí)因候選脈沖位置和脈沖數(shù)的減少而導(dǎo)致重建語(yǔ)音信號(hào)質(zhì)量的下降的問(wèn)題。Roar Hagen and Erik Ekudden針對(duì)應(yīng)用在許多現(xiàn)存的聲碼器中的典型的波形匹配LPAS結(jié)構(gòu)對(duì)背景噪聲處理欠佳的不足而提出了一種對(duì)語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)處理都有較佳表現(xiàn)的綜合了波形匹配和能量匹配的8kbit/s ACELP的聲碼器。 提高重建語(yǔ)音信號(hào)質(zhì)量的另一途徑是采用更好的幀丟失處理方法。至于具體的方案,上述有的論文已經(jīng)涉及,可參考有關(guān)文獻(xiàn)。 * 減小算法時(shí)延 對(duì)于采用碼本結(jié)構(gòu)的算法,減小算法時(shí)延一般集中在改進(jìn)碼本搜索上。楊樹(shù)堂、周敬利、余勝生等人采用聚類優(yōu)化策略實(shí)現(xiàn)了對(duì)碼本的快速搜索。Miguel Arjona Ramirez and Gerken提出了幅度和位置的聯(lián)合搜索方案來(lái)搜索代數(shù)多脈沖碼本。該方案應(yīng)用于G.723.1中,每一子幀比協(xié)議采用的集中搜索方法減少了2/3的比較數(shù)量。 Nam Kyu Ha提出了應(yīng)用于CELP聲碼器中的代數(shù)碼本的一種快速搜索方法:碼本搜索的順序根據(jù)目標(biāo)矢量和濾波后的自適應(yīng)碼本矢量間的加權(quán)均方誤差重新排序,碼本搜索直至達(dá)到預(yù)定的門(mén)限。 結(jié)語(yǔ) 語(yǔ)音信號(hào)的特征及其數(shù)字化模型有待進(jìn)一步完善,在IP網(wǎng)絡(luò)電話應(yīng)用中的算法還需不斷改進(jìn),一言以蔽之,語(yǔ)音信號(hào)處理的研究及其應(yīng)用仍待深入。 |