摘 要: 針對當前基于DSP、ARM等硬核處理器設計的嵌入式說話人識別系統(tǒng)訓練和辨認時間長等缺陷,根據(jù)MFCC提取過程的特點與遺傳聚類算法中適應度計算的原理,提出一種基于SoPC平臺與矢量量化原理的說話人識別系統(tǒng)實現(xiàn)方案。經測試,該實現(xiàn)方案在保證識別率前提下,可有效提高訓練與識別速度。
關鍵詞: 說話人識別 矢量量化 遺傳算法 適應度 SOPC
說話人識別(Speaker Recognition)又稱話者識別,是指根據(jù)特定說話人語音波形中反映生理和行為等特征的語音參數(shù)來對說話人身份進行識別[1]。說話人識別技術作為一種非接觸性識別技術,在保安、司法、軍事和信息服務等領域都有廣泛的應用前景。
文本無關的說話人識別方法是當前說話人識別技術的研究重點。常用的識別算法有:基于矢量量化VQ(Vector Quantization)的方法[2]、基于HMM的方法、基于ANN的方法等。其中,基于VQ的說話人識別方法無需考慮復雜的統(tǒng)計模型和時間歸整問題,運算過程簡單,在說話人識別領域被廣泛應用。
基于VQ的說話人識別通常采用MFCC參數(shù),因為MFCC是一種基于人耳對語音頻率的非線形感知特征的描述參數(shù)[3],在說話人識別中,其性能優(yōu)于LPC、LPCC等參數(shù)。
SoPC技術是一種基于FPGA解決方案的SoC,由美國ALTERA公司于2000年提出[4];赟oPC平臺的開發(fā)結合了FPGA靈活可編程與片上NiosII軟核處理器的用戶可配置等特點。在實現(xiàn)某功能時,可編寫C/C++程序運行于NiosII處理器實現(xiàn),也可設計硬件模塊實現(xiàn),不占用CPU,起到了硬件加速效果。本系統(tǒng)綜合兩種實現(xiàn)思路,采用高性價比的Cyclone II 2C35系列FPGA實現(xiàn)。經驗證,該說話人識別系統(tǒng)識別率高,實時性優(yōu)于硬核處理器系統(tǒng),應用前景良好。
1 基于矢量量化的說話人識別算法
說話人識別中,先需要建立表征用戶語音特征的碼書,碼書由從用戶的訓練語音中提取的MFCC聚類而成。識別階段,系統(tǒng)先采集一段測試者的語音,提取出MFCC,再與用戶VQ碼書匹配,如果失真測度達到一定范圍,則可認為測試者即為碼書表征的用戶。
建立碼書時,先由系統(tǒng)采集一段用戶語音,經分幀與MFCC提取后可得到N 個M 維原始矢量On={o1,o2,
oM}(n=1,2,3…,N ),其中每一矢量相當于M維空間中的一點。然后將N 個原始矢量在M 維空間作K聚類,得到的聚類結果即是表征說話人語音特征的K容量碼書。其中,用于構建碼書的N幀M維MFCC稱為訓練序列。
根據(jù)實驗驗證并綜合考慮系統(tǒng)資源與識別性能,參數(shù)設定總幀數(shù)M一般取256或512,碼書大小K取64,M取12或16(若加上差分參數(shù)可擴至24、36等)。由于是在高維空間聚類,普通聚類方法易導致結果陷入局部最優(yōu)點,因而選擇具有全局搜索性能的遺傳算法進行聚類,可得到最優(yōu)碼書。針對說話人識別設計的算法,具體細節(jié)如下:
群體規(guī)模:30
編碼方式:二進制編碼
交叉變異:無回放隨機選擇策略選擇單點交叉,交叉概率PC =90%,變異概率PM =10%
遷移間隔:每運行2代遷移一次
選擇(替換) 輪盤賭方式+10%最優(yōu)個體保存
個體適應度計算公式為:

X 為訓練序列,Y 為個體,d(Xj,Yi)是訓練序列中某點Xj與個體中某點Yi之間的歐氏距離。
停止條件為當遺傳代數(shù)達到規(guī)定閾值或最近三代最優(yōu)個體適應度比值達一定閾值。
同時,在遺傳過程中可每隔若干代執(zhí)行一次K-means聚類以加快收斂速度。遺傳結束后,最末代得到的最優(yōu)適應度個體即為用戶的VQ語音碼書。
識別階段,系統(tǒng)先采集一段測試者的語音,提取出MFCC,稱為測試序列,然后與用戶VQ碼書比較。如果匹配度達到一定范圍,則可認為測試者即為碼書表征的用戶。
2 系統(tǒng)方案與實現(xiàn)
說話人識別系統(tǒng)主要有四項任務:(1)說話人語音采集與有效語音提。(2)語音幀MFCC提;(3)通過遺傳算法計算得到說話人語音VQ碼書;(4)在說話人識別時實時采集測試者語音并提取MFCC,然后與已有碼書進行匹配并作出決策。
SoPC設計中,根據(jù)需要可在單FPGA內配置多CPU。本系統(tǒng)配置了雙CPU,兩塊CPU均以同一片SDRAM為運行內存,由Avalon總線模塊提供仲裁機制實現(xiàn)雙CPU對SDRAM的分時訪問。系統(tǒng)除含有必要的儲存器與語音輸入接口外,還外接PS2鍵盤與LCD、VGA顯示器等人機交互設備,整體設計框圖如圖1所示。





