日韩床上生活一级视频|能看毛片的操逼网站|色悠悠网站在线观看视频|国产免费观看A淫色免费|国产av久久久久久久|免费A级视频美女网站黄|国产毛片av日韩小黄片|热久久免费国产视频|中文字幕无码色色|成人在线视频99久久久

機電之家資源網
單片機首頁|單片機基礎|單片機應用|單片機開發(fā)|單片機文案|軟件資料下載|音響制作|電路圖下載 |嵌入式開發(fā)
培訓信息
贊助商
基于嵌入式多核SoPC平臺的說話人識別系統(tǒng)應用研究
基于嵌入式多核SoPC平臺的說話人識別系統(tǒng)應用研究
 更新時間:2008-8-3 15:46:30  點擊數(shù):6
【字體: 字體顏色


    摘 要: 針對當前基于DSP、ARM等硬核處理器設計的嵌入式說話人識別系統(tǒng)訓練和辨認時間長等缺陷,根據(jù)MFCC提取過程的特點與遺傳聚類算法中適應度計算的原理,提出一種基于SoPC平臺與矢量量化原理的說話人識別系統(tǒng)實現(xiàn)方案。經測試,該實現(xiàn)方案在保證識別率前提下,可有效提高訓練與識別速度。

關鍵詞: 說話人識別  矢量量化  遺傳算法  適應度  SOPC

 

    說話人識別(Speaker Recognition)又稱話者識別,是指根據(jù)特定說話人語音波形中反映生理和行為等特征的語音參數(shù)來對說話人身份進行識別[1]。說話人識別技術作為一種非接觸性識別技術,在保安、司法、軍事和信息服務等領域都有廣泛的應用前景。
    文本無關的說話人識別方法是當前說話人識別技術的研究重點。常用的識別算法有:基于矢量量化VQ(Vector Quantization)的方法[2]、基于HMM的方法、基于ANN的方法等。其中,基于VQ的說話人識別方法無需考慮復雜的統(tǒng)計模型和時間歸整問題,運算過程簡單,在說話人識別領域被廣泛應用。
    基于VQ的說話人識別通常采用MFCC參數(shù),因為MFCC是一種基于人耳對語音頻率的非線形感知特征的描述參數(shù)[3],在說話人識別中,其性能優(yōu)于LPC、LPCC等參數(shù)。
    SoPC技術是一種基于FPGA解決方案的SoC,由美國ALTERA公司于2000年提出[4];赟oPC平臺的開發(fā)結合了FPGA靈活可編程與片上NiosII軟核處理器的用戶可配置等特點。在實現(xiàn)某功能時,可編寫C/C++程序運行于NiosII處理器實現(xiàn),也可設計硬件模塊實現(xiàn),不占用CPU,起到了硬件加速效果。本系統(tǒng)綜合兩種實現(xiàn)思路,采用高性價比的Cyclone II 2C35系列FPGA實現(xiàn)。經驗證,該說話人識別系統(tǒng)識別率高,實時性優(yōu)于硬核處理器系統(tǒng),應用前景良好。
1 基于矢量量化的說話人識別算法
    說話人識別中,先需要建立表征用戶語音特征的碼書,碼書由從用戶的訓練語音中提取的MFCC聚類而成。識別階段,系統(tǒng)先采集一段測試者的語音,提取出MFCC,再與用戶VQ碼書匹配,如果失真測度達到一定范圍,則可認為測試者即為碼書表征的用戶。
    建立碼書時,先由系統(tǒng)采集一段用戶語音,經分幀與MFCC提取后可得到N M 維原始矢量On={o1,o2, 
oM}(n=1,2,3…,N ),其中每一矢量相當于M維空間中的一點。然后將N 個原始矢量在M 維空間作K聚類,得到的聚類結果即是表征說話人語音特征的K容量碼書。其中,用于構建碼書的N幀M維MFCC稱為訓練序列。
    根據(jù)實驗驗證并綜合考慮系統(tǒng)資源與識別性能,參數(shù)設定總幀數(shù)M一般取256或512,碼書大小K取64,M取12或16(若加上差分參數(shù)可擴至24、36等)。由于是在高維空間聚類,普通聚類方法易導致結果陷入局部最優(yōu)點,因而選擇具有全局搜索性能的遺傳算法進行聚類,可得到最優(yōu)碼書。針對說話人識別設計的算法,具體細節(jié)如下:
    群體規(guī)模:30
    編碼方式:二進制編碼
    交叉變異:無回放隨機選擇策略選擇單點交叉,交叉概率PC =90%,變異概率PM =10%
    遷移間隔:每運行2代遷移一次
    選擇(替換) 輪盤賭方式+10%最優(yōu)個體保存
    個體適應度計算公式為:

    

 

    X 為訓練序列,Y 為個體,d(XjYi)是訓練序列中某點Xj與個體中某點Yi之間的歐氏距離。
停止條件為當遺傳代數(shù)達到規(guī)定閾值或最近三代最優(yōu)個體適應度比值達一定閾值。
    同時,在遺傳過程中可每隔若干代執(zhí)行一次K-means聚類以加快收斂速度。遺傳結束后,最末代得到的最優(yōu)適應度個體即為用戶的VQ語音碼書。
    識別階段,系統(tǒng)先采集一段測試者的語音,提取出MFCC,稱為測試序列,然后與用戶VQ碼書比較。如果匹配度達到一定范圍,則可認為測試者即為碼書表征的用戶。
2 系統(tǒng)方案與實現(xiàn)
    說話人識別系統(tǒng)主要有四項任務:(1)說話人語音采集與有效語音提。(2)語音幀MFCC提;(3)通過遺傳算法計算得到說話人語音VQ碼書;(4)在說話人識別時實時采集測試者語音并提取MFCC,然后與已有碼書進行匹配并作出決策。
    SoPC設計中,根據(jù)需要可在單FPGA內配置多CPU。本系統(tǒng)配置了雙CPU,兩塊CPU均以同一片SDRAM為運行內存,由Avalon總線模塊提供仲裁機制實現(xiàn)雙CPU對SDRAM的分時訪問。系統(tǒng)除含有必要的儲存器與語音輸入接口外,還外接PS2鍵盤與LCD、VGA顯示器等人機交互設備,整體設計框圖如圖1所示。

 

                         

[1] [2] [3]  下一頁
  • 上一篇: 基于MSP430單片機的多功能、高精度數(shù)據(jù)采集系統(tǒng)
  • 下一篇: 基于CPLD的高速數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
  • 發(fā)表評論   告訴好友   打印此文  收藏此頁  關閉窗口  返回頂部
    熱點文章
     
    推薦文章
     
    相關文章
    網友評論:(只顯示最新5條。)
    關于我們 | 聯(lián)系我們 | 廣告合作 | 付款方式 | 使用幫助 | 機電之家 | 會員助手 | 免費鏈接

    點擊這里給我發(fā)消息66821730(技術支持)點擊這里給我發(fā)消息66821730(廣告投放) 點擊這里給我發(fā)消息41031197(編輯) 點擊這里給我發(fā)消息58733127(審核)
    本站提供的機電設備,機電供求等信息由機電企業(yè)自行提供,該企業(yè)負責信息內容的真實性、準確性和合法性。
    機電之家對此不承擔任何保證責任,有侵犯您利益的地方請聯(lián)系機電之家,機電之家將及時作出處理。
    Copyright 2007 機電之家 Inc All Rights Reserved.機電之家-由機電一體化網更名-聲明
    電話:0571-87774297 傳真:0571-87774298
    杭州濱興科技有限公司提供技術支持

    主辦:杭州市高新區(qū)(濱江)機電一體化學會
    中國行業(yè)電子商務100強網站

    網站經營許可證:浙B2-20080178-1