按照PreMV1~7的順序,依次計算當(dāng)前宏塊和7個匹配塊的SAD值。如果有SAD值小于ThreshSAD,即停止計算,選用對應(yīng)的PreMV作為當(dāng)前宏塊的MV值;如果7個SAD值均大于ThreshSAD,則采用運動搜索來確定當(dāng)前宏塊的MV值。該運動搜索并不以MV=(0,0)為中心,而是以對應(yīng)SAD值最小的PreMV為中心,搜索采用簡化的菱形算法。
對標(biāo)準(zhǔn)視頻序列foreman.cif(352×288)進(jìn)行編碼(碼率300kbps),測得表1所示數(shù)據(jù)。采用預(yù)測的運動估計算法利用視頻序列在時間和空間上的相關(guān)性,無需對每個宏塊都進(jìn)行運動搜索,而且其搜索中心點也同樣利用了相關(guān)信息,搜索算法也可進(jìn)一步簡化,因此大大減少了運動估計的計算量;同時,預(yù)測有助于提高圖像質(zhì)量,直接進(jìn)行快速運動搜索通常會帶來局部最小的問題,從而影響圖像質(zhì)量,而PreMV1~7取自位于當(dāng)前宏塊周圍各個方向的宏塊的MV值,避免陷入局部最小。
表1 預(yù)測技術(shù)對運動搜索性能的提高

3 基于C64x CPU的軟件優(yōu)化技術(shù)
為了提高代碼的執(zhí)行效率,必須充分利用C64x CPU的VLIW和流水線結(jié)構(gòu)對其進(jìn)行優(yōu)化,使程序無沖突地并行執(zhí)行。MPEG-4編碼程序中包含大量的循環(huán)體,例如計算SAD值、量化、DCT、半像素插值、運動補償和構(gòu)建重建幀等。這些循環(huán)體代碼并不復(fù)雜,但執(zhí)行次數(shù)頻繁,占據(jù)了編碼的絕大部分時間,因此循環(huán)體的優(yōu)化是重點。本文所采取的代碼優(yōu)化分為C語言優(yōu)化和編寫線性匯編兩個步驟,主要從消除數(shù)據(jù)相關(guān)性、數(shù)據(jù)打包和循環(huán)體的軟件流水三個方面進(jìn)行優(yōu)化。
3.1 針對C語言的優(yōu)化
C代碼的優(yōu)化主要依靠開發(fā)環(huán)境CCS的編譯器完成,編程者需要合理選擇編譯選項,并利用特定的關(guān)鍵字和指令向編譯器提供優(yōu)化信息。例如關(guān)鍵字restrict用來消除數(shù)據(jù)間的相關(guān)性,編譯器從而可以安排語句的并行執(zhí)行;內(nèi)聯(lián)函數(shù)_nassert有助于數(shù)據(jù)的打包處理;宏指令#pragma MUST_ITERATE告訴編譯器有關(guān)循環(huán)迭代次數(shù)的信息,編譯器會根據(jù)這一信息進(jìn)行軟件流水。
3.2 用線性匯編改寫關(guān)鍵代碼
線性匯編是TMS320C6000特有的一種編程語言,介于高級語言和匯編語言之間。它可以指定指令用到的寄存器和功能單元,更易于對數(shù)據(jù)的打包處理。
線性匯編代碼的并行處理和軟件流水由匯編優(yōu)化器完成,編程者需要熟悉C64x DSP的CPU結(jié)構(gòu)和指令集,認(rèn)真設(shè)計代碼并充分利用編譯器的反饋信息合理修改代碼,才能寫出高質(zhì)量的線性匯編。本設(shè)計中程序主框架采用C語言編寫,其它各關(guān)鍵部分的代碼采用線性匯編實現(xiàn)。表2是代碼優(yōu)化前后的效率對比,表2中所列各代碼段均針對8×8宏塊進(jìn)行處理。
表2 各關(guān)鍵代碼優(yōu)化前后消耗指令周期數(shù)對比
4 結(jié)果分析
對各標(biāo)準(zhǔn)視頻序列進(jìn)行編碼,測得表3所示數(shù)據(jù)。實時采集D1(720×576)分辨率的視頻進(jìn)行編碼,測得碼率為850kbps時,編碼速率達(dá)25fps以上,峰值信噪比(PSNR)高于31dB,實現(xiàn)了高分辨率的實時MPEG-4編碼。
表3 標(biāo)準(zhǔn)視頻序列的編碼結(jié)果
表3中各視頻序列的編碼均采用了8×8半像素精度的運動估計,解碼圖像的視覺效果較好。對于較低分辨率的視頻(QCIF、CIF),其編碼速率已遠(yuǎn)遠(yuǎn)高于實時的要求,因此可以考慮添加新的算法以提高壓縮效率并增強(qiáng)碼流的抗差錯性能。
本文以DM642芯片為例詳述了基于C64x DSPs的MPEG-4實時編碼器設(shè)計。編碼器采用MPEG-4 Simple Profile算法,在算法和代碼優(yōu)化方面還有一定的研究空間。本文給出的設(shè)計方法可以進(jìn)一步推廣到H.264或者其他視頻編碼系統(tǒng)。
參考文獻(xiàn)
1 Prasad RSV, Ramkishor korada. Efficient implementation of MPEG-4 video encoder on RISC core[J].IEEE Transactions on Consumer Electronics, 2003;47(1):1~6
2 A. Dasu, S. Panchanathan. A Survey of Media Processing Approaches[J]. IEEE





