當前位置：首頁 > 通信技術(shù) > 通信技術(shù)

AVS解碼器在DSP平臺上的優(yōu)化

時間：2011-05-11 21:49:57

關(guān)鍵字： DSP 解碼器 AVS CACHE

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]AVS(Audio Video Coding STandard)是由我國數(shù)字音視頻標準工作組制定的具有自主知識產(chǎn)權(quán)的第二代音視頻壓縮準。AVS實行1 元專利費用的原則，相比其它音視頻編解碼標準具有編碼效率高、專利費用低、授權(quán)模式簡單等優(yōu)勢

AVS(Audio Video Coding STandard)是由我國數(shù)字音視頻標準工作組制定的具有自主知識產(chǎn)權(quán)的第二代音視頻壓縮準。AVS實行1 元專利費用的原則，相比其它音視頻編解碼標準具有編碼效率高、專利費用低、授權(quán)模式簡單等優(yōu)勢。AVS解碼器的結(jié)構(gòu)復雜、運算量較大，要在嵌入式平臺上實現(xiàn)實時解碼具有較大難度。在對解碼器性能優(yōu)化的過程中可以依據(jù)使用平臺對其進行匯編指令集的優(yōu)化或者針對解碼器的關(guān)鍵算法模塊進行改良，以上方法對解碼器性能的提高均有一定作用，本文提出一種利用嵌入式平臺的L1P Cache高速緩沖功能實現(xiàn)處理器對程序代碼的高效率訪問的方法，從而達到提高AVS解碼器性能的目的。

　　1　高速緩存Cache的應用

　　目前越來越多的編解碼算法采用DSP的方式實現(xiàn)，隨著DSP芯片主頻的不斷攀升，存儲器的訪問速度日益成為系統(tǒng)性能提升的瓶頸。在現(xiàn)有的制造工藝下，片上存儲單元的增加將導致數(shù)據(jù)線負載電容的增加，影響到數(shù)據(jù)線上信號的開關(guān)時間，這意味著片上高速存儲單元的增加將是十分有限的。為了解決存儲器速度與CPU內(nèi)核速度不匹配的問題，高性能的CPU普遍采用高速緩存(Cache)機制。

　　以TI的C64x DSP為例，存儲器系統(tǒng)由片內(nèi)存儲器和片外存儲器兩部分組成。其中，片內(nèi)存儲器采用兩級緩存結(jié)構(gòu)，第1級L1距離DSP核最近，數(shù)據(jù)訪問速度最快，可以達到每秒600Mbyte，只能作為不能尋址的Cache使用，由相互獨立的L1P和L1D 組成。

　　L1P Cache是處理器訪問程序代碼的高速緩沖存儲器，大小為16 kbyte，采用直接映射方式，每行大小32byte;L1D Cache是處理器訪問數(shù)據(jù)的高速緩沖存儲器，大小為16 kbyte，采用2路映射，每行大小為64byte。第2級L2是一個統(tǒng)一的程序/數(shù)據(jù)空間，可以整體作為SRAM映射到存儲空間，也可以作為Cache和SRAM按比例的一種組合。L2與L1之間的數(shù)據(jù)交互速率為每秒300 Mbyte，L2與SDRAM之間的數(shù)據(jù)交換速率為每秒100 Mbyte。片外存儲器是第3級，一般由SDRAM構(gòu)成。L1、L2和片外SDRAM構(gòu)成了整個存儲器系統(tǒng)的層次結(jié)構(gòu)。C64X的兩級緩存結(jié)構(gòu)若能運用恰當，將能極大地提高程序性能。

　　根據(jù)圖1的三層次的存儲器系統(tǒng)， C64X讀取程序代碼時，先查看1級緩存L1，若L1已緩存了所需代碼，則直接從L1讀取;若L1沒有該代碼的緩存，則訪問2級緩存L2;若L2也沒有，則通過EMIF接口訪問外部SDRAM，把所需代碼從外部SDRAM拷貝到L2緩存區(qū)，再從L2緩存區(qū)拷貝到L1，最后由DSP內(nèi)核取得。

　　圖1　三層次的存儲器系統(tǒng)(圖中B代表byte)

　　研究表明，采用這種多級緩存的架構(gòu)可以達到采用完全片上存儲器結(jié)構(gòu)的系統(tǒng)約80%的執(zhí)行效率。本文致力于更深入地研究Cache的機制，對算法的數(shù)據(jù)結(jié)構(gòu)、處理流程以及程序結(jié)構(gòu)等進行優(yōu)化，以提高Cache的命中率，更有效地發(fā)揮Cache的作用，從而達到提高解碼器運行效率的目的。

　　2　基于Cache的視頻解碼算法實現(xiàn)

　　為了克服上述不足，本文通過更改視頻解碼算法的實現(xiàn)架構(gòu)，充分利用Cache中L1P，減少CPU讀取程序代碼的缺失次數(shù)，提高解碼程序的執(zhí)行效率。

　　在具體實施過程中，本文根據(jù)L1P的容量和程序中各個功能單元代碼的大小，將圖2中的功能單元分為四個模塊，每個模塊代碼大小均小于16 kbyte，各模塊所包含的功能單元為:模塊A，讀入一個宏塊;模塊B，熵解碼、反掃描、反量化、反變換;模塊C，重建;模塊D，環(huán)路濾波。

　　一個視頻宏塊只有遍歷這四個模塊之后才算最終完成解碼，各個模塊之間傳遞的中間數(shù)據(jù)如果放置在片外SDRAM中，勢必影響下一個模塊獲取數(shù)據(jù)的速度，如果數(shù)據(jù)放置在片內(nèi)SRAM中，由于片內(nèi)RAM空間有限不能存儲整幀數(shù)據(jù)。所以權(quán)衡考慮，每個模塊完成一個宏塊行(假設(shè)一幅圖像包含有M個宏塊行，每行有N個宏塊)的解碼后再交給下一個模塊處理，這樣既可以將中間數(shù)據(jù)放置在片內(nèi)又可以充分利用L1P，減少各個模塊之間的代碼沖刷，直到M 個宏塊行全部處理完畢，這樣就得到一幀數(shù)據(jù)的解碼圖像。

圖2　解碼算法流程

　　如圖3所示，本文以一個宏塊行為處理單位，在進行解碼時，首先執(zhí)行模塊A將整個宏塊行讀入高圖3　處理一個宏塊行的新流程速緩存中，執(zhí)行完畢模塊A后，讀入模塊B的代碼，該部分代碼將會沖掉模塊A 的代碼。執(zhí)行完畢模塊B后，讀入模塊C的代碼，該部分代碼將會沖掉模塊B 的代碼。依此類推，當執(zhí)行完畢模塊D后，再重復執(zhí)行以對下一個宏塊行進行解碼。

圖3　處理一個宏塊行的新流程

　　每個模塊在執(zhí)行一個宏塊行的解碼過程中，會被反復執(zhí)行N 次，在此期間程序代碼保留在L1P中不被沖刷，直到第二個模塊執(zhí)行的時候第一個模塊的代碼才被沖刷。所以此方法解碼一個宏塊行才發(fā)生四次沖刷，完成一幀圖像的解碼共發(fā)生4 ×M 次代碼沖刷，較改進之前減少沖刷次數(shù)4 ×M ×(N - 1)。

　　表1中的測試序列分辨率為720 ×576，調(diào)整結(jié)構(gòu)后解碼速率均有不同程度的提高，通過對統(tǒng)計結(jié)果的平均得知，效率提高20%左右。

　　表1　實驗結(jié)果

　　3　結(jié)論

　　本文解碼器優(yōu)化充分利用了處理器的程序Cache功能，模塊分配方式依據(jù)Cache大小而定，針對不同處理器的不同Cache，可以有不同的模塊劃分方式，只需要保證每個模塊代碼量小于程序Cache容量即可。處理器對于數(shù)據(jù)的讀取同樣可以采用類似方法，以達到充分利用數(shù)據(jù)Cache的目的。此方法不僅可以應用于AVS解碼器，也可應用于AVS編碼器，還可以應用于與之擁有類似結(jié)構(gòu)的H. 264、MPEG、VC1等編解碼算法。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除（郵箱：macysun@21ic.com ）。

換一批

Cadence 推出專為新一代語音 AI 與音頻應用打造的 Tensilica HiFi iQ DSP

第六代 HiFi DSP 為基于語音的 AI 應用和最新沉浸式音頻格式帶來更出色的性能與能效表現(xiàn)

關(guān)鍵字： DSP 語音 AI 音頻

[電子設(shè)計自動化]

FPGA DSP Slice高效利用：乘加運算流水線設(shè)計與資源復用策略

在FPGA實現(xiàn)數(shù)字信號處理（DSP）算法時，DSP Slice作為專用硬件資源，其利用效率直接影響系統(tǒng)性能與成本。本文聚焦乘加運算（MAC）的優(yōu)化實現(xiàn)，分享流水線設(shè)計與資源復用的實用技巧，幫助開發(fā)者在有限資源下實現(xiàn)更高吞...

關(guān)鍵字： FPGA DSP

[智能應用]

UltraScale+架構(gòu)深度解析：如何利用DSP Slice優(yōu)化浮點運算性能

在高性能計算與信號處理領(lǐng)域，浮點運算能力是衡量硬件加速效率的核心指標。AMD UltraScale+架構(gòu)憑借其增強的DSP Slice設(shè)計，為浮點運算優(yōu)化提供了突破性解決方案。本文將深入解析該架構(gòu)如何通過硬件架構(gòu)創(chuàng)新與軟...

關(guān)鍵字： UltraScale+ DSP

[美通社全球TMT]

賦能智算升級|基于極海G32R501實時控制DSP/MCU的AI服務(wù)器電源應用方案

珠海2026年3月13日 /美通社/ -- 全球超大規(guī)模數(shù)據(jù)中心建設(shè)正迎來爆發(fā)式增長，設(shè)備算力密度與能源消耗規(guī)模同步攀升。隨著綠色能源轉(zhuǎn)型進程的不斷深化，數(shù)據(jù)中心作為數(shù)字經(jīng)濟發(fā)展的核心基礎(chǔ)設(shè)施，其規(guī)模化布局與升級需求日益...

關(guān)鍵字： DSP MCU 實時控制電源

[CEVA]

Ceva在恩智浦的軟件定義車輛處理器上實現(xiàn)實時人工智能加速

恩智浦 S32Z2 和 S32E2 實時處理器集成Ceva的 AI DSP，為軟件定義車輛提供預測分析、能量管理和智能控制功能

關(guān)鍵字：人工智能處理器 DSP

[嵌入式分享]

基于嵌入式DSP的濾波算法應用，提升信號質(zhì)量的關(guān)鍵方法

智能家居、工業(yè)物聯(lián)網(wǎng)和智能穿戴設(shè)備蓬勃發(fā)展，信號質(zhì)量已成為決定系統(tǒng)性能的核心指標。嵌入式DSP(數(shù)字信號處理器)憑借其專為信號處理優(yōu)化的硬件架構(gòu)與指令集，在噪聲抑制、特征提取等場景中展現(xiàn)出獨特優(yōu)勢。本文將結(jié)合實際案例，解...

關(guān)鍵字：嵌入式 DSP

[嵌入式分享]

嵌入式DSP在醫(yī)療電子中的應用，心電圖信號分析與處理

在醫(yī)療電子設(shè)備向便攜化、智能化狂奔的今天，嵌入式數(shù)字信號處理器(DSP)正成為心電圖(ECG)信號處理領(lǐng)域的“隱形冠軍”。從三甲醫(yī)院的監(jiān)護儀到家庭健康手環(huán)，從動態(tài)心電圖記錄儀到植入式心臟監(jiān)測器，這些設(shè)備背后都跳動著一顆強...

關(guān)鍵字： DSP 醫(yī)療電子

[嵌入式分享]

嵌入式DSP與人工智能融合，實現(xiàn)智能信號處理的新突破

在萬物互聯(lián)的智能時代，嵌入式數(shù)字信號處理器(DSP)正與人工智能(AI)深度融合，從工業(yè)設(shè)備預測性維護到智能家居語音交互，從醫(yī)療電子信號分析到自動駕駛環(huán)境感知，這場技術(shù)革命正在重塑信號處理的邊界。嵌入式DSP以其低功耗、...

關(guān)鍵字： DSP 人工智能

[嵌入式分享]

嵌入式DSP實現(xiàn)FFT算法：高效頻譜分析與信號處理技巧

在智能設(shè)備遍地開花的時代，從無人機避障到醫(yī)療心電圖分析，從工業(yè)振動監(jiān)測到音頻降噪處理，嵌入式數(shù)字信號處理器(DSP)正通過快速傅里葉變換(FFT)算法，將復雜的時域信號轉(zhuǎn)化為直觀的頻域信息。FFT如同為嵌入式系統(tǒng)裝上了一...

關(guān)鍵字： DSP FFT

[嵌入式分享]

嵌入式DSP基礎(chǔ)速成：掌握信號處理的關(guān)鍵原理與流程

在智能設(shè)備遍地開花的今天，從手機降噪耳機到車載語音助手，從工業(yè)傳感器到醫(yī)療心電圖儀，嵌入式數(shù)字信號處理(DSP)技術(shù)正悄然支撐著這些設(shè)備的“智慧大腦”。它像一位隱形的魔法師，將模擬世界的連續(xù)信號轉(zhuǎn)化為數(shù)字世界的離散數(shù)據(jù)，...

關(guān)鍵字：嵌入式 DSP