日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 電源 > 數(shù)字電源
[導讀]本文介紹了TMS320C6416 DSP和MPEG-4ASP (Advanced Simple Profile )視頻編碼器在SP基礎(chǔ)上新增的工具,詳細闡述了基于該平臺實現(xiàn)MPEG-4ASP視頻編碼器的軟件優(yōu)化方法,最后通過實驗結(jié)果的比較展現(xiàn)了在嵌入式系統(tǒng)應用中ASP相對于SP編碼器的優(yōu)越性。

摘要:本文介紹了TMS320C6416 DSP和MPEG-4ASP (Advanced Simple Profile )視頻編碼器在SP基礎(chǔ)上新增的工具,詳細闡述了基于該平臺實現(xiàn)MPEG-4ASP視頻編碼器的軟件優(yōu)化方法,最后通過實驗結(jié)果的比較展現(xiàn)了在嵌入式系統(tǒng)應用中ASP相對于SP編碼器的優(yōu)越性。由此可看出,在存儲能力受限的情況下,采用ASP進行MPEG-4視頻編碼更為適合。
關(guān)鍵詞:MPEG-4;視頻編碼器;軟件優(yōu)化

引言
 
MPEG-4SP ( Simple Profile)編碼器以其出眾的壓縮效率和圖像質(zhì)量受到了廣泛關(guān)注,并隨之誕生了很多基于PC平臺的編解碼器(如Divx、Xvid等) ,在遠程教育和高清晰度電影等方面得到了廣泛應用。而2001年發(fā)布的MPEG-4標準V2. 0 中包含的ASP編碼器,則在SP的基礎(chǔ)上增加了一些新的工具,進一步提高了壓縮效率,因此更適合在無線視頻通信和數(shù)碼攝像機等嵌入式系統(tǒng)中應用。

1 硬件平臺TMS320C6416介紹

選用的實驗硬件平臺是TMS320C6416 DSK(DSP Starter Kit) 。其核心處理器為美國TI公司的高性能定點32位DSP C6416,基于第2代高性能Ve2lociTI. 2 VLIW結(jié)構(gòu),帶有64個32位字長的寄存器,8個高度獨立的功能單元( 2個乘法單元, 6個算術(shù)邏輯單元) ,工作時鐘頻率為600MHz,峰值處理速度可達4800Mbit/s。C6416 DSP具有1MB 的片上存儲空間,采用兩級緩存結(jié)構(gòu)。其中同CPU直接相連的L1P和L1D能以CPU相同的速度運行, 而L2CACHE有5 種配置模式,可根據(jù)實際需要來設(shè)定L2CACHE的大小。同時C6416還具有64個獨立的EDMA通道,可在CPU 后臺進行大量的數(shù)據(jù)搬移,并集成了16MB的SDRAM,可配置為高速緩存 ,提高訪問效率。

2 MPEG-4ASP視頻編碼

運動圖像專家組MPEG于2001年在其新發(fā)布的V2. 0版本中增加了一些新的工具和框架,其中包括了ASP 。ASP 在SP的基礎(chǔ)上增加了對B-VOP、1/4像素精度的運動矢量、可選量化器 、全局運動補償GMC等的支持,進一步提高了壓縮效率。
(1)B-VOP使用雙向預測來提高運動補償?shù)男?也即每個block塊或者macroblock宏塊都可由前向和后向預測加權(quán)得到。
(2) 1/4像素運動矢量 : 在進行運動估計和補償之前, 參考VOP先在1/2像素位置處,進而在1/4處進行插值,盡管這樣增加了運動估計、運動補償和圖像重建的復雜度,但編碼效率相比SP編碼器得到了提高。
(3)可選量化器:在ASP中提供了一種可選的反量化方式。在這種方式中,量化系數(shù)FQ ( u, v)按照下面的方式進行反量化來生成系數(shù)F (u, v) : if (FQ = 0) F = 0; elseF = [ (2 ×Fc( u, v) + k) ×WW ( u, v) ×QP ] /16。其中WW 是8 ×8的加權(quán)因子矩陣,這種反量化方式使得編碼器可根據(jù)量化系數(shù)在塊中的位置,使用WW 改變步長。
(4)全局運動補償(GMC) :同一視頻對象(VO)中的宏塊可能經(jīng)歷相似的運動,如攝像機鏡頭的縮放和旋轉(zhuǎn)等造成的線性移動,其中的一些宏塊可能向同一方向運動。帶GMC的編碼器只需發(fā)送少量的運動參數(shù)就能為整個VOP描述這個“全局”運動。因此,當VOP中相當數(shù)量的宏塊擁有相同運動特性時, GMC就可以顯著的提高壓縮效率。

3 軟件移植及優(yōu)化

由于DSP不同于普通的PC環(huán)境,因此簡單的將代碼放到DSP上去編譯,運行效率低甚至不能運行,必須進行適合DSP特點的代碼移植、改寫和優(yōu)化工作,才能達到實時性要求。

3. 1 軟件移植
為使代碼適合在DSP平臺上運行,首先刪除程序代碼中大量的printf等調(diào)試信息,對必要的信息輸出改用puts,以減少函數(shù)開銷;對double類型數(shù)據(jù)改用long類型定義;刪除不必要的浮點運算(如PSNR的計算) ,必要的浮點運算通過定標來實現(xiàn)。

3. 2 存儲器優(yōu)化
C6416DSP有1MB 的片上存儲空間,最大能以CPU時鐘頻率進行訪問。在DSK上集成了16Mb/s的SDRAM,可通過EM IFA以100MHz的頻率進行訪問。訪問速度上存在的差異以及CPU尋址外部存儲空間將導致流水線停止數(shù)個周期,因此,如何合理利用C6416的片上存儲空間和二級緩存結(jié)構(gòu)成了非常關(guān)鍵的因素。將1MB的存儲空間分為256k的L2CACHE和768 k的L2SRAM,代碼段、全局數(shù)據(jù)等放在片內(nèi)存儲器L2SRAM 上, 外部SDRAM 設(shè)定為可高速緩存(Cacheable)以提高訪問效率。這些設(shè)置可以通過調(diào)用CSL (Chip Support Library)庫函數(shù)來完成:

#include < csl. h >
#include < csl_cache. h >
CSL_init ( ) ;
CSL_enableCaching(CACHE_EM IFA_CE00) ;
CACHE_setL2Mode (CACHE_256 k CACHE) 。

3. 3 項目級優(yōu)化
TI為其集成編譯環(huán)境CCS提供了一系列的編譯優(yōu)化參數(shù),可根據(jù)代碼性能要求進行選取。因此可以通過不斷對各個參數(shù)( - mw, - pm, - o3, - mt等)進行組合、優(yōu)選,這可以通過CCS 2. 20的PBC選項來完成。同時在代碼鏈接過程中,對代碼段鏈接順序進行一定的安排,可以減少程序執(zhí)行時代碼調(diào)用帶來的緩存缺失,提高程序的執(zhí)行效率。

3. 4 代碼優(yōu)化
代碼優(yōu)化是MPEG-4 ASP視頻編碼器軟件開發(fā)中的一個重要環(huán)節(jié),未經(jīng)過優(yōu)化的代碼在DSK平臺上的執(zhí)行效率很低,平均約25s才進行一幀編碼,而實時性的指標為每秒25幀以上。

(1)使用TI庫函數(shù)
TI提供了圖像處理函數(shù)庫IMGL IB,可以調(diào)用其中的函數(shù)進行FDCT和IDCT變換。

(2)對C代碼進行改寫
首先對程序中的循環(huán)操作進行分解展開,對不能展開的循環(huán)則合理安排循環(huán)內(nèi)外層,以更大程度地提高流水效率。C6000的編譯器還提供了許多內(nèi)聯(lián)函數(shù)( intrinsics) ,這些內(nèi)聯(lián)函數(shù)能直接映射到對應的匯編指令,提高程序的效率。同時可利用編譯指示偽語句( Pragma Directive)向編譯器提供一些先驗知識,以提高編譯效率。如用#p ragma (minimum value, maximumvalue, factor)向編譯器指出循環(huán)執(zhí)行的信息,這樣便于編譯器利用數(shù)據(jù)打包等技術(shù)進行優(yōu)化。以計算宏塊中像素同均值偏差的dev16函數(shù)為例,采用了以上方法改寫后,函數(shù)執(zhí)行周期數(shù)由277 個cycles變?yōu)?30個cycles (同在o3條件下) ,性能提升超過50%。

(3)進行線性匯編改寫
線性匯編是針對C6000 的結(jié)構(gòu)特點優(yōu)化設(shè)計的介于C和匯編語言之間的一種編程語言,其編譯效率能達到匯編代碼的90%以上。同時C64x系列DSP針對圖像和視頻應用增加了許多特有的指令,使得這些應用的代碼編寫效率得到了提高。如在ASP視頻編碼器中,半像素插值使用的avgu4、shrmb、unpklu4 和unpkhu4指令,計算SAD 時用到的dotpu4、subabs4 指令,圖像重建時用到的SPACK2指令等等。也方便了代碼的編寫,如ME (Motion Estimation運動估計)時在參考圖像幀中進行像素值讀取的LDNDW 指令,解決了參考圖像中數(shù)據(jù)不滿足雙字對齊的問題。下面給出了將函數(shù)transfer_16 to8copy( )通過線性匯編改寫后的代碼,同在o3選項下,線性匯編代碼只需C代碼15. 8%的指令周期。表1給出了部分代碼改寫前后的性能對比(同在o3優(yōu)化選項下) 。

. global _transfer_16 to8copy
              _transfer_16 to8copy: . cp roc dst, src, stride
. reg pdst, p src, count
. reg ahi: alo, bhi: blo, chi: clo
         mvk 8, count
         mv dst, pdst
         mv src, p src
               loop: . trip 8, 8
               lddw 3 *psrc, ahi: alo
               spacku4 ahi, alo, blo; keep the value
               in the range 0 - 255
               lddw 3  *+psrc (8) , chi: clo
               spacku4 chi, clo, bhi 
               stdw bhi: blo, 3 pdst
               add pdst, stride, pdst
               add p src, 16, p src
                   [ count ] sub count, 1, count
                   [ count ] b loop 
. endp roc

3. 5 數(shù)據(jù)搬移優(yōu)化
由于片上存儲空間有限,因此只能將參考圖像及重建圖像等數(shù)據(jù)放在外部SDRAM中,但也導致了訪問外部存儲器時帶來的巨大開銷。而C64x具有的EDMA和QDMA只需花費數(shù)個時鐘周期進行參數(shù)初始化后,就可以在CPU 后臺進行高速的數(shù)據(jù)搬移操作,提高了程序執(zhí)行效率。針對簡單的數(shù)據(jù)搬移,可以利用CSL庫提供的DAT函數(shù)進行。以一段簡單的2D數(shù)據(jù)搬移為例,給出利用QDMA后的實現(xiàn)代碼:
unsigned int transferID = DAT_open (DAT_CHAA-NY,DAT_PR I_LOW,DAT_OPEN_2D) ;
DAT_copy2d (DAT_2D2D, con, ref, 16, 16,width) ;
DAT_wait ( transferID) 。

對復雜的數(shù)據(jù)搬移,可以采用多通道的EDMA來實現(xiàn)。EDMA提供了linking和chaining的機制,在部分數(shù)據(jù)搬移完成后,自動對EDMA鏈路或通道參數(shù)進行更新載入,無需CPU干預,特別適合進行大量的數(shù)據(jù)搬移。然而需要注意,由于SDRAM中的待搬移數(shù)據(jù)在L2CACHE中存在副本,因此在進行數(shù)據(jù)搬移前,需對L2CACHE和SDRAM中的待搬移數(shù)據(jù)進行一致性操作(Coherence Operations) ,否則將得不到正確的結(jié)果。

4 實驗結(jié)果與分析
通過上面提到的軟件優(yōu)化方法,在C6416 DSK上對MPEG - 4視頻編碼器進行了仿真。為了得到編碼信息,如峰值信噪比( PSNR) ,在代碼中臨時加入了calc_p snr ( )函數(shù),以便于對ASP編碼器和SP編碼器進行性能比較。以352 ×288大小的CIF格式foreman視頻序列為例,在編碼碼率為256 K時,對分別支持GMC、QPEL和B - VOP以及同時支持上述3 個工具的ASP編碼器和SP編碼器進行了性能對比( SP編碼形式為“IPPPP.”, ASP使用B - VOP時為“ IBBPBB-
PBBP.”) 。

表2給出了得到的編碼文件長度,可以看出ASP編碼器相比SP編碼器其存儲空間要求更小,而圖像質(zhì)量變化不大,因此更適合于數(shù)碼攝像等嵌入式場合的應用。

圖1 對ASP編碼器(支持B -VOP、GMC 及QPEL) 與SP 編碼器進行了比較, 可以看出前者在PSNR性能上較后者平坦,均方差較小,圖像質(zhì)量更為穩(wěn)定。

圖1 foreman序列ASP和SP視頻編碼器PSNR性能比較

雖然壓縮效率提升,但導致計算量上升,并且由于編碼時采用了B-VOP增加了后向預測,編碼時延增大,圖像幀速率有所降低。

5 結(jié)束語

由于ASP視頻編碼器具有更高的壓縮效率,雖然在編碼速度上有所降低,時延增大,但仍能在DSP上進行實時編碼,因此適合在存儲容量受限的場合(如數(shù)碼攝像、視頻監(jiān)控網(wǎng)絡等領(lǐng)域)應用。 
本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

成都2022年10月19日 /美通社/ -- 近期,平安養(yǎng)老險積極籌備個人養(yǎng)老金的產(chǎn)品設(shè)計和系統(tǒng)開發(fā)工作,發(fā)展多樣化的養(yǎng)老金融產(chǎn)品,推動商業(yè)養(yǎng)老保險、個人養(yǎng)老金、專屬商業(yè)養(yǎng)老保險等產(chǎn)品供給。 搭養(yǎng)老政策東風 ...

關(guān)鍵字: 溫度 BSP 東風 大眾

廣東佛山2022年10月19日 /美通社/ -- 空間是人居生活的基礎(chǔ)單元,承載著生存與活動的最基本功能。而對于理想空間的解構(gòu)意義卻在物理性容器之外,體現(xiàn)出人們對于空間和生活深層關(guān)系的思考,同時也塑造著人與空間的新型連接...

關(guān)鍵字: 溫度 BSP 智能化 進程

上海2022年10月19日 /美通社/ -- 10月17日晚間,安集科技披露業(yè)績預告。今年前三季度,公司預計實現(xiàn)營業(yè)收入7.54億元至8.33億元,同比增長60.24%至77.03%;歸母凈利潤預計為1.73億...

關(guān)鍵字: 電子 安集科技 BSP EPS

北京2022年10月19日 /美通社/ -- 10月18日,北京市經(jīng)濟和信息化局發(fā)布2022年度第一批北京市市級企業(yè)技術(shù)中心創(chuàng)建名單的通知,諾誠健華正式獲得"北京市企業(yè)技術(shù)中心"認定。 北京市企業(yè)技...

關(guān)鍵字: BSP ARMA COM 代碼

北京2022年10月18日 /美通社/ -- 10月14日,國際數(shù)據(jù)公司(IDC)發(fā)布《2022Q2中國軟件定義存儲及超融合市場研究報告》,報告顯示:2022年上半年浪潮超融合銷售額同比增長59.4%,近5倍于...

關(guān)鍵字: IDC BSP 數(shù)字化 數(shù)據(jù)中心

上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都銀行集團成立60周年的紀念日。趁著首都銀行集團成立60周年與首都銀行(中國)在華深耕經(jīng)營12年的“大日子”,圍繞作為外資金融機構(gòu)對在華戰(zhàn)略的構(gòu)想和業(yè)...

關(guān)鍵字: 數(shù)字化 BSP 供應鏈 控制

東京2022年10月18日  /美通社/ -- NIPPON EXPRESS HOLDINGS株式會社(NIPPON EXPRESS HOLDINGS, INC.)旗下集團公司上海通運國際物流有限公司(Nipp...

關(guān)鍵字: 溫控 精密儀器 半導體制造 BSP

廣州2022年10月18日 /美通社/ -- 10月15日,第 132 屆中國進出口商品交易會("廣交會")于"云端"開幕。本屆廣交會上高新技術(shù)企業(yè)云集,展出的智能產(chǎn)品超過140,...

關(guān)鍵字: 中國智造 BSP 手機 CAN

要問機器人公司哪家強,波士頓動力絕對是其中的佼佼者。近來年該公司在機器人研發(fā)方面獲得的一些成果令人印象深刻,比如其開發(fā)的機器人會后空翻,自主爬樓梯等。這不,波士頓動力又發(fā)布了其機器人組團跳男團舞的新視頻,表演的機器人包括...

關(guān)鍵字: 機器人 BSP 工業(yè)機器人 現(xiàn)代汽車

南京2022年10月17日 /美通社/ -- 日前《2022第三屆中國高端家電品牌G50峰會》于浙江寧波落幕,來自兩百余名行業(yè)大咖、專家學者共同探討了在形勢依然嚴峻的當下,如何以科技創(chuàng)新、高端化轉(zhuǎn)型等手段,幫助...

關(guān)鍵字: LINK AI BSP 智能家電

數(shù)字電源

15504 篇文章

關(guān)注

發(fā)布文章

編輯精選

技術(shù)子站

關(guān)閉