基于ADSP-BF533处理器的H.264解码器
出处:张迅 发布于:2007-04-18 10:57:23
H.264是ITU T的VCEG和ISO/IEC的MPEG联合成立的联合视频组JVT(Joint Video Tearn)共同制定的新视频编码标准,定位于覆盖整个视频应用领域。H.264标准采用了基于可变大小宏块的运动补偿、多帧参考、整数变换、基于1/4像素的运动估计、去块效应滤波器等新技术,因而获得更好的压缩性能,同时也导致了运算量的大幅度增加。
Blackfin处理器采用了ADI公司和英特尔公司共同开发的微信号结构,在结构中加人专门的视频处理指令,工作频率高达756 MHz,能完成12OOM次/s乘加操作。与采用超标量结构或超长指令集的DSP(如TI的C6000系列)相比,Blackfin处理器在功耗、成本方面具有很大的优势,非常适合嵌入式的视频应用。
H.264视频编解码器的基本结构与早期的编码标准(H.263、MPEG4等)相似,都是由运动补偿、变换、量化、熵编码、环路去块效应滤波器等功能单元组成的。H.264标准的改进主要体现在各功能模块内部。H_264的重大改进表现在以下几个方面:
①高的基于1/4像素的运动预测。
②多种宏块划分模式。每个宏块(16×16像素)的亮度分量有7种分区方法:16×16、16×8、8×16、8×8、8×4、4×8、4×4。
③多帧预测。在帧间编码时,可选5个不同的参考帧。
④整数变换。采用基于4×4像素块的整数变换代替DCT变换。
⑤H_264/AVC支持两种熵编码方法,即CAVLC(基于上下文的自适应可变长编码)和CABAC(基于上下文的自适应算术编码)。CAVLC的抗差错能力比较高,而编码效率比CABAC低;CABAC编码效率高,但需要的计算量和存储容量更大。
⑥帧内预测编码。H.264采用了多种设计合理的帧内预测模式,大大降低了I帧的编码率。
⑦网络适配层NAL(Network Abstraction Layer)为视频编码层提供一个与网络无关的统一接口,使视频编码数据能适应不同的网络应用环境。
H.264分为7种不同的框架(profile)——Baselineprofile、Main profiIe、Extended profile、High profik、High10 profik、High4:2:2 profile和High 4;4:4,分别代表不同的技术限制和算法集合。其中baseline prome的使用是不收版权费的。
硬件平台采用ADI公司的ADSP—BF533 EZ—kit Lite评估板。此评估板包括l块ADSP—BF533处理器,32MB SDRAM,2 MB? Flash,ADVl836音频编解码器外接4输入/6输出音频接口,ADV7183视频解码器和ADV7171视频编码器外接3输入/3输出视频接口,1个UART接口,1个USB调试接口,1个JTAG调试接口。评估板系统结构框图如所示。
软件验证采用如下方式:首先,通过DSP仿真器将H.264编码文件拷贝到评估板的存储器里。然后,软件从存储器中读取编码文件的数据,进行解码操作。,将解码的数据通过PPI接口输出到ADV7171芯片,ADV7171芯片将输入的视频数据编码为PAL格式输出到显示器上二进行显示。
Blackfin处理器的软件开发平台是VisualDSP++4.0。
3.1软件总体设计
为了实现实时解码的要求,需要优化程序的设计。优化流程如下:
①在PC机上进行算法的验证和评估、优化程序的流程设计和数据结构设计。
②将程序代码移植到Blackfin处理器。在Visual—DSP++集成开发环境里进行编译,删除PC平台相关的代码,添加DSP平台相关的代码。
③进行基于DSP平台的优化操作。设置速度优化的编译参数,进行C语言级的优化,用汇编指令改写耗时的函数,通过使用专用的向量指令和并行指令减少函数的执行时间。
3.2 在PC机上实现并优化解码器程序
解码器程序参考了JM9.6,并在以下方面作了优化:
①由于只支持Baseline profile,删除有关B帧、SI片、SP片和数据分割等不支持特性的冗余程序代码;
②修正JM9.6,每次处理一个Slice时都要分配内存,读取其中信息,再释放内存,合理安排内存空间的分配和释放;
③将I帧、P帧分别独立解码,宏块解码也按预测模式和预测方向分成不同的解码模块,以省去中间的重复判断,提高解码速度;
④优化CAVLC码表的查询方法。
3.3 程序移植
VisualDSP++是一款支持Blackfin处理器的集成开发、调试环境,包括VisuaIDSP++内核(VDK)、C/C++编译器、图形绘制工具、调试工具、器件模拟器等多种功能;能够很好地支持在Blackfin处理器上用C/C++语言进行开发工作。
移植的步是除去所有的编译环境不支持的函数(例如某些时间相关的函数),将文件操作修改为读取文件数据缓存的操作,删除SNR信息收集和信息打印输出等DSP平台实现不需要的代码。第二步是添加与硬件相关的代码。这些代码包括系统初始化代码、输出模块代码、中断服务程序和解码速率控制程序等程序代码。
移植完毕后,就实现了基于ADSP-BF533处理器的H_264解码器;但速度达不到实时解码的要求,还需要进行优化。
3.4 基于DSP平台的优化
基于DSP平台的优化分为系统级优化、C程序级优化和汇编级优化。
(1)系统级优化
打开编译器中的优化开关,设置为速度化;打开自动内联开关;打开“Interprocedural optimization”(过程间优化)开关;使用VisualDSP++编译器的PGO(Profile—Guided Optimization)优化编译技术。
(2)C程序级优化
C程序级的优化主要是针对BIackfin处理器的具体特点进行优化:
①编写链接描述文件,将经常用的数据存储在片内存储器,例如CAVLC熵解码的码表;启用指令Cache和数据Cache,设置好启用Cache机制的指令地址和数据地址。
②将除法操作转换为乘法操作或者采用查表法计算。
③减少对片外存储器的访问次数。对于经常访问的片外存储器区域,设置Cache使能,并可设置Cache锁定,防止被缓存的数据被替换,减少Cache未命中的几率。
④对于能够用较短的数据类型表达的数据改用较短的数据类型表达,例如原定义为int类型的4×4逆整数变换的输人数据,实际上可以定义为short类型。
(3)汇编级优化
汇编级优化通常遵循以下原则:
将耗时的一些函数用汇编语言改写,充分利用Blackfin处理器的S1MD结构的优点和硬件上的并行性,在一个指令周期内执行多个操作,减少函数执行需要的指令周期。耗时的函数有宏块解码函数decode_one_macroblock、逆整数变换函数itrans、去块效应滤波函数EdgeLoop、滤波门限计算函数Get_Strength等函数。
下面以4×4矩阵逆整数变换函数itrans和1/4像素插值滤波get_block(),说明用汇编指令优化带来的性能提高。4×4矩阵的逆整数变换函数itrans采用的是2级蝶形运算,先对4×4矩阵的每一行分别做行逆变换,再对每一列做列逆变换。一维变换采用如所示的蝶形算法。
完成一维逆变换只需8条指令,算上函数调用的开销和其他一些辅助指令,完成一个4×4矩阵的逆整数变换时总共需要82条指令周期。表1是优化前、后的比较。
get_block函数对像素矩阵进行1/4像素插值操作。先用六阶滤波器进行1/2像素插值,然后用线性内插法进行l/4像素插值。
l/2像素b计算方法为:b=round((E一5F+20G+20H一5I+j)/32)。示意图如所示。E、F、G、H、I、J是整数像素,b是G和H之问的1/2像素。
在EZKit533开发板上测试了解码器算法,对CIF格式(352×288)的foreman测试序列,可以达到45~50帧/s的解码速度;对CIF格式的mobile测试序列,能够达到40帧~44帧的解码速度。如果增加解码速率控制模块,可以稳定地实现以30帧/s的速率播放CIF测试序列。实验结果证明,在Blackiln处理器上实现H.264实时解码器是可行的。ADI公司甚至声称可以在600 Mtz的BF533处理器上实现D1(720×576)格式的视频实时解码器。
BIackfin处理器有低功耗、低成本和高性能的特点。在Blackfin处理器上实现的H.264视频解码器很适合用于IP机顶盒、可视电话、PMP(便携式媒体播放器)等嵌人式视频应用中。
参考文献:
[1]. AVC datasheet https://www.dzsc.com/datasheet/AVC_1518400.html.
[2]. ADV7183 datasheet https://www.dzsc.com/datasheet/ADV7183_1055694.html.
[3]. ADV7171 datasheet https://www.dzsc.com/datasheet/ADV7171_125144.html.
[4]. ALU datasheet https://www.dzsc.com/datasheet/ALU_2089372.html.
[5]. ADSP-BF533 datasheet https://www.dzsc.com/datasheet/ADSP-BF533_314552.html.
版权与免责声明
凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。
本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
- 模拟与数字音频分频器大比拼:DSP 的优势揭秘2026/6/18 15:50:32
- 单片机领域:二极管实现不同电压输出的方法解析2026/6/11 14:35:45
- 单片机晶振脚原理是什么?2026/5/28 16:53:55
- 深度解析 51 单片机电平特性2026/5/26 15:45:30
- 简单分析 STM32 和 51 的区别2026/5/21 16:48:11









