HLC混合编解码架构：图像中间层编码的技术突破-深圳市維司達科技有限公司

1. 图像编解码技术演进与中间层编码需求

在数字图像处理领域，编解码技术始终扮演着关键角色。随着4K/8K超高清视频、云游戏和远程协作等应用的普及，传统的编解码方案在实时性和压缩效率之间的平衡面临严峻挑战。特别是在制作、转播等专业工作流中，既需要保持接近无损的视觉质量，又必须满足严格的实时性要求——这正是中间层（Mezzanine）编解码技术需要解决的核心问题。

中间层编码区别于最终分发的压缩格式（如H.265/HEVC），它需要在制作环节实现10-30倍的轻量级压缩，同时满足三个刚性指标：1）帧级随机访问能力，允许任意帧的独立编辑；2）亚毫秒级编码延迟，确保实时处理；3）硬件资源消耗最小化，适合边缘设备部署。现有方案如JPEG-XS虽然通过去除块划分和预测编码简化了架构，但在处理屏幕内容（文本、UI界面、游戏画面）时，因缺乏专用工具导致压缩效率低下，在相同码率下PSNR可能下降5dB以上。

2. HLC架构设计理念与技术突破

2.1 混合编码架构的创新平衡

HLC（High-quality Lightweight Codec）采用了一种突破性的混合架构设计，巧妙融合了分布编解码器（如HEVC）的压缩效率优势与中间层编解码器的硬件友好特性。其核心创新体现在三个层面：

数据无依赖的调色板（PLT）引擎：通过虚拟簇表技术消除传统像素聚类中的数据依赖，实现全并行处理
协同设计的率失真优化（RDO）：动态选择调色板与方向预测（DP）模式，确保各类内容的最优压缩
硬件资源复用机制：在率估计与熵编码间共享中间数据，减少15%以上的LUT资源占用

这种设计使得HLC在Xilinx KC705 FPGA上实现4K@120fps吞吐量时，仅需82K LUT资源，相比同性能的JPEG-XS编码器节省近50%硬件开销。

2.2 调色板编码的并行化突破

传统调色板编码面临的根本性瓶颈在于像素聚类过程中的数据依赖。当处理16×4编码单元（CU）时，常规算法需要不断更新簇中心（CC）的RGB值，导致后续像素的相似度计算（SAD）必须等待前序结果，严重制约吞吐量。

HLC的解决方案极具创造性：

// 传统PLT的数据依赖问题 always @(posedge clk) begin if (new_pixel_assigned) CC_value <= (CC_count*CC_value + pixel_value)/(CC_count+1); // 需要迭代更新 end // HLC的无依赖设计 assign virtual_CC = (cluster_created) ? pixel_value : virtual_CC; // 静态比较基准 assign actual_CC = (CU_done) ? virtual_CC : actual_CC; // 最终重构使用

这种"虚拟簇表"策略将聚类决策与重构分离：聚类阶段使用固定初始值进行SAD比较，仅在CU处理完成后统一更新实际CC值。虽然会引入约0.12dB的BD-PSNR损失，但换来了4倍的吞吐量提升。

2.3 率失真优化的协同设计

为充分发挥调色板在屏幕内容中的优势，同时避免对自然图像的负面影响，HLC设计了独特的RDO机制：

双路径率估计：
- DP路径：基于2×2系数立方体的最大位宽计算率成本
- PLT路径：通过游程索引映射（RLI）统计符号长度
QP-λ表优化：通过建模R-D曲线（D=CR^(-K)），预先计算最优拉格朗日乘子λ，其拟合度R²达到0.9896。实测表明，该设计使PLT在自然图像上仍能获得0.345dB的BD-PSNR提升。

3. 关键硬件实现与优化技术

3.1 像素聚类引擎(PCE)的微架构设计

HLC的像素聚类引擎采用三级流水线结构，每个时钟周期可处理16个并行像素。图2所示的时空图揭示了其创新之处：

比较阶段：8个并行的PCE单元同时计算像素与各簇中心的SAD
决策阶段：采用阈值(1<<(QP>>1))判断是否创建新簇
更新阶段：仅更新虚拟CC寄存器，保持实际CC寄存器不变

这种设计使得关键路径延迟从传统方案的7.2ns降至3.4ns，在300MHz时钟下实现每个周期处理16像素的吞吐量。

3.2 游程索引映射的熵压缩

对于调色板编码产生的索引矩阵，HLC开发了高效的二次压缩方案：

空间预测：将当前像素索引与左侧(T)、上方(L)邻居比较
符号映射：
- 0（L）：与左邻相同
- 1（T）：与上邻相同
- 2（N）：新索引
游程编码：对连续相同符号进行长度编码

实测显示，该方法可使文本内容的熵编码效率提升37%，在1.5bpp码率下PSNR提高2.1dB。

3.3 数据复用策略的硬件节省

HLC通过精妙的数据复用，显著降低了熵编码模块的复杂度：

模块	传统设计(LUT)	HLC方案(LUT)	节省比例
率估计(RCE)	28K	24K	14%
熵编码(EC)	32K	17.4K	45.6%
总计	60K	41.4K	31%

核心复用机制包括：

DP路径：复用2×2立方体的位平面信息
PLT路径：复用游程数量和长度统计
公共部分：共享QP-λ表和系数缓冲区

4. 性能对比与实测数据分析

4.1 客观质量指标对比

在标准测试集上的BD-PSNR对比显示：

内容类型	JPEG-XS [5]	JPEG2000 [6]	HLC(w/o PLT)	HLC(完整)
文本(TEC)	-5.312dB	-1.766dB	-3.983dB	0dB(基准)
游戏(GAC)	-3.461dB	+0.194dB	-0.813dB	0dB
自然(NAC)	-3.299dB	-0.033dB	-0.345dB	0dB

特别值得注意的是，PLT模块的加入使文本压缩质量提升近4dB，而硬件代价仅为15.4K LUT，证明该设计的极高性价比。

4.2 硬件资源利用率

在Xilinx Kintex-7 FPGA上的实现结果显示：

模块	LUT用量	占比	关键特性
PLT引擎	15.4K	18.8%	8并行PCE，虚拟簇表架构
RDO	22.3K	27.2%	双路径估计，QP-λ表优化
熵编码	17.4K	21.2%	混合定长/变长，数据复用
存储器	9,388Kb	-	16×4 CU设计减少行缓冲需求

相比4K@120fps的JPEG-XS编码器，HLC在相同性能下减少51%的LUT使用量，功耗降低约40%。

5. 实际部署中的工程经验

5.1 参数调优实践

在真实部署中，我们发现三个关键调优点：

QP-λ表自适应：

# 经验公式：λ = 0.85 * 2^((QP-12)/3) def update_qp_lambda(qp): return 0.85 * (2 ** ((qp - 12) / 3)) * (1 + 0.1*texture_complexity)

建议根据场景内容动态调整λ系数，对于文本占比高的场景可增加0.1-0.3的加权因子。

CU尺寸选择：16×4的矩形设计虽减少行缓冲，但在8K分辨率下建议改为32×4，以平衡吞吐量与资源占用。
PLT簇数控制：通过实验发现，将最大簇数从8降至6可使LUT减少12%，而质量损失仅0.08dB，适合资源受限场景。

5.2 典型问题排查指南

现象	可能原因	解决方案
PSNR突降	QP-λ表未初始化	检查QP=12时的λ是否为0.85
吞吐量不达标	数据依赖未完全消除	验证虚拟CC寄存器是否静态
块效应明显	DP模式过度使用	调整RDO中λ增加0.2-0.5
资源超限	并行PCE数量过多	将8PCE降为6PCE，重综合设计