16 天前
MLIC:用于学习图像压缩的多参考熵模型
Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang

摘要
近年来,基于学习的图像压缩技术取得了显著进展。熵模型作为估计潜在表示分布的关键组件,在提升率失真性能方面发挥着重要作用。然而,大多数现有熵模型仅能捕捉一维相关性,而潜在表示中实际上包含通道间、局部空间以及全局空间等多种相关性。为解决这一问题,本文提出多参考熵模型(Multi-Reference Entropy Model, MEM)及其改进版本MEM$^+$,能够有效建模潜在表示中的多种相关性。具体而言,我们首先将潜在表示划分为多个切片;在解码当前切片时,利用先前已解码的切片作为上下文,并通过其注意力图预测当前切片中的全局相关性。为进一步捕捉局部上下文信息,我们引入了两种增强型棋盘状上下文建模技术,有效避免了性能退化问题。基于MEM与MEM$^+$,我们进一步构建了图像压缩模型MLIC与MLIC$^+$。大量实验结果表明,所提出的MLIC与MLIC$^+$模型在性能上达到当前最优水平:在Kodak数据集上,以PSNR为评估指标时,相较于VTM-17.0,BD-rate分别降低了8.05%和11.39%。相关代码已开源,地址为:https://github.com/JiangWeibeta/MLIC。