11日前
MLIC:学習画像圧縮のためのマルチリファレンスエントロピーモデル
Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang

要約
近年、学習ベースの画像圧縮は顕著な性能向上を達成している。レート・ディストーション性能の向上において、潜在表現の分布を推定するエントロピーモデルが重要な役割を果たしている。しかし、大多数のエントロピーモデルは一次元の相関関係しか捉えられておらず、潜在表現にはチャネル間相関、局所的な空間相関、およびグローバルな空間相関といった多様な相関構造が存在する。この課題に対処するため、本研究ではマルチリファレンスエントロピーモデル(Multi-Reference Entropy Model, MEM)およびその拡張版であるMEM$^+$を提案する。これらのモデルは、潜在表現に含まれる異なる種類の相関を効果的に捉えることができる。具体的には、まず潜在表現をスライスに分割し、現在のスライスを復号する際に、すでに復号済みのスライスをコンテキストとして用いる。さらに、過去に復号されたスライスのアテンションマップを活用して、現在のスライスにおけるグローバルな相関を予測する。また、局所的なコンテキストを捉えるために、性能低下を回避する2つの強化されたチェッカーボード型コンテキスト捕捉技術を導入している。MEMおよびMEM$^+$を基盤として、画像圧縮モデルMLICおよびMLIC$^+$を提案する。広範な実験評価の結果、Kodakデータセットにおいて、PSNR基準でVTM-17.0と比較して、MLICとMLIC$^+$はそれぞれBD-rateを8.05%および11.39%低減し、最先端の性能を達成した。本研究のコードは、https://github.com/JiangWeibeta/MLIC にて公開されている。