MLIC++:学習型画像圧縮における線形計算量多参照エントロピーモデル

学習型画像圧縮における潜在表現は、チャネルごとの相関、局所的な空間相関、およびグローバルな空間相関を含んでおり、これらはエントロピーモデルが条件付きエントロピーを最小化するために捉える必要がある重要なコンテキストである。特に高解像度画像符号化において、これらのコンテキストを単一のエントロピーモデル内で効率的に捉えることは、従来のグローバルコンテキストモジュールの計算複雑性により困難である。この課題に対処するため、本研究では線形計算量のマルチリファレンスエントロピーモデル(MEM$^{++}$)を提案する。具体的には、潜在表現を複数のスライスに分割し、チャネルごとのコンテキストとして、事前に圧縮されたスライスを用いる。局所的なコンテキストの捉え方として、シフトウィンドウに基づくチェッカーボードアテンションモジュールを導入した。このモジュールは性能を損なうことなく線形計算量を実現する。グローバルなコンテキストについては、softmax演算を分解することでグローバル相関を捉える線形計算量のアテンション機構を提案し、事前に復号されたスライスからアテンションマップを暗黙的に計算可能にする。MEM$^{++}$をエントロピーモデルとして用いることで、画像圧縮手法MLIC$^{++}$を構築した。広範な実験結果から、MLIC$^{++}$は最先端の性能を達成し、Peak Signal-to-Noise Ratio(PSNR)においてVTM-17.0と比較してKodakデータセットでBD-rateを13.39%低減した。さらに、MLIC$^{++}$は解像度に対して線形の計算量とメモリ消費量を示すため、高解像度画像符号化に非常に適している。コードおよび事前学習済みモデルはhttps://github.com/JiangWeibeta/MLICから入手可能であり、学習用データセットはhttps://huggingface.co/datasets/Whiteboat/MLIC-Train-100Kで提供されている。