11日前

混合Transformer-CNNアーキテクチャを用いた学習型画像圧縮

Jinming Liu, Heming Sun, Jiro Katto

要約

学習型画像圧縮（LIC）手法は、従来の画像圧縮標準と比較して有望な進展を示し、優れたレート-歪み性能を達成している。現在の大多数のLIC手法は、畳み込みニューラルネットワーク（CNN）ベースまたはTransformerベースであり、それぞれ異なる利点を持つ。両者の利点を併用するアプローチは検討価値があるが、その実現には以下の2つの課題が存在する：1）両手法を効果的に融合する方法は何か？ 2）適切な計算複雑度のもとでより高い性能を達成するにはどうすればよいか？本論文では、CNNの局所モデリング能力とTransformerの非局所モデリング能力を統合するため、制御可能な複雑度を備えた効率的な並列型Transformer-CNN混合（TCM）ブロックを提案する。さらに、最近のエントロピー推定モデルおよびアテンションモジュールの進展に着想を得て、チャネル圧縮を用いてパラメータ効率の高いSwin-Transformerベースのアテンション（SWAtten）モジュールを導入したチャネル別エントロピーモデルを提案する。実験結果から、本手法はKodak、Tecnick、CLIC Professional Validationの3つの異なる解像度データセットにおいて、既存のLIC手法と比較して最先端のレート-歪み性能を達成することが示された。コードは以下のURLで公開されている：https://github.com/jmliu206/LIC_TCM。