HyperAIHyperAI

Command Palette

Search for a command to run...

混合Transformer-CNNアーキテクチャを用いた学習型画像圧縮

Jinming Liu Heming Sun Jiro Katto

概要

学習型画像圧縮(LIC)手法は、従来の画像圧縮標準と比較して有望な進展を示し、優れたレート-歪み性能を達成している。現在の大多数のLIC手法は、畳み込みニューラルネットワーク(CNN)ベースまたはTransformerベースであり、それぞれ異なる利点を持つ。両者の利点を併用するアプローチは検討価値があるが、その実現には以下の2つの課題が存在する:1)両手法を効果的に融合する方法は何か? 2)適切な計算複雑度のもとでより高い性能を達成するにはどうすればよいか? 本論文では、CNNの局所モデリング能力とTransformerの非局所モデリング能力を統合するため、制御可能な複雑度を備えた効率的な並列型Transformer-CNN混合(TCM)ブロックを提案する。さらに、最近のエントロピー推定モデルおよびアテンションモジュールの進展に着想を得て、チャネル圧縮を用いてパラメータ効率の高いSwin-Transformerベースのアテンション(SWAtten)モジュールを導入したチャネル別エントロピーモデルを提案する。実験結果から、本手法はKodak、Tecnick、CLIC Professional Validationの3つの異なる解像度データセットにおいて、既存のLIC手法と比較して最先端のレート-歪み性能を達成することが示された。コードは以下のURLで公開されている:https://github.com/jmliu206/LIC_TCM


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています