11日前

詳細は魔鬼に宿る:画像圧縮におけるウィンドウベースのアテンション

Renjie Zou, Chunfeng Song, Zhaoxiang Zhang
詳細は魔鬼に宿る:画像圧縮におけるウィンドウベースのアテンション
要約

学習型画像圧縮手法は、従来の画像圧縮標準と比較して優れたレート・歪み性能を示している。現在の主流である学習型画像圧縮モデルの多くは、畳み込みニューラルネットワーク(CNN)に基づいている。しかし、CNNベースのモデルには、特に非反復的なテクスチャを含む局所的な冗長性を十分に捉えるように設計されていないという主要な欠点がある。この問題は、再構成品質に深刻な影響を及ぼす。したがって、グローバルな構造と局所的なテクスチャの両方を効果的に活用する方法を確立することが、学習ベースの画像圧縮における核心的な課題となっている。最近のビジョントランスフォーマー(ViT)およびスウィントランスフォーマーの進展に触発され、局所的な特徴に注目するアテンション機構とグローバルな関係性を持つ特徴学習を組み合わせることで、画像圧縮において期待される性能を達成できる可能性があることが明らかになった。本研究では、まず局所特徴学習に用いるさまざまなアテンション機構の効果を広範に調査した後、よりシンプルかつ効果的なウィンドウベースの局所アテンションブロックを提案する。この提案するウィンドウベースアテンションは非常に柔軟性に富んでおり、CNNモデルやトランスフォーマーモデルに即座に統合可能なプラグアンドプレイ型コンポーネントとして機能する。さらに、ダウンサンプリングエンコーダとアップサンプリングデコーダに絶対的なトランスフォーマーブロックを対称的に配置した新しい対称型トランスフォーマー(Symmetrical TransFormer, STF)フレームワークを提案する。広範な実験評価の結果、本手法は従来の最先端手法を上回る性能を示し、有効性が実証された。コードは公開されており、GitHubにて入手可能である:https://github.com/Googolxx/STF。

詳細は魔鬼に宿る:画像圧縮におけるウィンドウベースのアテンション | 最新論文 | HyperAI超神経