8ヶ月前

概要

大規模画像（2K～8K）に対する超解像（SR）に対する急激に高まる需要に応えるために、現在の主流手法は以下の2つの独立したアプローチを採用している。1）コンテンツに応じたルーティングにより既存ネットワークの処理速度を向上させる方法、2）トークンミキサーの改良を通じてより優れた超解像ネットワークを設計する方法である。これらの手法は直感的ではあるが、柔軟性の欠如（例えば、固定されたルーティング）や処理の非区別性といった避けがたい欠点を抱えており、品質と計算複雑さのトレードオフのさらなる改善を阻害している。このような課題を克服するため、本研究ではこれらのアプローチを統合し、コンテンツに応じたミキサー（CAMixer）を提案する。CAMixerは、単純なコンテンツには畳み込み演算を、疎なテクスチャには追加の可変窓アテンション（deformable window-attention）を割り当てる。具体的には、CAMixerは学習可能な予測器を用いて、窓の歪みに必要なオフセット、窓の分類に必要なマスク、および畳み込み演算に動的特性を付与するための畳み込みアテンションを複数生成する。これにより、アテンションが自己適応的に有用なテクスチャをより多く含むように調節され、畳み込み演算の表現能力が向上する。さらに、予測器の精度を向上させるためにグローバル分類損失を導入する。CAMixerを単純にスタックすることで、CAMixerSRを構築でき、これは大規模画像超解像、軽量型超解像、および全方位画像超解像において優れた性能を達成する。

ソースPDF