3ヶ月前

CFAT:画像超解像における三角ウィンドウの活用

{Maheshkumar H. Kolekar, Gaurav Kumar, Abhisek Ray}
CFAT:画像超解像における三角ウィンドウの活用
要約

Transformerベースのモデルは、複雑な文脈的特徴を捉える内在的な能力を活かすことで、画像スーパーレゾリューション(SR)分野に革命をもたらした。現在のTransformerアーキテクチャで用いられる重複する長方形シフト窓技術は、画像拡大の品質とロバスト性を向上させるために、スーパーレゾリューションモデルにおいて一般的な手法となっている。しかし、この手法は境界部に歪みを引き起こすという課題があり、シフトモードの多様性に制限がある。こうした課題を克服するため、本研究では境界部の歪みを軽減し、より多様なスフィティングモードをモデルがアクセス可能にするために、非重複型の三角形窓技術を提案する。本稿では、三角形窓と長方形窓を組み合わせた局所注意機構と、チャネルベースのグローバル注意機構を統合した、複合融合注意Transformer(Composite Fusion Attention Transformer: CFAT)を提案する。これにより、注意機構がより多くの画像ピクセル上で活性化され、長距離のマルチスケール特徴を効果的に捉えることが可能となり、SR性能の向上が実現される。広範な実験結果およびアブレーションスタディにより、CFATがSR領域において有効であることが実証された。提案モデルは、他の最先端SRアーキテクチャと比較して、顕著な0.7 dBの性能向上を達成した。