2ヶ月前
SwinFIR: SwinIRの再検討 - 高速フーリエ畳み込みと改善された学習による画像超解像
Dafeng Zhang; Feiyu Huang; Shizhuo Liu; Xiaobing Wang; Zhezhu Jin

要約
Transformerベースの手法は、CNNベースの手法と比較して長距離依存関係をモデル化する能力に優れているため、印象的な画像復元性能を達成しています。しかし、SwinIRなどの進歩は、パフォーマンスと計算負荷のバランスを取るため、ウィンドウベースおよび局所注意戦略を採用しており、初期層で大域情報を捉え、長距離依存関係を確立するために大きな受容野を使用することを制限しています。本研究では、大域情報を効率的に捉える能力をさらに向上させるために、SwinIRを拡張し、画像全体の受容野を持つFast Fourier Convolution (FFC) コンポーネントに置き換えるSwinFIRを提案します。また、データ増強、事前学習、特徴量アンサンブルなどの他の先進技術も再評価し、画像再構築の効果を改善します。特に、我々の特徴量アンサンブル手法は、学習時間やテスト時間を増加させることなくモデルのパフォーマンスを大幅に向上させることができます。我々は提案したアルゴリズムを複数の大規模ベンチマークに適用し、既存の手法と比較して最先端の性能を達成しました。例えば、Manga109データセットにおいてSwinFIRは32.83 dBのPSNR値を達成しており、これは最先端のSwinIR手法よりも0.8 dB高い結果となっています。