
要約
グローバルな操作、例えばグローバル平均プーリングは、高性能な画像復元モデルで広く使用されています。これらの操作は、入力特徴量の全空間次元からグローバル情報を集約しますが、学習と推論の際に画像復元タスクにおいて異なる挙動を示します:それぞれ異なる領域に基づいています。すなわち、クロップされたパッチ(画像から)とフル解像度の画像です。本論文では、グローバル情報の集約を見直し、推論時の画像ベースの特徴量が学習時のパッチベースの特徴量とは異なる分布を持つことを発見しました。この学習-テストの一貫性欠如は、以前の研究で深刻に見過ごされており、モデルの性能に悪影響を与えています。一貫性を減らし、テスト時の性能を向上させるために、私たちは単純な方法である「Test-time Local Converter (TLC)」を提案します。私たちのTLCは推論時のみグローバル操作を局所的なものに変換し、全体の大規模な画像ではなく局所的な空間領域内の特徴量を集約します。提案手法は正規化やチャネル・空間注意などのさまざまなグローバルモジュールに適用でき、そのコストはほとんど無視できるほど小さくなっています。ファインチューニングなしで、TLCは複数の画像復元タスクにおいて最先端の結果を改善しています。これらには単一画像運動ブレ除去、ビデオブレ除去、ピント外れブレ除去および画像ノイズ除去が含まれます。特にGoProデータセットにおいてTLCを使用したRestormer-Localは単一画像ブレ除去における最先端結果を32.92 dBから33.57 dBへと向上させました。コードは https://github.com/megvii-research/tlc で公開されています。