
要約
Transformerは最近、コンピュータビジョンのタスクにおける事実上のモデルとして台頭し、影除去にも成功裏に応用されています。しかし、これらの既存の方法は、トランスフォーマーブロック内の注意機構に対する複雑な修正に大きく依存しながら、一般的なパッチ埋め込みを使用しています。その結果、しばしば追加の計算リソースを必要とする複雑なアーキテクチャ設計が生じます。本研究では、影情報を取り入れる初期処理段階の効果を探索することを目指しています。これにより、影除去に特化した新しいパッチ埋め込みを備えたトランスフォーマーベースのフレームワークであるShadowMaskFormerを提案します。具体的には、単純かつ効果的なマスク拡張パッチ埋め込みを提示し、影情報を統合し、モデルが影領域に関する知識を獲得する重点を高めるように促進します。ISTD, ISTD+, およびSRDベンチマークデータセットで行われた広範な実験は、当手法が最新のアプローチに対して優れた効果を示すことを証明しており、より少ないモデルパラメータを使用しています。当研究の実装はhttps://github.com/lizhh268/ShadowMaskFormerで公開されています。