
要約
最近の研究では、画像補填(inpainting)問題において長距離相互作用をモデル化することが重要であることが示されている。既存の手法は、単独のアテンション技術またはトランスフォーマーを用いるが、計算コストを考慮して通常は低解像度での処理に限定されている。本論文では、大規模な欠損領域に対する補填を実現するための新たなトランスフォーマーに基づくモデルを提案する。このモデルは、トランスフォーマーと畳み込みの利点を統合することで、高解像度画像を効率的に処理することを可能にしている。また、回復された画像の忠実性と多様性を保証するため、フレームワーク内の各コンポーネントを丁寧に設計している。特に、補填タスクに特化したトランスフォーマーブロックを独自に設計し、アテンションモジュールが動的マスクによって示される部分的な有効トークンからのみ非局所的な情報を集約するようにしている。広範な実験により、提案モデルが複数のベンチマークデータセットにおいて最先端の性能を達成することが実証された。コードは https://github.com/fenglinglwb/MAT にて公開されている。