
要約
画像の操作技術は急速に進展しており、多くの有用なタスクに貢献する一方で、信憑性の高い誤情報の生成能力により、社会に脅威をもたらす可能性がある。本研究では、複数種類の画像操作を検出および局所化するための新規な空間ピラミッド自己注意ネットワーク(Spatial Pyramid Attention Network: SPAN)を提案する。提案手法は、複数スケールの画像パッチ間の関係を効率的かつ効果的にモデル化するため、局所的自己注意ブロックをピラミッド構造で構築する。また、パッチの空間的位置を符号化するための新たな位置投影機構を導入している。SPANは合成データセット上で訓練可能であり、特定のデータセットに対して微調整(fine-tuning)も可能である。標準データセットにおいて、従来の最先端手法と比較して、提案手法は顕著な性能向上を示した。