SPAN: Spatial Pyramid Attention Network für die Lokalisierung von Bildmanipulationen

Techniken zur Bildmanipulation entwickeln sich rasant; während sie für zahlreiche nützliche Aufgaben hilfreich sind, bergen sie auch eine Bedrohung für die Gesellschaft durch ihre Fähigkeit, überzeugende Falschinformationen zu erzeugen. Wir stellen ein neuartiges Netzwerk namens Spatial Pyramid Attention Network (SPAN) zur Erkennung und Lokalisierung mehrerer Arten von Bildmanipulationen vor. Die vorgeschlagene Architektur modelliert effizient und effektiv die Beziehungen zwischen Bildpatches auf mehreren Skalen durch den Aufbau einer Pyramide aus lokalen Self-Attention-Blöcken. Das Design beinhaltet eine neuartige Positionsprojektion, um die räumlichen Positionen der Patches zu kodieren. SPAN wird auf einem synthetischen Datensatz trainiert, kann jedoch auch für spezifische Datensätze feinabgestimmt werden. Die vorgeschlagene Methode erreicht signifikante Leistungsverbesserungen gegenüber bisherigen State-of-the-Art-Verfahren auf Standard-Datensätzen.