Constrained R-CNN: Ein allgemeines Modell zur Erkennung von Bildmanipulationen

Kürzlich haben tief lernbasierte Modelle eine bemerkenswerte Leistung bei der Erkennung von Bildmanipulationen gezeigt. Dennoch leiden die meisten davon unter einer mangelhaften Universalität von manuell erstellten oder vorbestimmten Merkmalen. Gleichzeitig konzentrieren sie sich nur auf die Lokalisierung von Manipulationen und vernachlässigen deren Klassifizierung. Um diese Probleme zu lösen, schlagen wir eine grob-zu-feine Architektur namens Constrained R-CNN (CR-CNN) für umfassende und genaue Bildforensik vor. Zunächst lernt der erlernbare Manipulationsmerkmalsextraktor eine einheitliche Merkmalsrepräsentation direkt aus den Daten. Anschließend diskriminiert das Aufmerksamkeitsregionenvorschlagsnetzwerk manipulierte Bereiche effektiv für die nachfolgende Manipulationsklassifizierung und grobe Lokalisierung. Danach fusioniert die Skip-Struktur niederstufige und hochstufige Informationen, um die globalen Manipulationsmerkmale zu verfeinern. Schließlich führt die grobe Lokalisationsinformation das Modell an, feinere lokale Merkmale weiter zu lernen und die manipulierte Region zu segmentieren. Experimentelle Ergebnisse zeigen, dass unser Modell den aktuellen Stand der Technik erreicht. Insbesondere steigt der F1-Score um 28,4 %, 73,2 % und 13,3 % in den Datensätzen NIST16, COVERAGE und Columbia.