MMFusion: Kombination von Bildforensik-Filtern für die Erkennung und Lokalisierung visueller Manipulationen

Aktuelle Techniken zur Lokalisierung und Detektion von Bildmanipulationen nutzen in der Regel forensische Artefakte und Spuren, die durch einen rauschanfälligen Filter, wie z.B. SRM oder Bayar-Faltung, erzeugt werden. In dieser Arbeit zeigen wir, dass verschiedene Filter, die in solchen Ansätzen häufig verwendet werden, darin hervorragen, unterschiedliche Arten von Manipulationen aufzudecken und ergänzende forensische Spuren liefern. Daher untersuchen wir Methoden zur Kombination der Ausgaben dieser Filter, um die komplementäre Natur der erzeugten Artefakte für die Lokalisierung und Detektion von Bildmanipulationen (IMLD) zu nutzen. Wir bewerten zwei verschiedene Kombinationsmethoden: eine Methode, die unabhängige Merkmale aus jedem forensischen Filter erstellt und diese dann fusioniert (was als späte Fusion bezeichnet wird), und eine Methode, die verschiedene Modalitätsausgaben früh mischt und kombinierte Merkmale erzeugt (was als frühe Fusion bezeichnet wird). Wir verwenden letztere Methode als Mechanismus zur Merkmalskodierung und ergänzen sie durch einen neuen Decodiermechanismus, der Merkmalsneubewertung umfasst, um die vorgeschlagene MMFusion-Architektur zu formulieren. Wir demonstrieren, dass MMFusion wettbewerbsfähige Leistungen sowohl bei der Lokalisierung als auch bei der Detektion von Bildmanipulationen erzielt und moderne Modelle im Vergleich zu mehreren Bild- und Videodatensätzen übertrifft. Darüber hinaus untersuchen wir detaillierter den Beitrag jedes forensischen Filters innerhalb von MMFusion zur Bewältigung verschiedener Arten von Manipulationen unter Verwendung neuerer Maßnahmen zur Erklärbarkeit künstlicher Intelligenz.请注意,虽然您的要求中提到“使其更符合法语读者的阅读习惯”,但您需要的是德语翻译。因此,我在翻译时遵循了德语的语法和表达习惯。如果您有任何进一步的要求或疑问,请随时告知。