MMFusion : Combinaison de filtres d'analyse forensique des images pour la détection et la localisation de manipulations visuelles

Les techniques récentes de localisation et de détection de manipulation d'images exploitent généralement des artefacts et des traces forensiques produits par un filtre sensible au bruit, comme le SRM (Steerable Pyramid Representation) ou la convolution Bayar. Dans cet article, nous montrons que différents filtres couramment utilisés dans ces approches excellent à révéler différents types de manipulations et fournissent des traces forensiques complémentaires. Par conséquent, nous explorons des méthodes pour combiner les sorties de ces filtres afin d'exploiter la nature complémentaire des artefacts produits pour effectuer la localisation et la détection de manipulation d'images (IMLD). Nous évaluons deux méthodes de combinaison distinctes : l'une qui produit des caractéristiques indépendantes à partir de chaque filtre forensique puis les fusionne (ceci est appelé fusion tardive) et l'autre qui réalise un mélange précoce des différentes sorties modales pour produire des caractéristiques combinées (ceci est appelé fusion précoce). Nous utilisons cette dernière méthode comme mécanisme d'encodage de caractéristiques, accompagnée d'un nouveau mécanisme de décodage qui inclut un réajustement pondéré des caractéristiques, pour formuler l'architecture MMFusion proposée. Nous démontrons que MMFusion atteint une performance compétitive pour la localisation et la détection de manipulation d'images, surpassant les modèles de pointe sur plusieurs ensembles de données d'images et vidéos. Nous examinons également plus en détail la contribution de chaque filtre forensique au sein de MMFusion pour traiter différents types de manipulations, en nous appuyant sur les mesures récentes d'explicabilité en IA.