ManTra-Net : Réseau de traçage de manipulation pour la détection et la localisation des falsifications d’images basées sur des caractéristiques anormales

Pour lutter contre la falsification d’images du monde réel, qui implique souvent divers types de manipulations combinées, nous proposons une architecture neuronale profonde unifiée appelée ManTra-Net. Contrairement à de nombreuses solutions existantes, ManTra-Net est un réseau end-to-end qui réalise à la fois la détection et la localisation des falsifications sans nécessiter de prétraitement ni de posttraitement supplémentaires. ManTra-Net est un réseau entièrement convolutif capable de traiter des images de tailles arbitraires et de nombreuses formes connues de falsifications, telles que le collage (splicing), le copier-coller (copy-move), la suppression (removal), l’amélioration (enhancement), ainsi que des types inconnus. Ce travail présente trois contributions marquantes. Premièrement, nous concevons une tâche d’apprentissage auto-supervisé simple mais efficace afin d’apprendre des traces robustes de manipulation d’images en classifiant 385 types de manipulations. Deuxièmement, nous reformulons le problème de localisation des falsifications comme un problème de détection d’anomalies locales, proposons une caractéristique basée sur le score Z pour capturer ces anomalies locales, et introduisons une nouvelle solution reposant sur un réseau à mémoire à long et court terme (LSTM) pour évaluer ces anomalies. Enfin, nous menons des expérimentations d’ablation soigneuses afin d’optimiser de manière systématique la conception du réseau proposé. Nos résultats expérimentaux étendus démontrent la généralisation, la robustesse et l’efficacité supérieure de ManTra-Net, non seulement pour des types de manipulation isolés, mais également pour leurs combinaisons complexes.