Détection de la Manipulation d'Images par Supervision Multivue et Multirésolution

Le défi majeur de la détection de manipulation d'images réside dans l'apprentissage de caractéristiques généralisables qui soient sensibles aux manipulations dans des données inédites tout en étant spécifiques pour éviter les fausses alertes sur les images authentiques. Les recherches actuelles mettent l'accent sur la sensibilité, tandis que la spécificité est souvent négligée. Dans cet article, nous abordons ces deux aspects par l'apprentissage de caractéristiques multi-vues et la supervision multi-échelles. En exploitant la distribution du bruit et les artefacts de bord autour des régions trafiquées, le premier aspect vise à apprendre des caractéristiques sémantiquement agnostiques, donc plus généralisables. Le second aspect nous permet d'apprendre à partir d'images authentiques, ce qui n'est pas trivial avec les méthodes basées sur les réseaux de segmentation sémantique actuels. Nos idées sont concrétisées par un nouveau réseau que nous appelons MVSS-Net (Multi-View Semantic-Specific Network). De nombreuses expériences menées sur cinq ensembles de référence justifient la viabilité de MVSS-Net pour la détection de manipulation à la fois au niveau des pixels et au niveau des images.