Auto-supervision en forensique vidéo par détection d'anomalies audiovisuelles

Les vidéos manipulées contiennent souvent des incohérences subtiles entre leurs signaux visuels et audio. Nous proposons une méthode de vidéo forensique, basée sur la détection d'anomalies, capable d'identifier ces incohérences et qui peut être formée uniquement à l'aide de données réelles non étiquetées. Nous entraînons un modèle autorégressif pour générer des séquences de caractéristiques audiovisuelles, en utilisant des ensembles de caractéristiques qui capturent la synchronisation temporelle entre les images vidéo et le son. Lors de la phase de test, nous signalons les vidéos auxquelles le modèle attribue une faible probabilité. Bien que formé exclusivement avec des vidéos réelles, notre modèle obtient des performances solides dans la tâche de détection de vidéos de discours manipulées. Site du projet : https://cfeng16.github.io/audio-visual-forensics