Selbstüberwachende Video-Forensik durch audiovisuelle Anomalieerkennung

Manipulierte Videos enthalten oft subtile Inkonsistenzen zwischen ihren visuellen und audiotischen Signalen. Wir schlagen eine Video-Forensik-Methode vor, die auf Anomalieerkennung basiert und diese Inkonsistenzen identifizieren kann. Diese Methode kann ausschließlich mit echten, nicht gekennzeichneten Daten trainiert werden. Wir trainieren ein autoregressives Modell, um Sequenzen von Audio-Visuallen Merkmalen zu generieren, wobei Merkmalsmengen verwendet werden, die die zeitliche Synchronisation zwischen Videobildern und Ton erfassen. Bei der Testphase markieren wir Videos, denen das Modell eine geringe Wahrscheinlichkeit zuordnet. Trotz der ausschließlichen Trainierung mit echten Videos erzielt unser Modell starke Ergebnisse bei der Aufgabe, manipulierte Sprachvideos zu erkennen. Projektseite: https://cfeng16.github.io/audio-visual-forensics