Ausnutzung realer sprechender Gesichter mittels Selbstüberwachung für eine robuste Fälschungserkennung

Eine der drängendsten Herausforderungen bei der Erkennung manipulierter Gesichtsvideos besteht darin, sich auf Manipulationstechniken zu verallgemeinern, die während des Trainings nicht gesehen wurden, gleichzeitig jedoch unter alltäglichen Störungen wie Kompression wirksam zu bleiben. In diesem Artikel untersuchen wir, ob sich dieses Problem durch die Nutzung von Videos echter sprechender Gesichter ansprechen lässt, die reichhaltige Informationen über natürliche Gesichtsappearance und -verhalten enthalten und online in großer Menge verfügbar sind. Unser Ansatz, RealForensics genannt, besteht aus zwei Stufen. Zunächst nutzen wir die natürliche Korrespondenz zwischen visuellen und auditiven Modalitäten in echten Videos, um auf selbstüberwachter, cross-modaler Basis zeitlich dichte Video-Repräsentationen zu lernen, die Faktoren wie Gesichtsbewegungen, Ausdruck und Identität erfassen. In einem zweiten Schritt verwenden wir diese gelernten Repräsentationen als Zielwerte, die unser Manipulationserkennungssystem zusätzlich zu der üblichen binären Klassifikation von echt/falsch vorhersagen soll; dies veranlasst das Modell, seine Entscheidung für echt oder gefälscht auf diesen Faktoren zu basieren. Wir zeigen, dass unser Ansatz state-of-the-art-Leistungen bei Experimenten zur generalisierten Erkennung verschiedener Manipulationstechniken und zur Robustheit gegenüber Störungen erzielt, und untersuchen die Faktoren, die zur Leistungsfähigkeit beitragen. Unsere Ergebnisse deuten darauf hin, dass die Nutzung natürlicher, ungelabelter Videos eine vielversprechende Richtung für die Entwicklung robusterer Erkennungssysteme für Gesichtsmanipulationen darstellt.