AVTENet: Audio-Visual Transformer-basiertes Ensemble-Netzwerk, das mehrere Experten für die Video-Deepfake-Erkennung nutzt

Verfälschte Inhalte, die weithin auf sozialen Medienplattformen verbreitet werden, stellen ein erhebliches gesellschaftliches Problem dar, das eine verstärkte Regulierung erfordert und neue Herausforderungen für die Forschungsgemeinschaft mit sich bringt. Die jüngste Verbreitung hyperrealistischer Deepfake-Videos hat die Aufmerksamkeit auf die Bedrohung durch audiovisuelle Fälschungen gelenkt. Die meisten vorherigen Ansätze zur Erkennung künstlich-intelligent generierter Falschvideos berücksichtigen lediglich die visuelle Modality oder die auditive Modality. Obwohl einige Methoden in der Literatur sowohl audio- als auch visuelle Modalitäten nutzen, um Falschvideos zu detektieren, wurden sie bisher nicht umfassend auf multimodalen Datensätzen für Deepfake-Videos evaluiert, die sowohl akustische als auch visuelle Manipulationen beinhalten. Zudem basieren diese bestehenden Methoden überwiegend auf Convolutional Neural Networks (CNN) und weisen eine geringe Erkennungsgenauigkeit auf. Inspiriert vom jüngsten Erfolg von Transformer-Modellen in verschiedenen Forschungsbereichen, stellen wir in diesem Artikel einen Audio-Visual Transformer-basierten Ensemble-Netzwerkansatz (AVTENet) vor, der sowohl akustische als auch visuelle Manipulationen berücksichtigt, um eine effektive Erkennung audiovisueller Fälschungen zu ermöglichen. Konkret integriert das vorgeschlagene Modell mehrere rein auf Transformer basierende Varianten, die jeweils visuelle, auditive sowie audiovisuelle markante Merkmale erfassen und zu einer Konsensentscheidung bei der Vorhersage beitragen. Zur Evaluierung verwenden wir den kürzlich veröffentlichten Benchmark-Datensatz FakeAVCeleb, der multimodale Audio-Video-Daten enthält. Für eine detaillierte Analyse evaluieren wir AVTENet, seine Varianten sowie mehrere etablierte Methoden auf mehreren Testsets des FakeAVCeleb-Datensatzes. Die experimentellen Ergebnisse zeigen, dass unser bestes Modell alle bisherigen Ansätze übertrifft und eine state-of-the-art Leistung sowohl auf Testset-I als auch auf Testset-II des FakeAVCeleb-Datensatzes erzielt.