Multimodale Fälschungserkennung mithilfe von Ensemble-Learning

Die jüngste rasante Entwicklung der künstlichen Intelligenz (KI) hat die Erstellung von hochrealistischen Deepfakes ermöglicht, weshalb die Erkennung von Deepfake-Videos (auch als KI-synthesierte Videos bekannt) zu einer kritischen Aufgabe geworden ist. Die derzeitigen Systeme berücksichtigen die einheitliche Verarbeitung von Audio- und Videodaten häufig nicht vollständig, sodass noch erheblicher Verbesserungsbedarf besteht. In diesem Artikel konzentrieren wir uns auf die multimodale Fälschungserkennung und stellen eine tiefgreifende Fälschungserkennungsmethode auf Basis von audiovisuellen Ensemble-Lernverfahren vor. Die vorgeschlagene Methode besteht aus vier Komponenten: einem Video-Netzwerk, einem Audio-Netzwerk, einem Audiovisuellen Netzwerk sowie einem Abstimmungsmodul. Gegeben ein Video kann das vorgeschlagene multimodale Ensemble-Lernsystem identifizieren, ob es gefälscht oder echt ist. Experimentelle Ergebnisse auf einem kürzlich veröffentlichten multimodalen Datensatz namens FakeAVCeleb zeigen, dass die vorgeschlagene Methode eine Genauigkeit von 89 % erreicht und damit bestehende Modelle deutlich übertrifft.