Erkundung von Green AI für die Erkennung von Audio-Deepfakes

Die neuesten Audio-Deepfake-Detektoren, die auf tiefen neuronalen Netzen basieren, zeigen beeindruckende Erkennungsleistungen. Dennoch geht dieser Vorteil einher mit einem erheblichen Kohlenstofffußabdruck. Dies ist hauptsächlich auf die Verwendung von hochleistungsfähigen Computern mit Beschleunigern und lange Trainingszeiten zurückzuführen. Studien zeigen, dass durchschnittliche Deep-NLP-Modelle etwa 626.000 Pfund CO\textsubscript{2} produzieren, was dem Fünffachen der durchschnittlichen CO\textsubscript{2}-Emission eines US-amerikanischen Autos über dessen Lebensdauer entspricht. Dies stellt zweifellos eine große Bedrohung für die Umwelt dar. Um dieser Herausforderung zu begegnen, präsentiert diese Studie einen neuen Rahmen für Audio-Deepfake-Erkennung, der nahtlos mit Standard-CPU-Ressourcen trainiert werden kann. Unser vorgeschlagenes Framework nutzt fertige selbstüberwachte Lernverfahren (Self-Supervised Learning, SSL)-basierte Modelle, die vorab trainiert wurden und in öffentlichen Repositorien verfügbar sind. Im Gegensatz zu bestehenden Methoden, die SSL-Modelle feinjustieren und zusätzliche tiefe neuronale Netze für nachgelagerte Aufgaben einsetzen, nutzen wir klassische Maschinelles-Lernen-Algorithmen wie logistische Regression und flache neuronale Netze unter Verwendung der durch das vorab trainierte Modell extrahierten SSL-Embeddings. Unser Ansatz zeigt vergleichbare Ergebnisse im Vergleich zu den üblicherweise eingesetzten Methoden mit hohem Kohlenstofffußabdruck. Bei Experimenten mit dem ASVspoof 2019 LA Datensatz erreichen wir eine Gleichfehlerrate (Equal Error Rate, EER) von 0,90 % bei weniger als 1.000 trainierbaren Modelparametern. Um weitere Forschung in diese Richtung zu fördern und reproduzierbare Ergebnisse zu unterstützen, wird der Python-Code nach Annahme öffentlich zugänglich gemacht. Github: https://github.com/sahasubhajit/Speech-Spoofing-