vor 2 Monaten

Echtzeit-Erkennung von künstlich generierter Sprache für DeepFake-Stimmenkonvertierung

Bird, Jordan J. ; Lotfi, Ahmad

Abstract

Es gibt zunehmende Implikationen im Bereich der generativen KI in der Sprachverarbeitung, die es ermöglichen, Stimmen zu klonen und Echtzeit-Stimmenkonvertierungen von einer Person auf eine andere durchzuführen. Diese Technologie stellt eine erhebliche ethische Bedrohung dar und könnte zu Verletzungen der Privatsphäre und Fehldarstellungen führen. Daher besteht ein dringender Bedarf an Echtzeit-Erkennung von KI-generiertem Sprechsignal für DeepFake-Stimmenkonvertierung. Um die oben genannten sich entwickelnden Probleme anzugehen, wurde im Rahmen dieser Studie das DEEP-VOICE-Datensatz erstellt, der echte menschliche Sprache von acht bekannten Persönlichkeiten sowie deren Konvertierung mithilfe von retrival-basierter Stimmenkonvertierung umfasst. Die Präsentation dieses Problems als binäre Klassifikationsaufgabe – ob die Sprache echt oder KI-generiert ist – zeigt durch statistische Analyse zeitlicher Audio-Features mittels t-Tests, dass es signifikant unterschiedliche Verteilungen gibt. Für maschinelle Lernmodelle wird eine Hyperparameter-Optimierung implementiert, um den Ursprung des Sprechsignals zu identifizieren. Nach dem Training von 208 individuellen maschinellen Lernmodellen mit zehnfacher Kreuzvalidierung wurde festgestellt, dass das Extreme Gradient Boosting-Modell einen durchschnittlichen Klassifizierungsgrad von 99,3 % erreichen kann und in Echtzeit klassifizieren kann, bei etwa 0,004 Millisekunden pro Sekunde Sprache. Alle für diese Studie generierten Daten werden öffentlich freigegeben, um zukünftige Forschungen zur Erkennung von KI-generierter Sprache zu unterstützen.