HyperAIHyperAI
vor 18 Tagen

Ist die Forschung zur synthetischen Stimme Detektion auf dem richtigen Weg?

{Dario Allegra, Filippo Stanco, Oliver Giudice, Stefano Borzì}
Ist die Forschung zur synthetischen Stimme Detektion auf dem richtigen Weg?
Abstract

Maschinelles Lernen und im Allgemeinen Ansätze der künstlichen Intelligenz haben in jedem Bereich der Informatik erhebliche Fortschritte ermöglicht und die Genauigkeit von Vorhersagemodellen bei jeder bekannten Aufgabe erheblich gesteigert. Tatsächlich erlaubte diese Entwicklung die Entwicklung effektiver Frameworks und Lösungen, die in forensischen und untersuchungsrelevanten Szenarien eingesetzt werden können, um Fälschungen und allgemein Manipulationen in multimedialen Inhalten zu detektieren. Auf der anderen Seite: Können wir diesen Systemen vertrauen? Verläuft die Forschung in die richtige Richtung? Befassen wir uns lediglich mit einfachen, leicht erreichbaren Zielen, ohne ausreichend realitätsnahe, „in-the-wild“-Szenarien zu berücksichtigen? Ziel dieses Beitrags ist es, die Forschungsgemeinschaft in Bezug auf die Erkennung synthetischer Sprache vor einer möglichen Fehleinschätzung zu warnen, da die zur Verfügung stehenden Trainingsdaten für die Entwicklung vertrauenswürdiger Techniken im Literaturbestand nicht ausreichend groß sind. Dazu wurde eine explorative Untersuchung des gebräuchlichsten Datensatzes für Sprach-Spoofing durchgeführt, bei der überraschenderweise einfache Klassifikatoren ohne Anwendung von Deep Learning bereits eine effektive Erkennungsleistung erzielten. Bereits einfache Überlegungen zum Bitrate-Level reichten aus, um eine hochwirksame Detektion zu erreichen.