Exploration de l'IA verte pour la détection des deepfakes audio

Les détecteurs d'audio deepfake de pointe utilisant des réseaux neuronaux profonds présentent des performances de reconnaissance impressionnantes. Néanmoins, cet avantage s'accompagne d'une empreinte carbone significative. Cela est principalement dû à l'utilisation de calcul haute performance avec accélérateurs et à un temps de formation élevé. Des études montrent qu'un modèle NLP profond moyen produit environ 626 000 livres de CO\textsubscript{2}, ce qui équivaut à cinq fois les émissions d'une voiture américaine moyenne sur sa durée de vie. Cette situation représente certainement une menace massive pour l'environnement. Pour relever ce défi, cette étude présente un nouveau cadre pour la détection d'audio deepfake qui peut être formé sans heurts en utilisant des ressources CPU standard. Notre cadre proposé utilise des modèles basés sur l'apprentissage auto-supervisé (SSL) pré-entraînés et disponibles dans des dépôts publics. Contrairement aux méthodes existantes qui affinent les modèles SSL et emploient des réseaux neuronaux profonds supplémentaires pour les tâches en aval, nous exploitons des algorithmes classiques d'apprentissage automatique tels que la régression logistique et les réseaux neuronaux peu profonds en utilisant les plongements SSL extraits par le modèle pré-entraîné. Notre approche montre des résultats compétitifs comparés aux méthodes couramment utilisées ayant une empreinte carbone élevée. Dans des expériences menées avec le jeu de données ASVspoof 2019 LA, nous obtenons un taux d'erreur égal (EER) de 0,90\% avec moins de 1 000 paramètres entraînables du modèle. Pour encourager davantage de recherches dans cette direction et soutenir la reproductibilité des résultats, le code Python sera rendu publiquement accessible après acceptation. Github : https://github.com/sahasubhajit/Speech-Spoofing-