SpeechPrompt v2 : Prompt Tuning pour les tâches de classification vocale

Le tuning de prompt est une technologie qui ajuste un petit ensemble de paramètres afin de guider un modèle linguistique pré-entraîné (LM) pour générer directement les sorties nécessaires aux tâches ultérieures. Récemment, le tuning de prompt a démontré son efficacité en matière de stockage et de calcul dans les domaines du traitement du langage naturel (NLP) ainsi que du traitement du discours. Ces avantages ont également mis en évidence le tuning de prompt comme une approche prometteuse pour servir un LM pré-entraîné dans une optique unifiée pour plusieurs tâches. Dans le domaine du traitement du discours, SpeechPrompt a fait preuve d'une haute efficacité en termes de paramètres et d'une performance compétitive sur quelques tâches de classification vocales. Toutefois, la capacité de SpeechPrompt à servir un grand nombre de tâches reste encore inconnue. Dans ce travail, nous proposons SpeechPrompt v2, un cadre de tuning de prompt capable de traiter une large variété de tâches de classification vocale, couvrant plusieurs langues ainsi que des tâches liées à la prosodie. Les résultats expérimentaux montrent que SpeechPrompt v2 atteint une performance équivalente à celle des approches antérieures, tout en utilisant moins de 0,15 million de paramètres entraînables dans un cadre unifié.