UniverSLU : Compréhension universelle du langage parlé pour des tâches diverses avec des instructions en langage naturel

Des études récentes explorent l’utilisation de modèles linguistiques à grande échelle dotés de capacités multitâches, en utilisant des invites sous forme de langage naturel pour guider le comportement du modèle, dépassant ainsi les performances des modèles spécialisés pour chaque tâche. Inspirés par ces avancées, nous nous demandons : peut-on concevoir un seul modèle capable d’effectuer simultanément diverses tâches de compréhension du langage parlé (SLU) ? Nous commençons par adapter un modèle pré-entraîné de reconnaissance automatique de la parole à des tâches supplémentaires en utilisant des spécificateurs de tâche sous forme de jetons uniques. Nous améliorons cette approche par une phase d’ajustement par instruction (instruction tuning), c’est-à-dire un fine-tuning réalisé en décrivant la tâche à l’aide d’instructions en langage naturel, suivies de la liste des options d’étiquetage. Cette méthode permet au modèle de généraliser à de nouvelles descriptions de tâches pour les tâches déjà vues lors de l’inférence, augmentant ainsi son accessibilité et son ergonomie. Nous démontrons l’efficacité de notre modèle unifié basé sur l’apprentissage multitâches, baptisé « UniverSLU », sur 12 types de tâches de classification et de génération de séquences vocales, couvrant 17 jeux de données et 9 langues. Sur la plupart des tâches, UniverSLU atteint des performances compétitives, et souvent même supérieures à celles des modèles spécialisés. En outre, nous évaluons ses capacités en zero-shot, constatant que le modèle parvient à se généraliser à de nouveaux jeux de données et à de nouvelles langues pour des types de tâches déjà rencontrés.