Voice2Series : Réprogrammation des modèles acoustiques pour la classification des séries temporelles

Apprendre à classifier des séries temporelles avec des données limitées est un problème pratique mais difficile. Les méthodes actuelles reposent principalement sur des règles de extraction de caractéristiques conçues à la main ou sur une augmentation de données spécifique au domaine. Motivés par les progrès réalisés dans les modèles de traitement du discours profond et par le fait que les données vocales constituent des signaux temporels univariés, nous proposons dans cet article Voice2Series (V2S), une nouvelle approche end-to-end qui réutilise les modèles acoustiques pour la classification des séries temporelles, grâce à l’apprentissage de transformations d’entrée et à une cartographie des étiquettes de sortie. En exploitant la puissance d’apprentissage de représentations d’un grand modèle préentraîné de traitement du discours, nous montrons sur 30 tâches différentes de classification de séries temporelles que V2S obtient des résultats compétitifs sur 19 de ces tâches. Nous fournissons également une justification théorique de V2S en démontrant que son risque de population est borné supérieur par le risque source et une distance de Wasserstein tenant compte de l’alignement des caractéristiques via la réprogrammation. Nos résultats offrent de nouvelles voies efficaces pour la classification des séries temporelles.