Détection et classification des mots de remplissage : un jeu de données et une référence

Les mots de remplissage tels que « uh » ou « um » sont des sons ou des mots utilisés par les personnes pour indiquer un temps de pause destiné à la réflexion. La détection et la suppression de ces mots dans des enregistrements constituent une tâche courante mais fastidieuse dans le montage médiatique. La détection automatique et la classification des mots de remplissage pourraient grandement faciliter cette tâche, mais très peu d’études ont été publiées à ce jour sur ce sujet. Une raison principale réside dans l’absence de jeux de données annotés contenant des mots de remplissage, nécessaires pour l’entraînement et l’évaluation des modèles. Dans ce travail, nous présentons un nouveau jeu de données audio, PodcastFillers, comprenant 35 000 mots de remplissage annotés ainsi que 50 000 annotations d’autres sons fréquemment présents dans les podcasts, tels que des soupirs, des rires ou des répétitions de mots. Nous proposons une chaîne de traitement qui exploite la détection de voix active (VAD) et la reconnaissance automatique de la parole (ASR) pour identifier les candidats aux mots de remplissage, puis un classificateur pour distinguer les différents types de mots de remplissage. Nous évaluons notre approche sur PodcastFillers, la comparons à plusieurs méthodes de référence, et présentons une étude d’ablation détaillée. En particulier, nous examinons l’importance de l’utilisation de l’ASR et la comparons à une approche sans transcription, analogue à la détection de mots-clés. Nous montrons que notre chaîne atteint des résultats de pointe, et que l’exploitation de l’ASR permet de performances significativement supérieures à celles d’une méthode basée sur la détection de mots-clés. Nous mettons publiquement à disposition PodcastFillers, dans l’espoir que notre travail serve de référence pour les recherches futures.