PSLA : Amélioration de l’étiquetage audio grâce au préentraînement, à l’échantillonnage, à l’étiquetage et à l’agrégation

L’étiquetage audio est un domaine de recherche actif et présente une large gamme d’applications. Depuis la publication d’AudioSet, des progrès considérables ont été réalisés dans l’amélioration des performances des modèles, principalement grâce au développement de nouvelles architectures de modèles et de modules d’attention. Toutefois, nous constatons que des techniques d’entraînement appropriées sont tout aussi essentielles pour concevoir des modèles d’étiquetage audio performants sur AudioSet, mais n’ont pas reçu l’attention qu’elles méritent. Afin de combler cette lacune, nous proposons dans ce travail PSLA, une collection de techniques d’entraînement capables d’améliorer significativement la précision du modèle, incluant le pré-entraînement sur ImageNet, l’échantillonnage équilibré, la augmentation de données, l’amélioration des étiquettes, l’agrégation de modèles ainsi que leurs choix de conception. En entraînant un EfficientNet à l’aide de ces techniques, nous obtenons un modèle unique (13,6 millions de paramètres) et un modèle en ensemble atteignant respectivement des scores de précision moyenne par classe (mAP) de 0,444 et 0,474 sur AudioSet, surpassant ainsi le meilleur système antérieur ayant une taille de 81 millions de paramètres (mAP : 0,439). En outre, notre modèle atteint également une nouvelle meilleure performance mondiale sur FSD50K avec un score mAP de 0,567.