End-to-End Audio Strikes Back : Amélioration des Augmentations pour un Réseau de Classification Audio Efficace

Bien que des architectures efficaces et une multitude d'améliorations pour les tâches de classification d'images de bout en bout aient été proposées et largement étudiées, les techniques de pointe pour la classification audio continuent à s'appuyer sur de nombreuses représentations du signal audio associées à de grandes architectures, affinées à partir de grands ensembles de données. En exploitant la nature légère inhérente aux signaux audio et des nouvelles techniques d'augmentation audio, nous avons réussi à présenter un réseau de bout en bout efficace doté d'une forte capacité de généralisation. Les expériences menées sur divers ensembles de classification sonore démontrent l'efficacité et la robustesse de notre approche, en atteignant des résultats de pointe dans différents contextes. Le code source est disponible au lien suivant : \href{https://github.com/Alibaba-MIIL/AudioClassfication}{ce lien HTTP}.