
Au cours des deux dernières décennies, les architectures de réseaux de neurones convolutifs (CNN) ont permis de développer des modèles convaincants de perception et de cognition sonores, apprenant des organisations hiérarchiques de caractéristiques. Analogues aux succès obtenus en vision par ordinateur, la classification des caractéristiques audio peut être optimisée pour une tâche spécifique, sur une large variété de jeux de données et d’étiquettes. En effet, des architectures similaires conçues pour la compréhension d’images se sont avérées efficaces pour l’analyse des scènes sonores. Dans cet article, nous proposons d’appliquer des architectures fondées sur les Transformers, sans couches convolutionnelles, directement aux signaux audio bruts. Sur un jeu de données standard, Free Sound 50K, comprenant 200 catégories, notre modèle dépasse les modèles convolutionnels pour atteindre des résultats de pointe. Ce résultat est significatif, car contrairement au traitement du langage naturel et à la vision par ordinateur, nous n’effectuons pas de pré-entraînement non supervisé pour surpasser les architectures convolutionnelles. Sur le même ensemble d’entraînement, par rapport aux indicateurs de précision moyenne, nous démontrons une amélioration notable. Nous améliorons davantage les performances des architectures Transformer en utilisant des techniques telles que le pooling inspiré des réseaux convolutionnels développés au cours des dernières années. En outre, nous montrons comment des idées de traitement multi-taux inspirées des ondelettes peuvent être appliquées aux embeddings des Transformers afin d’améliorer les résultats. Enfin, nous illustrons comment nos modèles apprennent un banc de filtres non linéaire à largeur de bande variable, offrant ainsi une représentation adaptative temps-fréquence au niveau du prétraitement pour la tâche de compréhension audio, distincte de celle utilisée pour d’autres tâches, telles que l’estimation du ton.