HyperAIHyperAI
il y a 11 jours

SepTr : Transformer séparable pour le traitement des spectrogrammes audio

Nicolae-Catalin Ristea, Radu Tudor Ionescu, Fahad Shahbaz Khan
SepTr : Transformer séparable pour le traitement des spectrogrammes audio
Résumé

Suite à l’application réussie des transformateurs vision dans diverses tâches de vision par ordinateur, ces modèles ont attiré l’attention de la communauté du traitement du signal. En effet, les signaux sont souvent représentés sous forme de spectrogrammes (par exemple via la transformation de Fourier discrète), qui peuvent être directement utilisés comme entrée pour les transformateurs vision. Toutefois, l’application naïve des transformateurs aux spectrogrammes s’avère sous-optimale. Étant donné que les axes représentent des dimensions distinctes — fréquence et temps — nous proposons qu’une approche plus efficace consiste à séparer l’attention attribuée à chaque axe. À cette fin, nous introduisons l’architecture du Separable Transformer (SepTr), qui utilise deux blocs de transformateurs disposés séquentiellement : le premier s’attache aux tokens appartenant au même intervalle temporel, tandis que le second s’attarde aux tokens situés dans la même bande de fréquence. Nous menons des expériences sur trois jeux de données standardisés, démontrant que notre architecture séparable surpasse les transformateurs vision classiques ainsi que d’autres méthodes de pointe. Contrairement aux transformateurs standards, SepTr fait croître linéairement le nombre de paramètres entraînables en fonction de la taille de l’entrée, ce qui se traduit par une empreinte mémoire réduite. Notre code est disponible en open source à l’adresse suivante : https://github.com/ristea/septr.

SepTr : Transformer séparable pour le traitement des spectrogrammes audio | Articles de recherche récents | HyperAI