HyperAIHyperAI
il y a 16 jours

JiTTER : Jigsaw Temporal Transformer pour la Reconstruction d'Événements pour la Détection Auto-Étiquetée d'Événements Sonores

Hyeonuk Nam, Yong-Hwa Park
JiTTER : Jigsaw Temporal Transformer pour la Reconstruction d'Événements pour la Détection Auto-Étiquetée d'Événements Sonores
Résumé

La détection d’événements sonores (SED) a grandement bénéficié des approches d’apprentissage non supervisé (SSL), en particulier du modèle MAT-SED (Masked Audio Transformer for SED), qui exploite la prédiction de blocs masqués pour reconstruire des segments audio manquants. Toutefois, bien que cette méthode soit efficace pour capturer les dépendances globales, la prédiction de blocs masqués perturbe les événements sonores transitoires et ne garantit pas explicitement l’ordre temporel, ce qui la rend moins adaptée à la détection fine des limites d’événements. Pour pallier ces limites, nous proposons JiTTER (Jigsaw Temporal Transformer for Event Reconstruction), un cadre SSL conçu pour améliorer la modélisation temporelle dans les architectures SED basées sur les transformateurs. JiTTER introduit une stratégie hiérarchique de reconstruction par permutation temporelle, où les séquences audio sont aléatoirement mélangées à la fois au niveau des blocs et au niveau des trames, obligeant le modèle à reconstruire l’ordre temporel correct. Cette tâche de pré-entraînement encourage l’apprentissage à la fois des structures événementielles globales et des détails transitoires fins, améliorant ainsi la capacité du modèle à détecter des événements caractérisés par des déclenchements et des fins abruptes. Par ailleurs, nous intégrons une injection de bruit lors du mélange des blocs, offrant un mécanisme de perturbation subtile qui régularise davantage l’apprentissage des caractéristiques et renforce la robustesse du modèle. Les résultats expérimentaux sur le jeu de données DESED montrent que JiTTER surpassa MAT-SED, atteignant une amélioration de 5,89 % en PSDS, mettant ainsi en évidence l’efficacité du raisonnement temporel explicite dans le cadre des modèles SSL pour la SED. Nos résultats suggèrent qu’une tâche de reconstruction temporelle structurée, plutôt qu’une simple prédiction masquée, constitue un paradigme de pré-entraînement plus efficace pour l’apprentissage des représentations sonores.

JiTTER : Jigsaw Temporal Transformer pour la Reconstruction d'Événements pour la Détection Auto-Étiquetée d'Événements Sonores | Articles de recherche récents | HyperAI