HyperAIHyperAI
il y a 2 mois

Transformateur Auto-supervisé Professeur-Élève pour les Tâches de Niveau de Séquence et de Niveau de Cadre

Li, Xian ; Shao, Nian ; Li, Xiaofei
Transformateur Auto-supervisé Professeur-Élève pour les Tâches de Niveau de Séquence et de Niveau de Cadre
Résumé

L'apprentissage auto-supervisé (SSL) est apparu comme une approche populaire pour l'apprentissage de représentations audio. Un des objectifs de la pré-formation auto-supervisée en audio est de transférer les connaissances vers des tâches en aval, généralement incluant des tâches au niveau du clip et au niveau de la trame. Bien que les tâches au niveau de la trame soient importantes pour une compréhension détaillée des scènes acoustiques/événements, les études précédentes évaluent principalement les tâches en aval au niveau du clip. Afin d'aborder à la fois les tâches au niveau du clip et celles au niveau de la trame, cet article propose le modèle Audio Teacher-Student Transformer (ATST), avec une version au niveau du clip (nommée ATST-Clip) et une version au niveau de la trame (nommée ATST-Frame), chacune étant responsable de l'apprentissage des représentations correspondantes. Les deux méthodes utilisent un encodeur Transformer et un schéma d'entraînement maître-apprenti. Nous avons soigneusement conçu la stratégie de création de vues pour ATST-Clip et ATST-Frame. Plus précisément, ATST-Clip utilise des augmentations de données par segment, tandis qu'ATST-Frame intègre des augmentations de données par trame et un masquage. Les résultats expérimentaux montrent que notre modèle ATST-Frame obtient des performances d'état de l'art (SOTA) sur la plupart des tâches en aval au niveau du clip et au niveau de la trame. En particulier, il surpasse largement les autres modèles sur la tâche de détection d'événements sonores au niveau de la trame. De plus, les performances peuvent être encore améliorées en combinant les deux modèles par distillation de connaissances. Notre code est disponible en ligne.

Transformateur Auto-supervisé Professeur-Élève pour les Tâches de Niveau de Séquence et de Niveau de Cadre | Articles de recherche récents | HyperAI