RCT : Entraînement aléatoire à la cohérence pour la détection semi-supervisée d'événements sonores

La détection d’événements sonores (SED), en tant que module central de l’analyse environnementale acoustique, souffre d’un manque de données. L’intégration de l’apprentissage semi-supervisé (SSL) atténue largement ce problème sans nécessiter de budget supplémentaire pour l’étiquetage. Cette étude explore plusieurs modules clés du SSL et introduit une stratégie de formation par cohérence aléatoire (RCT). Premièrement, une perte de self-cohérence est proposée pour s’associer au modèle enseignant-élève afin de stabiliser l’apprentissage. Deuxièmement, une augmentation de données par mixup rigide est proposée afin de tenir compte de la propriété additive des sons. Troisièmement, un schéma d’augmentation aléatoire est appliqué pour combiner de manière flexible différentes types d’augmentations de données. Les expériences montrent que la stratégie proposée surpasse d’autres stratégies largement utilisées.