vor 16 Tagen

RCT: Random Consistency Training für semi-supervised Sound Event Detection

Nian Shao, Erfan Loweimi, Xiaofei Li

Abstract

Die Sound-Event-Detection (SED), als zentrales Modul der akustischen Umweltanalyse, leidet unter dem Problem des Datenmangels. Die Integration von semi-supervised Learning (SSL) mindert dieses Problem erheblich, ohne zusätzlichen Annotationenaufwand zu erfordern. In dieser Arbeit werden mehrere zentrale Module von SSL untersucht, und es wird eine zufällige Konsistenztraining-(RCT)-Strategie vorgestellt. Zunächst wird eine Selbstkonsistenzverlustfunktion vorgeschlagen, die mit dem Lehrer-Schüler-Modell kombiniert wird, um den Trainingsprozess zu stabilisieren. Zweitens wird eine harte Mixup-Datenaugmentation eingeführt, um die additiven Eigenschaften von Schallereignissen angemessen zu berücksichtigen. Drittens wird ein zufälliges Augmentationsverfahren angewendet, um flexibel verschiedene Arten von Datenaugmentierungen zu kombinieren. Experimente zeigen, dass die vorgeschlagene Strategie andere weit verbreitete Ansätze übertrifft.