ATST: Audio-Darstellungslernen mit Lehrer-Schüler-Transformer

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) gewinnt Wissen aus einer großen Menge an unbeschrifteten Daten und überträgt dieses Wissen anschließend auf ein spezifisches Problem mit einer begrenzten Anzahl von beschrifteten Daten. SSL hat in verschiedenen Bereichen vielversprechende Ergebnisse erzielt. Diese Arbeit befasst sich mit dem Problem des segmentbasierten allgemeinen Audio-SSL und schlägt ein neues transformer-basiertes Lehrer-Schüler-SSL-Modell vor, das ATST genannt wird. Ein Transformer-Encoder wurde auf einem kürzlich entwickelten Lehrer-Schüler-Basisverfahren erstellt, was die Modellierungsfähigkeit des Vortrainings erheblich verbessert. Darüber hinaus wurde eine neue Strategie zur Erstellung positiver Paare entwickelt, um die Fähigkeiten des Transformers vollständig zu nutzen. Umfangreiche Experimente wurden durchgeführt, und das vorgeschlagene Modell erreicht neue Stand der Technik-Ergebnisse (state-of-the-art results) bei fast allen Downstream-Aufgaben.