Nichtlineare Vorhersage mit LSTM rekurrenten neuronalen Netzen für akustische Anomalieerkennung
Die akustische Neuheitsdetektion zielt darauf ab, abnorme oder neue akustische Signale zu identifizieren, die sich von den Referenz-/Normaldaten unterscheiden, mit denen das System trainiert wurde. In diesem Artikel präsentieren wir einen neuen Ansatz basierend auf nichtlinearen prädiktiven Rauschunterdrückungs-Autoencodern. In unserem Ansatz werden auditive Spektralmerkmale des nächsten kurzfristigen Frames mittels Long-Short Term Memory (LSTM)-rekurrenter Rauschunterdrückungs-Autoencoder aus den vorhergehenden Frames vorhergesagt. Wir zeigen, dass hierdurch ein effektives generatives Modell für Audio entsteht. Die Rekonstruktionsfehler zwischen Eingabe und Ausgabe des Autoencoders dienen als Aktivierungssignal zur Detektion neuartiger Ereignisse. Der Autoencoder wurde auf einer öffentlichen Datenbank trainiert, die Aufnahmen typischer Alltags-Situationen im Haushalt enthält, wie z. B. Sprechen, Fernsehen, Spielen und Essen. Die Evaluation erfolgte an mehr als 260 verschiedenen abnormalen Ereignissen. Wir vergleichen die Ergebnisse mit aktuellen State-of-the-Art-Methoden und schließen, dass unser neuartiger Ansatz bestehende Methoden signifikant übertrifft und eine F-Maßnahme von bis zu 94,4 % erreicht.