Recurrent Neural Networks mit stochastischen Schichten für die akustische Neuheitserkennung

In dieser Arbeit passen wir rekurrente Neuronale Netze mit stochastischen Schichten an, die derzeit den Stand der Technik bei der Generierung von Text, Musik und Sprache darstellen, auf das Problem der akustischen Neuheitserkennung an. Durch die Integration von Unsicherheit in die verborgenen Zustände ist dieses Netzwerk in der Lage, die Verteilung komplexer Sequenzen zu lernen. Da die gelernte Verteilung explizit in Form von Wahrscheinlichkeiten berechnet werden kann, können wir bewerten, wie wahrscheinlich eine Beobachtung ist, und Ereignisse mit niedriger Wahrscheinlichkeit als neu erkannt werden. Das Modell ist robust, hochgradig unüberwacht, durchgängig und erfordert minimale Vorverarbeitung, Merkmalsextraktion oder Hyperparameter-Optimierung. Ein Experiment mit einem Benchmark-Datensatz zeigt, dass unser Modell den aktuellen akustischen Neuheitserkennungsverfahren überlegen ist.