Détection de nouveauté acoustique par prédiction non linéaire à l’aide de réseaux de neurones récurrents LSTM
La détection de nouveauté acoustique vise à identifier des signaux acoustiques anormaux ou nouveaux, qui diffèrent des données de référence ou normales sur lesquelles le système a été entraîné. Dans cet article, nous présentons une nouvelle approche fondée sur des autoencodeurs débruitants prédictifs non linéaires. Dans notre méthode, les caractéristiques spectrales auditives du prochain cadre court terme sont prédites à partir des cadres précédents à l’aide d’autoencodeurs débruitants récurrents à mémoire à long et court terme (LSTM). Nous démontrons que cette approche conduit à un modèle génératif efficace pour le traitement audio. L’erreur de reconstruction entre l’entrée et la sortie de l’autoencodeur est utilisée comme signal d’activation pour détecter des événements nouveaux. L’autoencodeur est entraîné sur une base de données publique comprenant des enregistrements de situations typiques en milieu domestique, telles que la conversation, la télévision, les jeux ou les repas. L’évaluation a été réalisée sur plus de 260 événements anormaux différents. Nous comparons nos résultats aux méthodes de pointe actuelles et concluons que notre approche novatrice surpasse significativement les méthodes existantes, atteignant jusqu’à un F-mesure de 94,4 %.