HyperAIHyperAI
il y a 12 jours

DENet : une architecture profonde pour les applications de surveillance audio

{Mario Vento, Alessia Saggese, Antonio Roberto, Antonio Greco}
Résumé

Ces dernières années, une forte attention a été portée, tant par la communauté scientifique que par le marché, sur la conception de systèmes d’écoute audio capables d’analyser en continu un flux audio et d’identifier des événements d’intérêt. Ce phénomène est particulièrement marqué dans les applications de sécurité, où l’analyse audio peut être utilisée de manière avantageuse comme alternative aux systèmes d’analyse vidéo, voire combinée avec ceux-ci. Dans ce contexte, nous proposons dans cet article une nouvelle architecture de réseau de neurones récurrents convolutifs, nommée DENet. Elle repose sur une nouvelle couche, que nous appelons couche de débruitage-amélioration (DE), qui effectue le débruitage et l’amélioration du signal original en appliquant une carte d’attention aux composantes du signal filtré par bandes. Contrairement aux méthodologies de pointe actuelles, DENet prend en entrée la forme d’onde brute sans perte et est capable d’apprendre automatiquement l’évolution des fréquences d’intérêt au fil du temps, en combinant la couche proposée avec une unité récurrente à portes bidirectionnelle. Grâce aux rétroactions issues des classifications associées à des trames consécutives (c’est-à-dire appartenant au même événement), la méthode proposée permet de réduire de manière significative les erreurs de classification. Des expériences ont été menées sur les jeux de données publics MIVIA Audio Events et MIVIA Road Events, confirmant l’efficacité de notre approche par rapport aux méthodologies de pointe existantes.

DENet : une architecture profonde pour les applications de surveillance audio | Articles de recherche récents | HyperAI