DENet: Eine tiefe Architektur für Anwendungen der Audioüberwachung
In den letzten Jahren hat sowohl die wissenschaftliche Gemeinschaft als auch der Markt ein großes Interesse an der Entwicklung von Audiosurveillance-Systemen gezeigt, die in der Lage sind, Audiostreams zu analysieren und interessante Ereignisse zu identifizieren. Dies gilt insbesondere für Sicherheitsanwendungen, in denen Audio-Analytik als Alternative zu Video-Analytik-Systemen profitabel eingesetzt werden kann, aber auch in Kombination mit diesen. In diesem Kontext stellen wir in diesem Artikel eine neuartige rekurrente konvolutionelle Neuronale Netzwerk-Architektur namens DENet vor. Sie basiert auf einer neuen Schicht, die wir „Denoising-Enhancement (DE)“-Schicht nennen, welche die Rauschunterdrückung und Verbesserung des ursprünglichen Signals durch Anwendung einer Aufmerksamkeitskarte auf die Komponenten des bandfilterierten Signals durchführt. Im Gegensatz zu aktuellen State-of-the-Art-Methoden verarbeitet DENet die verlustfreie Rohwellenform als Eingabe und ist in der Lage, die zeitliche Entwicklung der interessierenden Frequenzen automatisch zu lernen, indem die vorgeschlagene Schicht mit einer bidirektionalen gateten rekurrenten Einheit kombiniert wird. Durch die Nutzung von Rückmeldungen aus der Klassifikation aufeinanderfolgender Frames (d. h. Frames, die zum selben Ereignis gehören), ist die vorgeschlagene Methode in der Lage, Fehlklassifikationen erheblich zu reduzieren. Wir haben Experimente an den öffentlichen Datensätzen MIVIA Audio Events und MIVIA Road Events durchgeführt und bestätigen damit die Wirksamkeit unseres Ansatzes gegenüber anderen State-of-the-Art-Methoden.