Bubblenet: Eine verteilte rekurrente Struktur zur Aktivitätserkennung
Diese Arbeit präsentiert einen Ansatz zur Erkennung menschlicher Aktivitäten in Videos mittels eines tiefen rekurrenten Netzwerks, das sowohl optische Flussinformationen als auch Erscheinungsbilder als Eingaben nutzt. Unser Verfahren schlägt eine neuartige Architektur namens BubbleNET vor, die auf einer rekurrenten Schicht basiert, die in mehrere Module (als „Blasen“ bezeichnet) verteilt ist, sowie einer Aufmerksamkeitsmechanik, die auf einer Squeeze-and-Excitation-Strategie beruht und dafür verantwortlich ist, den Beitrag jeder einzelnen Blase zu modulieren. Ziel ist es, Informationen aus grundsätzlich korrelierten Segmenten der Eingabedaten zu erfassen und so eine charakteristische Signaturen der jeweiligen Aktivitäten zu erzeugen. Unsere Experimente, die auf weit verbreiteten Datensätzen zur Aktivitätsklassifikation durchgeführt wurden, belegen die Existenz solcher Signaturen, was sich in Aktivierungskarten der Blasen für jede Aktivitätsklasse nachweisen lässt. Zur Bewertung und Vergleichbarkeit mit bestehenden Methoden in der Literatur wird die durchschnittliche Genauigkeit herangezogen, wobei BubbleNET auf den Datensätzen UCF-101, YUP++ und HMDB-51 Genauigkeiten von jeweils 97,62 %, 91,70 % und 82,60 % erzielt und somit in die Reihe der state-of-the-art-Methoden einordnet.