Kontextuelle Aktionshinweise aus der Kamerasensorik für die mehrströmige Aktionserkennung
In der Forschung zur Aktenerkennung werden zwei Haupttypen von Informationen verwendet: Erscheinungsbild- und Bewegungsinformationen, die aus RGB-Bildern durch visuelle Sensoren erlernt werden. Je nach Aktionsmerkmalen wird jedoch kontextuelle Information – beispielsweise die Anwesenheit spezifischer Objekte oder global geteilte Informationen im Bild – zu entscheidender Information für die Definition der Aktion. Ein Beispiel hierfür ist die Anwesenheit eines Balls, die entscheidend ist, um „Kicken“ von „Laufen“ zu unterscheiden. Darüber hinaus teilen einige Aktionen typische globale abstrakte Körperhaltungen, die als Schlüssel zur Klassifizierung dienen können. Aufgrund dieser Beobachtungen schlagen wir ein Multi-Stream-Netzwerkmodell vor, das räumliche, zeitliche und kontextuelle Hinweise im Bild zur Aktenerkennung integriert. Wir haben die vorgeschlagene Methode anhand von C3D oder des aufgeblasenen 3D-ConvNet (I3D) als Backbone-Netzwerk an zwei unterschiedlichen Datensätzen zur Aktenerkennung getestet. Insgesamt zeigte sich eine Verbesserung der Genauigkeit, was die Wirksamkeit unseres Ansatzes belegt.