Graph Convolutional Module für die zeitliche Aktionlokalisierung in Videos

Die zeitliche Lokalisierung von Aktionen ist in der Computer Vision seit langem ein zentrales Forschungsfeld. Bestehende state-of-the-art-Methoden zur Aktionenlokalisierung zerlegen jedes Video in mehrere Aktionseinheiten (d. h. Vorschläge in zweistufigen Methoden oder Segmente in einstufigen Methoden) und führen anschließend jeweils eine Aktionserkennung bzw. -Regression auf jeder Einheit separat durch, ohne explizit deren Beziehungen während des Lernprozesses auszunutzen. In diesem Artikel argumentieren wir, dass die Beziehungen zwischen Aktionseinheiten eine entscheidende Rolle bei der Aktionenlokalisierung spielen, und dass ein leistungsfähigerer Aktionendetektor nicht nur den lokalen Inhalt jeder Aktionseinheit erfassen, sondern auch einen erweiterten Blickwinkel auf den zugehörigen Kontext ermöglichen sollte. Dazu schlagen wir ein allgemeines Graph-Convolutional-Modul (GCM) vor, das nahtlos in bestehende Methoden zur Aktionenlokalisierung – sowohl zweistufige als auch einstufige Paradigmen – integriert werden kann. Konkret bauen wir zunächst einen Graphen auf, in dem jede Aktionseinheit als Knoten und die Beziehungen zwischen zwei Aktionseinheiten als Kanten repräsentiert werden. Hierbei verwenden wir zwei Arten von Beziehungen: eine zur Erfassung der zeitlichen Verbindungen zwischen unterschiedlichen Aktionseinheiten und eine zweite zur Beschreibung ihrer semantischen Beziehung. Insbesondere bei den zeitlichen Verbindungen in zweistufigen Methoden untersuchen wir zwei verschiedene Kantenarten: eine, die sich überlappende Aktionseinheiten verbindet, und eine andere, die benachbarte, aber disjunkte Einheiten verbindet. Auf dem so aufgebauten Graphen wenden wir anschließend Graphen-Convolutional-Netze (GCNs) an, um die Beziehungen zwischen den verschiedenen Aktionseinheiten zu modellieren. Dies ermöglicht die Lernung informativerer Repräsentationen, die die Aktionenlokalisierung verbessern. Experimentelle Ergebnisse zeigen, dass unser GCM die Leistung bestehender Methoden zur Aktionenlokalisierung konsistent steigert – sowohl bei zweistufigen Ansätzen (z. B. CBR und R-C3D) als auch bei einstufigen Ansätzen (z. B. D-SSAD) – und bestätigen somit die Allgemeingültigkeit und Effektivität unseres GCM.