vor 2 Monaten

Repräsentationslernen auf visuellen-symbolischen Graphen für die Videoanalyse

Effrosyni Mavroudi; Benjamín Béjar Haro; René Vidal

Abstract

Ereignisse in natürlichen Videos entstehen in der Regel aus räumlich-zeitlichen Interaktionen zwischen Akteuren und Objekten und beinhalten mehrere gleichzeitig auftretende Aktivitäten und Objektklassen. Um diesen reichen visuellen und semantischen Kontext zu erfassen, schlagen wir die Verwendung von zwei Graphen vor: (1) einem attributierten räumlich-zeitlichen visuellen Graphen, dessen Knoten Akteuren und Objekten entsprechen und dessen Kanten verschiedene Arten von Interaktionen kodieren, sowie (2) einem symbolischen Graphen, der semantische Beziehungen modelliert. Wir schlagen zudem ein Graph-Neuronales Netzwerk (Graph Neural Network) vor, das die Darstellungen von Akteuren, Objekten und deren Interaktionen auf dem resultierenden hybriden Graph verfeinert. Unser Modell geht über aktuelle Ansätze hinaus, die davon ausgehen, dass Knoten und Kanten des gleichen Typs sind, auf Graphen mit festgelegten Kantengewichten operieren und keinen symbolischen Graph verwenden. Insbesondere zeichnet sich unser Framework durch folgende Merkmale aus: a) es verfügt über spezialisierte aufmerksamkeitsbasierte Nachrichtenfunktionen für verschiedene Knoten- und Kantentypen; b) es nutzt visuelle Kanteneigenschaften; c) es integriert visuelle Beweise mit Beziehungen zwischen Labels; und d) es führt globales Schließen im semantischen Raum durch. Experimente anhand anspruchsvoller Video-Verständnis-Aufgaben, wie der zeitlichen Lokalisierung von Aktionen im Charades-Datensatz, zeigen, dass die vorgeschlagene Methode zu einer Stand-des-Wissens-Leistung führt.