Verständnis dynamischer Szenen mithilfe von Graph-Convolution-Netzen

Wir präsentieren einen neuartigen Framework basierend auf einem mehrfach-relationalen Graphen-Convolutional Network (MRGCN), um Verkehrsverhalten von Fahrzeugen aus einer Folge zeitlich geordneter Bilder zu modellieren, wie sie von einer sich bewegenden monokularen Kamera erfasst werden. Die Eingabe für das MRGCN ist ein mehrfach-relationaler Graph, wobei die Knoten des Graphen aktive und passive Agenten bzw. Objekte in der Szene repräsentieren und die bidirektionalen Kanten zwischen jedem Knotenpaar Kodierungen ihrer räumlich-zeitlichen Beziehungen darstellen. Wir zeigen, dass diese explizite Kodierung und Nutzung eines intermediären räumlich-zeitlichen Interaktionsgraphen für unsere Aufgaben besonders gut geeignet ist im Vergleich zur direkten, end-to-end-Lernung auf einer Menge zeitlich geordneter räumlicher Beziehungen. Außerdem schlagen wir eine Aufmerksamkeitsmechanik für MRGCNs vor, die auf der Szene dynamisch die Bedeutung von Informationen aus unterschiedlichen Interaktionstypen bewertet. Der vorgeschlagene Framework erreicht signifikante Leistungsverbesserungen gegenüber vorherigen Methoden bei der Klassifikation von Fahrzeugverhalten auf vier Datensätzen. Zudem zeigen wir eine nahtlose Übertragung des Lernens auf mehrere Datensätze, ohne dass eine Nachjustierung (Fine-tuning) erforderlich ist. Solche Verhaltensvorhersagemethoden finden unmittelbare Anwendung in einer Vielzahl von Navigationstasks, wie beispielsweise der Verhaltensplanung, der Zustandsschätzung sowie der Erkennung von Verkehrsverstößen in Videos.