Structural-RNN: Tiefes Lernen auf räumlich-zeitlichen Graphen

Tiefe rekurrente Neuronale Netzwerkarchitekturen sind zwar bemerkenswert erfolgreich im Modellieren von Sequenzen, aber sie fehlen intuitiven hochstufigen räumlich-zeitlichen Strukturen. Viele Probleme der Computer Vision haben jedoch intrinsisch eine solche hochstufige Struktur und können davon profitieren. Räumlich-zeitliche Graphen sind ein beliebtes Werkzeug zur Einbindung solcher hochstufigen Intuitionen in die Formulierung realer Probleme. In dieser Arbeit schlagen wir einen Ansatz vor, um die Stärke hochstufiger räumlich-zeitlicher Graphen mit dem Erfolg des sequentiellen Lernens durch rekurrente Neuronale Netzwerke (RNNs) zu kombinieren. Wir entwickeln eine skalierbare Methode, um einen beliebigen räumlich-zeitlichen Graphen als reichhaltiges RNN-Mixmodell darzustellen, das feedforward, vollständig differenzierbar und gemeinsam trainierbar ist. Das vorgeschlagene Verfahren ist generisch und präzise, da es verwendet werden kann, um jeden räumlich-zeitlichen Graphen durch die Anwendung eines bestimmten Satzes gut definierter Schritte zu transformieren. Die Auswertungen des vorgeschlagenen Ansatzes anhand einer Vielzahl von Problemen, von der Modellierung menschlicher Bewegungen bis hin zu Objektinteraktionen, zeigen erhebliche Verbesserungen gegenüber dem Stand der Technik. Wir erwarten, dass diese Methode neue Ansätze zur Problemformulierung durch hochstufige räumlich-zeitliche Graphen und rekurrente Neuronale Netzwerke befähigt.