Lernen von Mensch-Objekt-Interaktionen durch Graph-Parsing-Neuronale Netze

Dieses Papier behandelt die Aufgabe der Erkennung und Identifizierung von Mensch-Objekt-Interaktionen (HOI) in Bildern und Videos. Wir stellen das Graph Parsing Neural Network (GPNN) vor, ein Framework, das strukturelles Wissen einbezieht und gleichzeitig von Anfang bis Ende differenzierbar ist. Für eine gegebene Szene inferiert GPNN einen Parse-Graphen, der i) die HOI-Graphstruktur durch eine Adjazenzmatrix und ii) die Knotenlabels umfasst. Innerhalb eines Inferenzrahmens mit Nachrichtenaustausch berechnet GPNN iterativ die Adjazenzmatrizen und Knotenlabels. Wir evaluieren unser Modell ausführlich anhand dreier Benchmarks für die Erkennung von HOIs in Bildern und Videos: den HICO-DET-, V-COCO- und CAD-120-Datensätzen. Unser Ansatz übertrifft erheblich die Stand der Technik Methoden, was bestätigt, dass GPNN auf große Datensätze skalierbar ist und sich auf räumlich-zeitliche Szenarien anwenden lässt. Der Code ist unter https://github.com/SiyuanQi/gpnn verfügbar.