ConsNet: Lernen eines Konsistenzgraphen für die Zero-Shot-Entdeckung menschlicher Objektinteraktionen

Wir betrachten das Problem der Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI), das darauf abzielt, HOI-Instanzen in Form von ⟨Mensch, Aktion, Objekt⟩ in Bildern zu lokalisieren und zu erkennen. Die meisten bestehenden Ansätze behandeln HOIs als einzelne Interaktionskategorien, wodurch sie das Problem der langen Schwanzverteilung und der Polysemie von Aktionsbezeichnungen nicht bewältigen können. Wir argumentieren, dass mehrstufige Konsistenzen zwischen Objekten, Aktionen und Interaktionen starke Hinweise für die Generierung semantischer Darstellungen seltener oder bisher nicht gesehener HOIs darstellen. Ausnutzend die zusammensetzenden und relationalen Besonderheiten von HOI-Bezeichnungen schlagen wir ConsNet vor, einen wissensbasierten Rahmen, der explizit die Beziehungen zwischen Objekten, Aktionen und Interaktionen in einem ungerichteten Graphen – dem Konsistenzgraphen – kodiert und Graph Attention Networks (GATs) nutzt, um Wissen zwischen HOI-Kategorien sowie ihren Bestandteilen zu propagieren. Unser Modell nimmt visuelle Merkmale von potenziellen Mensch-Objekt-Paaren und Wort-Embeddings von HOI-Bezeichnungen als Eingaben, projiziert sie in einen gemeinsamen visuell-semantischen Embedding-Raum und erzielt Detektionsergebnisse durch Messung ihrer Ähnlichkeit. Wir evaluieren unser Modell umfassend auf den anspruchsvollen Datensätzen V-COCO und HICO-DET, wobei die Ergebnisse bestätigen, dass unser Ansatz sowohl im vollständig überwachten als auch im Zero-Shot-Szenario die bisherigen State-of-the-Art-Methoden übertrifft. Der Quellcode ist unter https://github.com/yeliudev/ConsNet verfügbar.