HOI-Analyse: Integration und Zerlegung von Mensch-Objekt-Interaktionen

Human-Object Interaction (HOI) besteht aus Mensch, Objekt und einer impliziten Interaktion/Verb. Im Gegensatz zu früheren Ansätzen, die Pixel direkt auf HOI-Semantik abbilden, schlagen wir einen neuen analytischen Ansatz für das Lernen von HOI vor. Analog zur harmonischen Analyse, deren Ziel darin besteht, Signale durch die Überlagerung grundlegender Wellen darzustellen, führen wir die HOI-Analyse ein. Wir argumentieren, dass kohärente HOI-Darstellungen in isolierte Menschen und Objekte zerlegt werden können. Gleichzeitig lassen sich isolierte Menschen und Objekte auch wieder zu kohärenten HOI-Strukturen integrieren. Darüber hinaus können Transformationen zwischen Menschen-Objekt-Paaren mit derselben HOI-Beziehung durch Integration und Dekomposition einfacher modelliert werden. Als Folge wird das implizite Verb im Raum der Transformationsfunktionen repräsentiert. Auf dieser Grundlage entwickeln wir ein Integration-Dekomposition-Netzwerk (Integration-Decomposition Network, IDN), um die genannten Transformationen zu realisieren und dabei führende Leistung auf etablierten HOI-Detektionsbenchmarks zu erzielen. Der Quellcode ist verfügbar unter: https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/IDN-(Integrating-Decomposing-Network).