Pose-basiertes modulares Netzwerk für die Erkennung von Mensch-Objekt-Interaktionen

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine zentrale Aufgabe im Bereich der Szenenverstehens. Ziel ist es, das Tripel ⟨Subjekt, Prädikat, Objekt⟩ in einer Szene zu inferieren. In dieser Arbeit stellen wir fest, dass die menschliche Körperhaltung selbst sowie die relative räumliche Information der Körperhaltung im Verhältnis zum Zielobjekt informative Hinweise für die HOI-Erkennung liefern können. Wir stellen ein posebasiertes modulares Netzwerk (Pose-based Modular Network, PMN) vor, das sowohl absolute als auch relative räumliche Pose-Features nutzt, um die HOI-Erkennung zu verbessern und vollständig mit bestehenden Netzwerken kompatibel ist. Unser Modul besteht aus zwei Zweigen: Der eine verarbeitet zunächst unabhängig die relativen räumlichen Pose-Features jedes Gelenks. Der zweite Zweig aktualisiert die absoluten Pose-Features mittels vollständig verbundener Graphstrukturen. Die verarbeiteten Pose-Features werden anschließend einem Aktionsklassifizierer zugeführt. Zur Evaluation unseres Ansatzes integrieren wir das Modul in das aktuell fortschrittlichste Modell namens VS-GATs und erreichen erhebliche Verbesserungen auf zwei öffentlichen Benchmarks: V-COCO und HICO-DET, was die Wirksamkeit und Flexibilität unseres Ansatzes unterstreicht. Der Quellcode ist unter \url{https://github.com/birlrobotics/PMN} verfügbar.