Untersuchung eines strukturbewussten Transformers über Interaktionsvorschläge für die Erkennung von Mensch-Objekt-Interaktionen

Neuere hochleistungsstarke Techniken zur Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) wurden stark durch Transformer-basierte Objekterkennungssysteme (z. B. DETR) beeinflusst. Dennoch leiten die meisten dieser Ansätze parametrische Interaktionsabfragen direkt über eine herkömmliche Transformer-Architektur in einer einstufigen Form in eine Menge von HOI-Vorhersagen um. Dadurch bleiben reichhaltige inter- oder intra-Interaktionsstrukturen ungenutzt. In dieser Arbeit stellen wir einen neuartigen Transformer-ähnlichen HOI-Erkennungsalgorithmus vor, den sogenannten Structure-aware Transformer over Interaction Proposals (STIP), zur HOI-Erkennung. Diese Architektur zerlegt den Prozess der Vorhersage einer HOI-Menge in zwei aufeinanderfolgende Phasen: Zunächst wird eine Interaktionsvorschlagsgenerierung durchgeführt, gefolgt von der Transformation der nicht-parametrischen Interaktionsvorschläge in HOI-Vorhersagen mittels eines struktur-awareen Transformers. Der struktur-awareer Transformer erweitert die herkömmliche Transformer-Architektur durch die zusätzliche Kodierung der global semantischen Struktur zwischen Interaktionsvorschlägen sowie der lokalen räumlichen Struktur von Mensch- und Objekt-Elementen innerhalb jedes einzelnen Interaktionsvorschlags, um die HOI-Vorhersagen zu verbessern. Umfangreiche Experimente auf den Benchmarks V-COCO und HICO-DET belegen die Wirksamkeit von STIP, wobei gegenüber den aktuellen State-of-the-Art-HOI-Erkennern überlegene Ergebnisse erzielt werden. Der Quellcode ist unter \url{https://github.com/zyong812/STIP} verfügbar.