ViPLO: Vision Transformer-basierter, posebedingter Selbstschleifen-Graph für die Detektion von Mensch-Objekt-Interaktionen

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI), die die Lokalisierung und die Inferenz von Beziehungen zwischen Mensch und Objekt ermöglicht, spielt eine zentrale Rolle bei der Szenenverstehbarkeit. Obwohl zweistufige HOI-Detektoren im Training und bei der Inferenz hohe Effizienz aufweisen, erzielen sie aufgrund veralteter Backbone-Netzwerke und der Vernachlässigung des menschlichen Wahrnehmungsprozesses bei der Interaktionsklassifizierung im Vergleich zu einstufigen Methoden eine geringere Leistung. In diesem Artikel stellen wir ViPLO (Vision Transformer-based Pose-Conditioned Self-Loop Graph) vor, um diese Probleme zu lösen. Zunächst führen wir eine neuartige Merkmalsextraktionsmethode für Backbone-Netzwerke basierend auf Vision Transformers ein, die als MOA-Modul (Masking with Overlapped Area) bezeichnet wird. Das MOA-Modul nutzt den überlappenden Bereich zwischen jedem Patch und der vorgegebenen Region innerhalb der Aufmerksamkeitsfunktion, wodurch das Quantisierungsproblem bei der Verwendung von Vision Transformer-Backbones adressiert wird. Darüber hinaus entwerfen wir ein Graphenmodell mit einer posebedingten Selbstschleife, das die Kodierung der menschlichen Knoten durch lokale Merkmale der menschlichen Gelenke aktualisiert. Dadurch kann der Klassifikator sich gezielt auf bestimmte menschliche Gelenke konzentrieren, um die Art der Interaktion effektiv zu identifizieren – eine Vorgehensweise, die durch den menschlichen Wahrnehmungsprozess bei HOI motiviert ist. Insgesamt erreicht ViPLO den Stand der Technik auf zwei öffentlichen Benchmarks, wobei eine Verbesserung um +2,07 mAP auf dem HICO-DET-Datensatz erzielt wird. Der Quellcode ist unter https://github.com/Jeeseung-Park/ViPLO verfügbar.