FGAHOI: Feinabgestimmte Anchors für die Erkennung von Mensch-Objekt-Interaktionen

Human-Object Interaction (HOI), ein zentrales Problem im Bereich des Computersehens, erfordert die Lokalisierung von Mensch-Objekt-Paaren sowie die Identifizierung der zwischen ihnen bestehenden interaktiven Beziehungen. Im Vergleich zu einzelnen Objektinstanzen weist die HOI-Instanz eine größere Spannweite in räumlicher Ausdehnung, Skalierung und Aufgabenkomplexität auf, wodurch ihre Erkennung stärker von störenden Hintergründen beeinflusst wird. Um die Störwirkung von rauschhaften Hintergründen auf die HOI-Erkennung zu verringern, ist es notwendig, Informationen aus dem Eingabebild zu berücksichtigen, um feinabgestimmte Anchor-Regionen zu generieren, die dann zur Orientierung der Erkennung von HOI-Instanzen herangezogen werden. Dies ist jedoch aufgrund folgender Herausforderungen schwierig: i) Die Extraktion zentraler Merkmale aus Bildern mit komplexen Hintergründen bleibt weiterhin eine offene Frage. ii) Die semantische Ausrichtung der extrahierten Merkmale mit den Abfrage-Embeddings stellt ebenfalls ein schwerwiegendes Problem dar. In diesem Artikel wird ein neuartiger, end-to-end-transformerbasierter Rahmen (FGAHOI) vorgestellt, der diese Probleme adressiert. FGAHOI besteht aus drei spezialisierten Komponenten: Multi-Scale Sampling (MSS), Hierarchisches räumlich-orientiertes Zusammenführen (HSAM) sowie eine auf die Aufgabe abgestimmte Zusammenführungsmechanik (TAM). MSS extrahiert Merkmale von Menschen, Objekten und Interaktionsbereichen aus rauschhaften Hintergründen für HOI-Instanzen unterschiedlicher Skalen. HSAM und TAM führen die extrahierten Merkmale und Abfrage-Embeddings nacheinander auf hierarchischer räumlicher und aufgabenbezogener Ebene semantisch ausgerichtet zusammen. Gleichzeitig wurde eine neuartige Trainingsstrategie, die sogenannte „Stage-wise Training Strategy“, entwickelt, um den durch die hohe Komplexität der Aufgaben durch FGAHOI verursachten Trainingsdruck zu reduzieren. Darüber hinaus werden zwei Ansätze zur Messung der Schwierigkeit der HOI-Erkennung vorgestellt sowie ein neuer Datensatz, der HOI-SDC, für die beiden Herausforderungen der HOI-Instanzerkennung (ungleichmäßige räumliche Verteilung von Mensch-Objekt-Paaren und langstreckige visuelle Modellierung von Mensch-Objekt-Paaren) vorgeschlagen.