QAHOI: Abfragenbasierte Anchors für die Erkennung von Mensch-Objekt-Interaktionen

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) als nachgeschaltete Aufgabe der Objekterkennung erfordert die Lokalisierung von Mensch-Objekt-Paaren sowie die Extraktion semantischer Beziehungen zwischen Mensch und Objekt aus einem Bild. In letzter Zeit sind einstufige Ansätze aufgrund ihrer hohen Effizienz zu einem neuen Trend für diese Aufgabe geworden. Allerdings konzentrieren sich diese Ansätze hauptsächlich auf die Erkennung möglicher Interaktionspunkte oder die Filterung von Mensch-Objekt-Paaren, wobei die Variabilität der Lage und Größe verschiedener Objekte auf unterschiedlichen räumlichen Skalen vernachlässigt wird. Um dieses Problem anzugehen, schlagen wir eine transformerbasierte Methode namens QAHOI (Query-Based Anchors for Human-Object Interaction detection) vor, die eine mehrskalige Architektur nutzt, um Merkmale aus verschiedenen räumlichen Skalen zu extrahieren, und querybasierte Anchors verwendet, um alle Elemente einer HOI-Instanz vorherzusagen. Wir untersuchen zudem, dass ein leistungsfähiges Backbone die Genauigkeit von QAHOI erheblich steigert, wobei QAHOI mit einem transformerbasierten Backbone auf dem HICO-DET-Benchmark signifikante Vorteile gegenüber aktuellen State-of-the-Art-Methoden zeigt. Der Quellcode ist unter $\href{https://github.com/cjw2021/QAHOI}{\text{dieser https-URL}}$ verfügbar.