Blick und Blickrichtung: Ableitung von handlungsaware Punkten für die einstufige Erkennung von Mensch-Objekt-Interaktionen

Moderne Ansätze zur mensch-objekt-Interaktion (HOI) Detektion lassen sich in einstufige und zweistufige Methoden einteilen. Einstufige Modelle sind aufgrund ihrer einfachen Architektur effizienter, während zweistufige Ansätze weiterhin Vorteile hinsichtlich der Genauigkeit aufweisen. Bestehende einstufige Modelle beginnen typischerweise mit der Detektion vordefinierter Interaktionsbereiche oder -punkte und konzentrieren sich anschließend ausschließlich auf diese Bereiche für die Interaktionsvorhersage; dadurch fehlen ihnen jedoch Schlussfolgerungsschritte, die dynamisch nach diskriminativen Merkmalen suchen. In diesem Artikel stellen wir eine neuartige einstufige Methode vor, die sogenannte Glance and Gaze Network (GGNet), die adaptiv eine Menge von aktionsbewussten Punkten (ActPoints) über zwei Schritte – Glance und Gaze – modelliert. In der Glance-Schritt wird schnell entschieden, ob jeder Pixel in den Feature-Maps ein Interaktionspunkt ist. Im anschließenden Gaze-Schritt nutzt das Modell die von der Glance-Schritt erzeugten Feature-Maps, um progressiv AktPoints in der Nähe jedes Pixels adaptiv abzuleiten. Die Merkmale der verfeinerten ActPoints werden anschließend aggregiert, um die Interaktion vorherzusagen. Zudem entwickeln wir einen aktionsbewussten Ansatz, der jede detektierte Interaktion effizient mit ihrem zugehörigen Menschen-Objekt-Paar verbindet, sowie eine neuartige hard-negative attentive Loss-Funktion zur Verbesserung der Optimierung von GGNet. Alle oben genannten Operationen werden gleichzeitig und effizient für alle Pixel in den Feature-Maps durchgeführt. Schließlich übertrifft GGNet state-of-the-art Methoden auf beiden Benchmarks V-COCO und HICODET deutlich. Der Quellcode von GGNet ist unter https://github.com/SherlockHolmes221/GGNet verfügbar.