vor 2 Monaten

QPIC: Abfragebasierte paarweise Interaktionsdetektion zwischen Mensch und Objekt unter Verwendung von bildweiten kontextuellen Informationen

Tamura, Masato ; Ohashi, Hiroki ; Yoshinaga, Tomoaki

Abstract

Wir schlagen eine einfache, intuitive und dennoch leistungsfähige Methode zur Erkennung von Mensch-Objekt-Interaktionen (HOI) vor. HOIs sind in einem Bild räumlich so vielfältig verteilt, dass bestehende CNN-basierte Methoden den folgenden drei Hauptnachteilen gegenüberstehen: Sie können aufgrund der Lokalität von CNNs keine bildweiten Merkmale nutzen, sie basieren auf manuell definierten Interessengebieten für die Merkmalsextraktion, die manchmal kontextuell wichtige Bereiche nicht abdecken, und sie vermischen unvermeidlich die Merkmale mehrerer HOI-Instanzen, wenn diese dicht beieinander liegen.Um diese Nachteile zu überwinden, schlagen wir einen transformerbasierten Merkmalsextraktor vor, bei dem ein Aufmerksamkeitsmechanismus und eine abfragebasierte Erkennung die entscheidenden Rollen spielen. Der Aufmerksamkeitsmechanismus ist effektiv dabei, kontextuell wichtige Informationen bildweit zu aggregieren, während die Abfragen, die wir so gestalten, dass jede Abfrage höchstens ein Mensch-Objekt-Paar erfasst, das Vermischen von Merkmalen aus mehreren Instanzen verhindern können. Dieser transformerbasierte Merkmalsextraktor erzeugt solch effektive Einbettungen (Embeddings), dass die nachfolgenden Detektionsköpfe relativ einfach und intuitiv sein können. Eine umfangreiche Analyse zeigt, dass die vorgeschlagene Methode erfolgreich kontextuell wichtige Merkmale extrahiert und daher bestehende Methoden um deutliche Margen übertrifft (5.37 mAP auf HICO-DET und 5.7 mAP auf V-COCO). Die Quellcodes sind unter $\href{https://github.com/hitachi-rd-cv/qpic}{\text{dieser URL}}$ verfügbar.