Visuelles Kompositionelles Lernen für die Detektion von Mensch-Objekt-Interaktionen

Die Erkennung von Mensch-Objekt-Interaktionen (HOI) hat das Ziel, Beziehungen zwischen Menschen und Objekten in einem Bild zu lokalisieren und zu inferieren. Dies ist eine Herausforderung, da eine enorme Anzahl möglicher Kombinationen von Objekten und Verbenarten eine langschwänzige Verteilung bildet. Wir entwickeln ein tiefes visuelles kompositionelles Lernverfahren (VCL), welches ein einfaches, aber effizientes Framework darstellt, um dieses Problem effektiv anzugehen. Das VCL zerlegt zunächst eine HOI-Darstellung in objektspezifische und verbspesifische Merkmale und kombiniert dann neue Interaktionsbeispiele im Merkmalsraum durch das Zusammensetzen der zerlegten Merkmale. Die Integration von Zerlegung und Komposition ermöglicht es dem VCL, objektspezifische und verbspesifische Merkmale unter verschiedenen HOI-Beispielen und Bildern zu teilen sowie neue Interaktionsbeispiele und neue Arten von HOI zu generieren. Dadurch wird das Problem der langschwänzigen Verteilung erheblich gelindert, was die Generalisierung bei der Erkennung von HOI mit wenigen oder gar keinen Trainingsdaten verbessert. Umfangreiche Experimente zeigen, dass das vorgeschlagene VCL die Generalisierungsfähigkeit der HOI-Erkennung auf HICO-DET und V-COCO effektiv verbessern kann und die neuesten Stand-of-the-Art-Methoden auf HICO-DET übertrifft. Der Quellcode ist unter https://github.com/zhihou7/VCL verfügbar.