Effiziente zweistufige Detektion von Mensch-Objekt-Interaktionen mit einem neuartigen Unary-Pairwise Transformer

Neuere Entwicklungen bei Transformer-Modellen für visuelle Daten haben zu erheblichen Verbesserungen bei Erkennungs- und Detektionsaufgaben geführt. Insbesondere die Verwendung lernbarer Queries anstelle von Region-Vorschlägen hat eine neue Klasse einstufiger Detektionsmodelle hervorgebracht, die durch den Detection Transformer (DETR) maßgeblich vorangetrieben wurde. Varianten dieses einstufigen Ansatzes haben seither die Forschung auf dem Gebiet der Mensch-Objekt-Interaktion (Human-Object Interaction, HOI) dominiert. Der Erfolg solcher einstufiger HOI-Detektoren beruht jedoch weitgehend auf der Repräsentationskraft von Transformers. Wir stellten fest, dass zwei-stufige Varianten derselben Modelle, wenn mit demselben Transformer ausgestattet, eine höhere Leistungsfähigkeit und eine bessere Speichereffizienz aufweisen können, während sie nur einen Bruchteil der Trainingszeit benötigen. In dieser Arbeit stellen wir den Unary-Pairwise Transformer vor, einen zweistufigen Detektor, der sowohl einstellige (unary) als auch paarweise (pairwise) Repräsentationen für HOIs nutzt. Wir beobachten, dass die einstellige und die paarweise Komponente unseres Transformer-Netzwerks sich spezialisieren: Während die einstellige Komponente vorzugsweise die Scores positiver Beispiele erhöht, senkt die paarweise Komponente die Scores negativer Beispiele. Wir evaluieren unsere Methode auf den Datensätzen HICO-DET und V-COCO und erreichen dabei deutlich bessere Ergebnisse als aktuelle State-of-the-Art-Ansätze. Im Inference-Modus erreicht unser Modell mit ResNet50 auf einer einzigen GPU annähernd Echtzeitleistung.