HOTR: End-to-End Human-Object Interaction Detection mit Transformers

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine Aufgabe, bei der eine Menge von Interaktionen in einem Bild identifiziert werden soll, wobei zwei zentrale Komponenten beteiligt sind: i) die Lokalisierung des Subjekts (d. h. Menschen) und des Objekts der Interaktion sowie ii) die Klassifikation der Interaktionslabels. Die meisten bestehenden Ansätze behandeln diese Aufgabe indirekt, indem sie zunächst menschliche und objektive Instanzen detektieren und anschließend jeweils alle möglichen Paare dieser Instanzen separat inferieren. In diesem Artikel stellen wir einen neuartigen Ansatz vor, den wir HOTR nennen, der direkt auf Basis einer Transformer-Encoder-Decoder-Architektur eine Menge von -Tripletten aus einem Bild vorhersagt. Durch die direkte Mengenvorhersage nutzt unsere Methode effizient die inhärenten semantischen Beziehungen innerhalb eines Bildes aus und verzichtet auf zeitaufwendige Nachverarbeitungsschritte, die bei bestehenden Methoden die Hauptengpässe darstellen. Unser vorgeschlagener Algorithmus erreicht die bisher beste Leistung auf zwei gängigen HOI-Erkennungsbenchmarks mit einer Inferenzzeit von unter 1 ms nach der Objektdetektion.