HyperAIHyperAI

Command Palette

Search for a command to run...

HOTR: End-to-End Human-Object Interaction Detection mit Transformers

Bumsoo Kim Junhyun Lee Jaewoo Kang Eun-Sol Kim Hyunwoo J. Kim

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine Aufgabe, bei der eine Menge von Interaktionen in einem Bild identifiziert werden soll, wobei zwei zentrale Komponenten beteiligt sind: i) die Lokalisierung des Subjekts (d. h. Menschen) und des Objekts der Interaktion sowie ii) die Klassifikation der Interaktionslabels. Die meisten bestehenden Ansätze behandeln diese Aufgabe indirekt, indem sie zunächst menschliche und objektive Instanzen detektieren und anschließend jeweils alle möglichen Paare dieser Instanzen separat inferieren. In diesem Artikel stellen wir einen neuartigen Ansatz vor, den wir HOTR nennen, der direkt auf Basis einer Transformer-Encoder-Decoder-Architektur eine Menge von -Tripletten aus einem Bild vorhersagt. Durch die direkte Mengenvorhersage nutzt unsere Methode effizient die inhärenten semantischen Beziehungen innerhalb eines Bildes aus und verzichtet auf zeitaufwendige Nachverarbeitungsschritte, die bei bestehenden Methoden die Hauptengpässe darstellen. Unser vorgeschlagener Algorithmus erreicht die bisher beste Leistung auf zwei gängigen HOI-Erkennungsbenchmarks mit einer Inferenzzeit von unter 1 ms nach der Objektdetektion.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HOTR: End-to-End Human-Object Interaction Detection mit Transformers | Paper | HyperAI