Command Palette
Search for a command to run...
End-to-End-Mensch-Objekt-Interaktionserkennung mit HOI Transformer
End-to-End-Mensch-Objekt-Interaktionserkennung mit HOI Transformer
Zusammenfassung
Wir stellen den HOI Transformer vor, um die Erkennung mensch-objekt-Interaktionen (HOI) auf eine end-to-end-Weise zu bewältigen. Aktuelle Ansätze entkoppeln die HOI-Aufgabe entweder in getrennte Stadien der Objekterkennung und Interaktionsklassifikation oder führen eine Ersatz-Interaktionsaufgabe ein. Im Gegensatz dazu vereinfacht unsere Methode, der HOI Transformer, die HOI-Pipeline, indem sie die Notwendigkeit vieler handkodierter Komponenten eliminiert. Der HOI Transformer schließt aus dem globalen Bildkontext auf die Beziehungen zwischen Menschen und Objekten und prognostiziert HOI-Instanzen direkt und parallel. Ein Quintupel-Matching-Verlust wird eingeführt, um die HOI-Vorhersagen einheitlich zu erzwingen. Unser Ansatz ist konzeptionell deutlich einfacher und zeigt eine verbesserte Genauigkeit. Ohne zusätzliche Hilfsmittel erreicht der HOI Transformer eine AP von 26,61% auf HICO-DET und 52,9% AProle auf V-COCO, wobei er frühere Methoden übertrifft, wobei er zudem eine viel einfachere Architektur aufweist. Wir hoffen, dass unser Ansatz als eine einfache und effektive Alternative für HOI-Aufgaben dienen wird. Der Quellcode ist verfügbar unter https://github.com/bbepoch/HoiTransformer.