HyperAIHyperAI
vor 2 Monaten

Lernen des relationalen Kontexts für die Detektion von Mensch-Objekt-Interaktionen

Sanghyun Kim; Deunsol Jung; Minsu Cho
Lernen des relationalen Kontexts für die Detektion von Mensch-Objekt-Interaktionen
Abstract

Neueste Methoden zur Erkennung von Handlungsobjektinteraktionen (HOI) basieren in der Regel auf Transformer-Architekturen mit zwei Decoderzweigen, einem für die Detektion von Mensch-Objekt-Paaren und dem anderen für die Klassifikation von Interaktionen. Solche getrennten Transformatoren können jedoch unter einem unzureichenden Kontextaustausch zwischen den Zweigen leiden und zu einem Mangel an Kontextinformationen für relationales Schließen führen, was bei der Entdeckung von HOI-Instanzen entscheidend ist. In dieser Arbeit schlagen wir das Multiplex-Relation-Netzwerk (MUREN) vor, das einen reichhaltigen Kontextaustausch zwischen drei Decoderzweigen durchführt, indem es unäre, paarweise und ternäre Beziehungen von Mensch-, Objekt- und Interaktions-Token nutzt. Die vorgeschlagene Methode lernt umfassende relationale Kontexte zur Entdeckung von HOI-Instanzen und erreicht dabei den aktuellen Stand der Technik in zwei Standard-Benchmarks für HOI-Erkennung, nämlich HICO-DET und V-COCO.

Lernen des relationalen Kontexts für die Detektion von Mensch-Objekt-Interaktionen | Neueste Forschungsarbeiten | HyperAI