HyperAIHyperAI
vor 16 Tagen

Untersuchung des prädikativen visuellen Kontexts bei der Erkennung von Mensch-Objekt-Interaktionen

Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould
Untersuchung des prädikativen visuellen Kontexts bei der Erkennung von Mensch-Objekt-Interaktionen
Abstract

Kürzlich ist der DETR-Framework als dominierender Ansatz für die Forschung zu Human-Object-Interaktionen (HOI) hervorgetreten. Insbesondere zweistufige, auf Transformers basierende HOI-Detektoren zählen zu den leistungsstärksten und trainings-effizientesten Ansätzen. Allerdings beruhen diese häufig bei der Klassifizierung von HOI-Interaktionen auf Objektmerkmalen, die feinkörnige kontextuelle Informationen vermissen und stattdessen auf visuelle Hinweise bezüglich der Objektidentität und der Box-Extremitäten setzen, wodurch Informationen zu Pose und Orientierung vernachlässigt werden. Dies beeinträchtigt naturgemäß die Erkennung komplexer oder mehrdeutiger Interaktionen. In dieser Arbeit untersuchen wir diese Probleme mittels Visualisierungen und sorgfältig gestalteter Experimente. Darauf aufbauend analysieren wir, wie Bildmerkmale am besten über Cross-Attention wieder eingeführt werden können. Durch eine verbesserte Abfragegestaltung, eine umfassende Exploration von Keys und Values sowie Box-Paar-Positionsembeddings als räumliche Orientierung erreicht unser Modell mit erweiterter Prädikat-Visuellen-Kontext (PViC) eine Überlegenheit gegenüber aktuellen State-of-the-Art-Methoden auf den Benchmarks HICO-DET und V-COCO, wobei gleichzeitig ein geringer Trainingsaufwand beibehalten wird.

Untersuchung des prädikativen visuellen Kontexts bei der Erkennung von Mensch-Objekt-Interaktionen | Neueste Forschungsarbeiten | HyperAI