HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuchung des prädikativen visuellen Kontexts bei der Erkennung von Mensch-Objekt-Interaktionen

Frederic Z. Zhang Yuhui Yuan Dylan Campbell Zhuoyao Zhong Stephen Gould

Zusammenfassung

Kürzlich ist der DETR-Framework als dominierender Ansatz für die Forschung zu Human-Object-Interaktionen (HOI) hervorgetreten. Insbesondere zweistufige, auf Transformers basierende HOI-Detektoren zählen zu den leistungsstärksten und trainings-effizientesten Ansätzen. Allerdings beruhen diese häufig bei der Klassifizierung von HOI-Interaktionen auf Objektmerkmalen, die feinkörnige kontextuelle Informationen vermissen und stattdessen auf visuelle Hinweise bezüglich der Objektidentität und der Box-Extremitäten setzen, wodurch Informationen zu Pose und Orientierung vernachlässigt werden. Dies beeinträchtigt naturgemäß die Erkennung komplexer oder mehrdeutiger Interaktionen. In dieser Arbeit untersuchen wir diese Probleme mittels Visualisierungen und sorgfältig gestalteter Experimente. Darauf aufbauend analysieren wir, wie Bildmerkmale am besten über Cross-Attention wieder eingeführt werden können. Durch eine verbesserte Abfragegestaltung, eine umfassende Exploration von Keys und Values sowie Box-Paar-Positionsembeddings als räumliche Orientierung erreicht unser Modell mit erweiterter Prädikat-Visuellen-Kontext (PViC) eine Überlegenheit gegenüber aktuellen State-of-the-Art-Methoden auf den Benchmarks HICO-DET und V-COCO, wobei gleichzeitig ein geringer Trainingsaufwand beibehalten wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp