HyperAIHyperAI

Command Palette

Search for a command to run...

Erkennung von Mensch-Objekt-Interaktionen mit objektgeleiteter, quermodaler kalibrierter Semantik

Hangjie Yuan Mang Wang Dong Ni Liangpeng Xu

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine zentrale Aufgabe, um menschenzentrierte Bilder aus einer feinkörnigen Perspektive zu verstehen. Obwohl end-to-end HOI-Erkennungsmodelle stark voranschreiten, verlieren ihre Architektur, die parallele Erkennung von Menschen und Objekten sowie die Vorhersage von Verben vornimmt, einen Vorteil zweistufiger Methoden: die objektgeleitete Hierarchie. Das Objekt innerhalb eines HOI-Tripels liefert direkte Hinweise auf den zuvorzusagenden Verb. In diesem Artikel zielen wir darauf ab, end-to-end-Modelle durch objektgeleitete statistische Priorwissen zu verbessern. Konkret schlagen wir vor, ein Verb-Semantik-Modell (Verb Semantic Model, VSM) zu nutzen und durch semantische Aggregation von dieser objektgeleiteten Hierarchie zu profitieren. Wir führen eine Similarity-KL-(SKL)-Verlustfunktion ein, um das VSM so zu optimieren, dass es den Priorwissen des HOI-Datensatzes entspricht. Um das Problem statischer semantischer Embeddings zu überwinden, schlagen wir vor, durch Cross-Modality-Kalibration (CMC) modality-agnostische visuelle und semantische Merkmale zu generieren. Die Kombination dieser Module bildet das objektgeleitete Cross-Modality-Kalibrationsnetzwerk (Object-guided Cross-modal Calibration Network, OCN). Experimente an zwei gängigen HOI-Erkennungsbenchmarks belegen die Bedeutung der Integration statistischer Vorwissen und erzielen Spitzenleistungen im Stand der Technik. Eine detaillierte Analyse zeigt, dass die vorgeschlagenen Module als stärkere Verb-Vorhersagekomponente und eine überlegene Methode zur Nutzung von Vorwissen fungieren. Der Quellcode ist unter \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp