Erkennung von Mensch-Objekt-Interaktionen mit objektgeleiteter, quermodaler kalibrierter Semantik

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine zentrale Aufgabe, um menschenzentrierte Bilder aus einer feinkörnigen Perspektive zu verstehen. Obwohl end-to-end HOI-Erkennungsmodelle stark voranschreiten, verlieren ihre Architektur, die parallele Erkennung von Menschen und Objekten sowie die Vorhersage von Verben vornimmt, einen Vorteil zweistufiger Methoden: die objektgeleitete Hierarchie. Das Objekt innerhalb eines HOI-Tripels liefert direkte Hinweise auf den zuvorzusagenden Verb. In diesem Artikel zielen wir darauf ab, end-to-end-Modelle durch objektgeleitete statistische Priorwissen zu verbessern. Konkret schlagen wir vor, ein Verb-Semantik-Modell (Verb Semantic Model, VSM) zu nutzen und durch semantische Aggregation von dieser objektgeleiteten Hierarchie zu profitieren. Wir führen eine Similarity-KL-(SKL)-Verlustfunktion ein, um das VSM so zu optimieren, dass es den Priorwissen des HOI-Datensatzes entspricht. Um das Problem statischer semantischer Embeddings zu überwinden, schlagen wir vor, durch Cross-Modality-Kalibration (CMC) modality-agnostische visuelle und semantische Merkmale zu generieren. Die Kombination dieser Module bildet das objektgeleitete Cross-Modality-Kalibrationsnetzwerk (Object-guided Cross-modal Calibration Network, OCN). Experimente an zwei gängigen HOI-Erkennungsbenchmarks belegen die Bedeutung der Integration statistischer Vorwissen und erzielen Spitzenleistungen im Stand der Technik. Eine detaillierte Analyse zeigt, dass die vorgeschlagenen Module als stärkere Verb-Vorhersagekomponente und eine überlegene Methode zur Nutzung von Vorwissen fungieren. Der Quellcode ist unter \url{https://github.com/JacobYuan7/OCN-HOI-Benchmark} verfügbar.