HyperAIHyperAI

Command Palette

Search for a command to run...

Konsistenzlernens mittels Decoding-Path-Erweiterung für Transformers in der Mensch-Objekt-Interaktionserkennung

Jihwan Park SeungJun Lee Hwan Heo Hyeong Kyu Choi Hyunwoo J.Kim

Zusammenfassung

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine umfassende Aufgabe des visuellen Erkennungssystems, die sowohl die Objekterkennung als auch die Klassifikation von Interaktionen umfasst. Frühere Ansätze zur HOI-Erkennung basierten auf verschiedenen Zusammensetzungen von Teilvorhersagen, beispielsweise Image → HO → I oder Image → HI → O. Kürzlich sind Transformer-basierte Architekturen für HOI entstanden, die die HOI-Tripel direkt in einer end-to-end-Weise vorhersagen (Image → HOI). Ausgehend von den verschiedenen Inferenzpfaden für die HOI-Erkennung schlagen wir Cross-Path Consistency Learning (CPC) vor, eine neuartige end-to-end-Lernstrategie zur Verbesserung der HOI-Erkennung bei Transformers durch Ausnutzung erweiterter Dekodierpfade. CPC-Lernen erzwingt, dass alle möglichen Vorhersagen aus permutierten Inferenzsequenzen konsistent sind. Dieser einfache Ansatz ermöglicht es dem Modell, konsistente Repräsentationen zu lernen, wodurch die Generalisierungsfähigkeit verbessert wird, ohne die Modellkapazität zu erhöhen. Unsere Experimente belegen die Wirksamkeit unseres Ansatzes, wobei wir im Vergleich zu Baseline-Modellen eine signifikante Verbesserung sowohl auf V-COCO als auch auf HICO-DET erzielen konnten. Der Quellcode ist unter https://github.com/mlvlab/CPChoi verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Konsistenzlernens mittels Decoding-Path-Erweiterung für Transformers in der Mensch-Objekt-Interaktionserkennung | Paper | HyperAI