HyperAIHyperAI
vor 11 Tagen

Konsistenzlernens mittels Decoding-Path-Erweiterung für Transformers in der Mensch-Objekt-Interaktionserkennung

Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim
Konsistenzlernens mittels Decoding-Path-Erweiterung für Transformers in der Mensch-Objekt-Interaktionserkennung
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist eine umfassende Aufgabe des visuellen Erkennungssystems, die sowohl die Objekterkennung als auch die Klassifikation von Interaktionen umfasst. Frühere Ansätze zur HOI-Erkennung basierten auf verschiedenen Zusammensetzungen von Teilvorhersagen, beispielsweise Image → HO → I oder Image → HI → O. Kürzlich sind Transformer-basierte Architekturen für HOI entstanden, die die HOI-Tripel direkt in einer end-to-end-Weise vorhersagen (Image → HOI). Ausgehend von den verschiedenen Inferenzpfaden für die HOI-Erkennung schlagen wir Cross-Path Consistency Learning (CPC) vor, eine neuartige end-to-end-Lernstrategie zur Verbesserung der HOI-Erkennung bei Transformers durch Ausnutzung erweiterter Dekodierpfade. CPC-Lernen erzwingt, dass alle möglichen Vorhersagen aus permutierten Inferenzsequenzen konsistent sind. Dieser einfache Ansatz ermöglicht es dem Modell, konsistente Repräsentationen zu lernen, wodurch die Generalisierungsfähigkeit verbessert wird, ohne die Modellkapazität zu erhöhen. Unsere Experimente belegen die Wirksamkeit unseres Ansatzes, wobei wir im Vergleich zu Baseline-Modellen eine signifikante Verbesserung sowohl auf V-COCO als auch auf HICO-DET erzielen konnten. Der Quellcode ist unter https://github.com/mlvlab/CPChoi verfügbar.

Konsistenzlernens mittels Decoding-Path-Erweiterung für Transformers in der Mensch-Objekt-Interaktionserkennung | Neueste Forschungsarbeiten | HyperAI