Auf das zu decodierende und zu trainierende Fokus legen: SOV-Decodierung mit spezifischem Ziel-gesteuerter DeNoising und Vision-Language-Advisor

Kürzlich vorgestellte auf Transformers basierende Ansätze erzielen erhebliche Fortschritte bei der Erkennung mensch-objekt-Interaktionen (Human-object Interaction Detection, HOID), indem sie die Objekterkennung von DETR und das Vorwissen von Vision-Language-Modellen (VLM) nutzen. Allerdings leiden diese Methoden unter verlängerten Trainingszeiten und komplexer Optimierung aufgrund der Verflechtung von Objekterkennung und HOI-Erkennung während des Decoding-Prozesses. Insbesondere leiden die Query-Embeddings, die sowohl für die Vorhersage von Klassenlabels als auch von Bounding Boxes verwendet werden, unter mehrdeutigen Darstellungen, und der Unterschied zwischen der Vorhersage von HOI-Labels und Verb-Labels wird nicht berücksichtigt. Um diese Herausforderungen zu bewältigen, stellen wir SOV-STG-VLA mit drei zentralen Komponenten vor: Subject-Object-Verb (SOV)-Decoding, spezifischzielgeleitete (STG) Denoisierung und einen Vision-Language-Advisor (VLA). Unsere SOV-Decoders entkoppeln Objekterkennung und Verb-Erkennung durch eine neuartige Interaktionsregion-Darstellung. Die STG-Denoisierungsstrategie lernt Label-Embeddings mit Hilfe von Ground-Truth-Informationen, um das Training und die Inferenz zu leiten. Unser SOV-STG erreicht eine schnelle Konvergenzgeschwindigkeit und hohe Genauigkeit und legt die Grundlage dafür, dass der VLA das Vorwissen des VLM integrieren kann. Wir führen einen Vision-Advisor-Decoder ein, der sowohl Informationen zur Interaktionsregion als auch visuelles Wissen des VLM fusioniert, sowie eine Verb-HOI-Vorhersage-Brücke, um die Lernung von Interaktionsdarstellungen zu fördern. Unser VLA verbessert SOV-STG signifikant und erreicht eine SOTA-Leistung mit nur einem Sechstel der Trainings-Epochen im Vergleich zu jüngsten SOTA-Methoden. Der Quellcode und die Modelle sind unter https://github.com/cjw2021/SOV-STG-VLA verfügbar.