HyperAIHyperAI

Command Palette

Search for a command to run...

Auf das zu decodierende und zu trainierende Fokus legen: SOV-Decodierung mit spezifischem Ziel-gesteuerter DeNoising und Vision-Language-Advisor

Junwen Chen Yingcheng Wang Keiji Yanai

Zusammenfassung

Kürzlich vorgestellte auf Transformers basierende Ansätze erzielen erhebliche Fortschritte bei der Erkennung mensch-objekt-Interaktionen (Human-object Interaction Detection, HOID), indem sie die Objekterkennung von DETR und das Vorwissen von Vision-Language-Modellen (VLM) nutzen. Allerdings leiden diese Methoden unter verlängerten Trainingszeiten und komplexer Optimierung aufgrund der Verflechtung von Objekterkennung und HOI-Erkennung während des Decoding-Prozesses. Insbesondere leiden die Query-Embeddings, die sowohl für die Vorhersage von Klassenlabels als auch von Bounding Boxes verwendet werden, unter mehrdeutigen Darstellungen, und der Unterschied zwischen der Vorhersage von HOI-Labels und Verb-Labels wird nicht berücksichtigt. Um diese Herausforderungen zu bewältigen, stellen wir SOV-STG-VLA mit drei zentralen Komponenten vor: Subject-Object-Verb (SOV)-Decoding, spezifischzielgeleitete (STG) Denoisierung und einen Vision-Language-Advisor (VLA). Unsere SOV-Decoders entkoppeln Objekterkennung und Verb-Erkennung durch eine neuartige Interaktionsregion-Darstellung. Die STG-Denoisierungsstrategie lernt Label-Embeddings mit Hilfe von Ground-Truth-Informationen, um das Training und die Inferenz zu leiten. Unser SOV-STG erreicht eine schnelle Konvergenzgeschwindigkeit und hohe Genauigkeit und legt die Grundlage dafür, dass der VLA das Vorwissen des VLM integrieren kann. Wir führen einen Vision-Advisor-Decoder ein, der sowohl Informationen zur Interaktionsregion als auch visuelles Wissen des VLM fusioniert, sowie eine Verb-HOI-Vorhersage-Brücke, um die Lernung von Interaktionsdarstellungen zu fördern. Unser VLA verbessert SOV-STG signifikant und erreicht eine SOTA-Leistung mit nur einem Sechstel der Trainings-Epochen im Vergleich zu jüngsten SOTA-Methoden. Der Quellcode und die Modelle sind unter https://github.com/cjw2021/SOV-STG-VLA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Auf das zu decodierende und zu trainierende Fokus legen: SOV-Decodierung mit spezifischem Ziel-gesteuerter DeNoising und Vision-Language-Advisor | Paper | HyperAI