HyperAIHyperAI

Command Palette

Search for a command to run...

GEN-VLKT: Vereinfachung der Assoziation und Verbesserung des Interaktionsverstehens für HOI-Detektion

Yue Liao Aixi Zhang Miao Lu Yongliang Wang Xiaobo Li Si Liu

Zusammenfassung

Die Aufgabe der Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) lässt sich in zwei zentrale Probleme zerlegen: die Mensch-Objekt-Zuordnung und das Verständnis von Interaktionen. In diesem Artikel untersuchen und behandeln wir die Nachteile herkömmlicher, abfragegesteuerter HOI-Detektoren aus diesen beiden Perspektiven. Bei der Zuordnung leiden herkömmliche zweigeteilte Ansätze unter komplexen und kostspieligen Nachvergleichen (post-matching), während einzigartige (single-branch) Methoden die Unterschiede in den Merkmalen verschiedener Aufgaben ignorieren. Wir stellen das Guided-Embedding Network (GEN) vor, um eine zweigeteilte Architektur ohne Nachvergleich zu erreichen. In GEN entwerfen wir einen Instanz-Decoder, um Menschen und Objekte mit zwei getrennten Abfrage-Sets zu detektieren, sowie eine positionsgesteuerte Einbettung (position Guided Embedding, p-GE), die Menschen und Objekte an derselben Position als Paar kennzeichnet. Darüber hinaus entwickeln wir einen Interaktions-Decoder zur Klassifikation von Interaktionen, wobei die Interaktionsabfragen aus den von jeder Schicht des Instanz-Decoders generierten Instanz-Guided Embeddings (i-GE) bestehen. Bei der Interaktionsverstehensfrage leiden bisherige Methoden unter einer langen Schwanzverteilung (long-tailed distribution) und der Fähigkeit zur Zero-Shot-Entdeckung. In diesem Beitrag schlagen wir eine Visual-Linguistische Wissensübertragung (Visual-Linguistic Knowledge Transfer, VLKT) vor, um das Interaktionsverstehen durch Übertragung von Wissen aus einem visuell-linguistisch vortrainierten Modell, CLIP, zu verbessern. Konkret extrahieren wir Text-Einbettungen für alle Klassen mit CLIP, um den Klassifikator zu initialisieren, und verwenden eine Mimic-Loss-Funktion, um die Distanz zwischen den visuellen Merkmalen von GEN und CLIP zu minimieren. Als Ergebnis erreicht GEN-VLKT deutlich bessere Leistungen als die aktuell besten Ansätze auf mehreren Datensätzen, beispielsweise +5,05 mAP auf HICO-Det. Der Quellcode ist unter https://github.com/YueLiao/gen-vlkt verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp