HyperAIHyperAI
vor 16 Tagen

GEN-VLKT: Vereinfachung der Assoziation und Verbesserung des Interaktionsverstehens für HOI-Detektion

Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, Si Liu
GEN-VLKT: Vereinfachung der Assoziation und Verbesserung des Interaktionsverstehens für HOI-Detektion
Abstract

Die Aufgabe der Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) lässt sich in zwei zentrale Probleme zerlegen: die Mensch-Objekt-Zuordnung und das Verständnis von Interaktionen. In diesem Artikel untersuchen und behandeln wir die Nachteile herkömmlicher, abfragegesteuerter HOI-Detektoren aus diesen beiden Perspektiven. Bei der Zuordnung leiden herkömmliche zweigeteilte Ansätze unter komplexen und kostspieligen Nachvergleichen (post-matching), während einzigartige (single-branch) Methoden die Unterschiede in den Merkmalen verschiedener Aufgaben ignorieren. Wir stellen das Guided-Embedding Network (GEN) vor, um eine zweigeteilte Architektur ohne Nachvergleich zu erreichen. In GEN entwerfen wir einen Instanz-Decoder, um Menschen und Objekte mit zwei getrennten Abfrage-Sets zu detektieren, sowie eine positionsgesteuerte Einbettung (position Guided Embedding, p-GE), die Menschen und Objekte an derselben Position als Paar kennzeichnet. Darüber hinaus entwickeln wir einen Interaktions-Decoder zur Klassifikation von Interaktionen, wobei die Interaktionsabfragen aus den von jeder Schicht des Instanz-Decoders generierten Instanz-Guided Embeddings (i-GE) bestehen. Bei der Interaktionsverstehensfrage leiden bisherige Methoden unter einer langen Schwanzverteilung (long-tailed distribution) und der Fähigkeit zur Zero-Shot-Entdeckung. In diesem Beitrag schlagen wir eine Visual-Linguistische Wissensübertragung (Visual-Linguistic Knowledge Transfer, VLKT) vor, um das Interaktionsverstehen durch Übertragung von Wissen aus einem visuell-linguistisch vortrainierten Modell, CLIP, zu verbessern. Konkret extrahieren wir Text-Einbettungen für alle Klassen mit CLIP, um den Klassifikator zu initialisieren, und verwenden eine Mimic-Loss-Funktion, um die Distanz zwischen den visuellen Merkmalen von GEN und CLIP zu minimieren. Als Ergebnis erreicht GEN-VLKT deutlich bessere Leistungen als die aktuell besten Ansätze auf mehreren Datensätzen, beispielsweise +5,05 mAP auf HICO-Det. Der Quellcode ist unter https://github.com/YueLiao/gen-vlkt verfügbar.

GEN-VLKT: Vereinfachung der Assoziation und Verbesserung des Interaktionsverstehens für HOI-Detektion | Neueste Forschungsarbeiten | HyperAI