HyperAIHyperAI
vor 3 Monaten

HOICLIP: Effizienter Wissenstransfer für HOI-Detektion mit Vision-Sprache-Modellen

Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He
HOICLIP: Effizienter Wissenstransfer für HOI-Detektion mit Vision-Sprache-Modellen
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) zielt darauf ab, Mensch-Objekt-Paare zu lokalisieren und ihre Interaktionen zu erkennen. In jüngster Zeit hat die Contrastive Language-Image Pre-training (CLIP)-Basis eine große Potenzial bei der Bereitstellung von Interaktionsvorwissen für HOI-Detektoren durch Wissensdistillation gezeigt. Allerdings beruhen solche Ansätze häufig auf großskaligen Trainingsdaten und leiden unter schlechter Leistung in Few-/Zero-Shot-Szenarien. In diesem Artikel präsentieren wir einen neuartigen HOI-Erkennungsrahmen, der effizient Vorwissen aus CLIP extrahiert und eine bessere Generalisierung erreicht. Genauer gesagt führen wir zunächst einen neuartigen Interaktionsdecoder ein, der informative Regionen in der visuellen Merkmalskarte von CLIP mittels eines Cross-Attention-Mechanismus extrahiert. Diese werden anschließend über eine Wissensintegrationseinheit mit dem Detektionsbackbone verschmolzen, um eine präzisere Erkennung von Mensch-Objekt-Paaren zu ermöglichen. Zudem nutzen wir Vorwissen aus dem Textencoder von CLIP, um einen Klassifikator durch Einbetten von HOI-Beschreibungen zu generieren. Um fein abgestimmte Interaktionen unterscheiden zu können, erstellen wir einen Verb-Klassifikator auf Basis von Trainingsdaten mittels visueller semantischer Arithmetik und einem leichtgewichtigen Verb-Repräsentationsadapter. Darüber hinaus schlagen wir eine trainingsfreie Verbesserung vor, um globale HOI-Vorhersagen von CLIP auszunutzen. Umfangreiche Experimente zeigen, dass unsere Methode den Stand der Technik erheblich übertrifft, beispielsweise um +4,04 mAP auf HICO-Det. Der Quellcode ist unter https://github.com/Artanic30/HOICLIP verfügbar.