HyperAIHyperAI

Command Palette

Search for a command to run...

Unseen No More: Die Potentiale von CLIP für generative Zero-shot HOI-Detektion erschließen

Yixin Guo Yu Liu Jianghao Li Weimin Wang Qi Jia

Zusammenfassung

Der Zero-shot-Human-Object-Interaction (HOI)-Detektor ist in der Lage, auf HOI-Kategorien zu generalisieren, die während des Trainings nicht aufgetreten sind. Angeregt durch die beeindruckenden Zero-shot-Fähigkeiten, die CLIP bietet, bemühen sich neuere Ansätze, CLIP-Embeddings zur Verbesserung der Zero-shot-HOI-Detektion zu nutzen. Allerdings trainieren diese auf Embeddings basierende Methoden den Klassifikator ausschließlich anhand gesehener Klassen, was zwangsläufig zu einer Verwechslung zwischen gesehenen und nicht gesehenen Klassen während der Inferenz führt. Außerdem stellen wir fest, dass die Verwendung von Prompt-Tuning und Adaptern den Abstand zwischen Genauigkeit bei gesehenen und nicht gesehenen Klassen weiter vergrößert. Um diese Herausforderung zu meistern, präsentieren wir das erste generative Modell, das CLIP für die Zero-shot-HOI-Detektion nutzt, und nennen es HOIGen. Es ermöglicht, das volle Potenzial von CLIP für die Merkmalsgenerierung statt lediglich der Merkmalsextraktion auszuschöpfen. Dazu entwickeln wir einen CLIP-injizierten Merkmalsgenerator, der die Generierung von Merkmalen für Menschen, Objekte und deren Vereinigung berücksichtigt. Anschließend extrahieren wir realistische Merkmale gesehener Beispiele und mischen diese mit synthetischen Merkmalen, wodurch das Modell sowohl gesehene als auch nicht gesehene Klassen gemeinsam trainieren kann. Um die HOI-Scores zu bereichern, konstruieren wir eine generative Prototypenbank in einem paarweisen HOI-Erkennungszweig und eine Multi-Knowledge-Prototypenbank in einem bildweisen HOI-Erkennungszweig. Umfangreiche Experimente am HICO-DET-Benchmark zeigen, dass HOIGen gegenüber anderen führenden Methoden sowohl für gesehene als auch für nicht gesehene Klassen unter verschiedenen Zero-shot-Szenarien eine überlegene Leistung erzielt. Der Quellcode ist verfügbar unter: https://github.com/soberguo/HOIGen


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp