Unseen No More: Die Potentiale von CLIP für generative Zero-shot HOI-Detektion erschließen

Der Zero-shot-Human-Object-Interaction (HOI)-Detektor ist in der Lage, auf HOI-Kategorien zu generalisieren, die während des Trainings nicht aufgetreten sind. Angeregt durch die beeindruckenden Zero-shot-Fähigkeiten, die CLIP bietet, bemühen sich neuere Ansätze, CLIP-Embeddings zur Verbesserung der Zero-shot-HOI-Detektion zu nutzen. Allerdings trainieren diese auf Embeddings basierende Methoden den Klassifikator ausschließlich anhand gesehener Klassen, was zwangsläufig zu einer Verwechslung zwischen gesehenen und nicht gesehenen Klassen während der Inferenz führt. Außerdem stellen wir fest, dass die Verwendung von Prompt-Tuning und Adaptern den Abstand zwischen Genauigkeit bei gesehenen und nicht gesehenen Klassen weiter vergrößert. Um diese Herausforderung zu meistern, präsentieren wir das erste generative Modell, das CLIP für die Zero-shot-HOI-Detektion nutzt, und nennen es HOIGen. Es ermöglicht, das volle Potenzial von CLIP für die Merkmalsgenerierung statt lediglich der Merkmalsextraktion auszuschöpfen. Dazu entwickeln wir einen CLIP-injizierten Merkmalsgenerator, der die Generierung von Merkmalen für Menschen, Objekte und deren Vereinigung berücksichtigt. Anschließend extrahieren wir realistische Merkmale gesehener Beispiele und mischen diese mit synthetischen Merkmalen, wodurch das Modell sowohl gesehene als auch nicht gesehene Klassen gemeinsam trainieren kann. Um die HOI-Scores zu bereichern, konstruieren wir eine generative Prototypenbank in einem paarweisen HOI-Erkennungszweig und eine Multi-Knowledge-Prototypenbank in einem bildweisen HOI-Erkennungszweig. Umfangreiche Experimente am HICO-DET-Benchmark zeigen, dass HOIGen gegenüber anderen führenden Methoden sowohl für gesehene als auch für nicht gesehene Klassen unter verschiedenen Zero-shot-Szenarien eine überlegene Leistung erzielt. Der Quellcode ist verfügbar unter: https://github.com/soberguo/HOIGen