HyperAIHyperAI
vor 3 Monaten

Steigerung der Erkennung von Mensch-Objekt-Interaktionen mit einem Text-zu-Bild-Diffusionsmodell

Jie Yang, Bingliang Li, Fengyu Yang, Ailing Zeng, Lei Zhang, Ruimao Zhang
Steigerung der Erkennung von Mensch-Objekt-Interaktionen mit einem Text-zu-Bild-Diffusionsmodell
Abstract

Diese Arbeit untersucht das Problem der derzeitigen HOI-Detektionsmethoden und stellt DiffHOI vor, einen neuartigen HOI-Detektionsansatz, der auf einem vortrainierten Text-Bild-Diffusionsmodell basiert und die Leistung des Detektors durch verbesserte Datenvielfalt und eine präzisere HOI-Repräsentation steigert. Wir zeigen, dass der interne Repräsentationsraum eines gefrorenen Text-zu-Bild-Diffusionsmodells stark mit Verb-Konzepten und deren zugehörigem Kontext korreliert. Darauf aufbauend schlagen wir eine Adapter-artige Feinabstimmungsmethode vor, um verschiedene semantische Repräsentationen aus einem gefrorenen Diffusionsmodell sowie dem CLIP-Modell zu extrahieren, um die menschlichen und objektbezogenen Repräsentationen aus einem vortrainierten Detektor zu verbessern und somit die Unsicherheit bei der Interaktionsvorhersage zu verringern. Zudem schlagen wir SynHOI vor, einen klassenbalancierten, großskaligen und hochdiversen synthetischen Datensatz, der über 140.000 HOI-Bilder mit vollständigen Tripelannotationen enthält. SynHOI wird mittels einer automatisierten und skalierbaren Pipeline erstellt, die die Erzeugung vielfältiger und hochpräziser HOI-annotierter Daten ermöglicht. SynHOI kann die Long-Tail-Problematik bestehender Datensätze effektiv abmildern und das Lernen von Interaktionsrepräsentationen fördern. Umfangreiche Experimente zeigen, dass DiffHOI sowohl bei der regulären Detektion (d.h. 41,50 mAP) als auch bei Zero-Shot-Detektion deutlich die derzeitigen State-of-the-Art-Methoden übertrifft. Darüber hinaus verbessert SynHOI die Leistung von modell- und backbone-agnostischen HOI-Detektionsansätzen, wobei insbesondere bei seltenen Klassen eine herausragende Steigerung um 11,55 % mAP erreicht wird.