HyperAIHyperAI
vor 3 Monaten

RLIP: Relational Language-Image Pre-training für die Erkennung von Mensch-Objekt-Interaktionen

Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang, Dong Ni, Mingqian Tang
RLIP: Relational Language-Image Pre-training für die Erkennung von Mensch-Objekt-Interaktionen
Abstract

Die Aufgabe der Erkennung mensch-objekt-Interaktionen (Human-Object Interaction, HOI) zielt auf eine fein granulare visuelle Analyse von Menschen ab, die mit ihrer Umgebung interagieren, und ermöglicht eine Vielzahl von Anwendungen. Frühere Arbeiten haben gezeigt, dass eine effektive Architekturgestaltung sowie die Integration relevanter Hinweise zur genaueren HOI-Erkennung beitragen. Die Entwicklung einer geeigneten Vortrainingsstrategie für diese Aufgabe bleibt jedoch von bestehenden Ansätzen bisher untererforscht. Um diese Lücke zu schließen, schlagen wir Relational Language-Image Pre-training (RLIP) vor – eine Strategie für kontrastives Vortrainieren, die sowohl Entitäts- als auch Beziehungsbeschreibungen nutzt. Um die Wirksamkeit dieses Vortrainings effizient auszunutzen, leisten wir drei technische Beiträge: (1) eine neue Architektur namens Parallel entity detection and Sequential relation inference (ParSe), die die gleichzeitige Nutzung von Entitäts- und Beziehungsbeschreibungen während eines ganzheitlich optimierten Vortrainings ermöglicht; (2) einen Framework zur Generierung synthetischer Daten, Label Sequence Extension, der die Menge an verfügbaren Sprachdaten innerhalb jedes Minibatches erweitert; (3) Mechanismen zur Bewältigung von Mehrdeutigkeit, nämlich Relation Quality Labels und Relation Pseudo-Labels, um den Einfluss mehrdeutiger oder verrauschter Beispiele in den Vortrainingsdaten zu reduzieren. Durch umfangreiche Experimente zeigen wir die Vorteile dieser Beiträge, die gemeinsam als RLIP-ParSe bezeichnet werden, für eine verbesserte Leistung bei Zero-shot-, Few-shot- und Fine-tuning-basierter HOI-Erkennung sowie eine erhöhte Robustheit gegenüber fehlerhaften oder verrauschten Annotationen. Der Quellcode wird unter https://github.com/JacobYuan7/RLIP verfügbar sein.