RLIPv2: Schnelle Skalierung der relationalen Sprache-Bild-Vortrainierung

Relational Language-Image Pre-training (RLIP) zielt darauf ab, visuelle Darstellungen mit relationalen Texten zu alignen, um die Fähigkeit zur relationalen Schlussfolgerung in Aufgaben des Computersehens zu verbessern. Allerdings ist die Skalierung von RLIPv1 aufgrund der langsamen Konvergenz der RLIPv1-Architektur und der begrenzten Verfügbarkeit bestehender Szenengraph-Daten herausfordernd. In diesem Paper stellen wir RLIPv2 vor, ein schnell konvergierendes Modell, das die Skalierung relationaler Vortrainings auf großskalige, pseudobeschriftete Szenengraph-Daten ermöglicht. Um eine schnelle Skalierung zu ermöglichen, führt RLIPv2 Asymmetric Language-Image Fusion (ALIF) ein, eine Mechanik, die eine frühere und tiefere gated cross-modal-Fusion mit sparsifizierten Sprachcodierungsschichten unterstützt. ALIF erreicht vergleichbare oder bessere Leistung als RLIPv1 in einem Bruchteil der Zeit für Vortrainings- und Feintuning-Phasen. Um Szenengraph-Daten in großem Maßstab zu generieren, erweitern wir Objektdetektionsdatensätze durch freie Relationsetiketten, indem wir einen Captioner (z. B. BLIP) und einen speziell entworfenen Relation Tagger einführen. Der Relation Tagger weist den von BLIP generierten Relationstexten Regionenpaaren zu, wodurch eine größere Skala relationaler Vortrainings ermöglicht wird. Durch umfangreiche Experimente an den Aufgaben Human-Object Interaction Detection und Scene Graph Generation zeigt RLIPv2 state-of-the-art-Leistung auf drei Benchmarks unter vollständigem Feintuning, Few-Shot- und Zero-Shot-Einstellungen. Insbesondere erreicht das größte RLIPv2-Modell ohne jegliches Feintuning 23,29 mAP auf HICO-DET, 32,22 mAP mit nur 1 % der Daten und 45,09 mAP mit 100 % der Daten. Der Quellcode und die Modelle sind öffentlich unter https://github.com/JacobYuan7/RLIPv2 verfügbar.