vor 16 Tagen

Kontrastives Merkmalsmaskieren für offene-Vokabular-Visions-Transformer

Dahun Kim, Anelia Angelova, Weicheng Kuo

Abstract

Wir präsentieren den Contrastive Feature Masking Vision Transformer (CFM-ViT) – eine Bild-Text-Vortrainingsmethode, die gleichzeitige Lernung von Bild- und Regionsebene-Repräsentationen für die Open-Vocabulary-Objektdetektion (OVD) ermöglicht. Unser Ansatz kombiniert das Masked Autoencoder (MAE)-Ziel mit dem Contrastive-Learning-Ziel, um die Repräsentation für Lokalisierungsaufgaben zu verbessern. Im Gegensatz zum herkömmlichen MAE führen wir die Rekonstruktion nicht im Pixelraum, sondern im gemeinsamen Bild-Text-Einbettungsraum durch, was dazu führt, dass das Modell semantische Informationen auf Regionsebene besser erlernt. Zudem führen wir das Positional Embedding Dropout (PED) ein, um die Skalenvariation zwischen Bild-Text-Vortraining und Detektions-Finetuning zu bewältigen, indem wir während des Vortrainings zufällig Positionseingaben ausblenden. PED verbessert die Detektionsleistung und ermöglicht die Verwendung eines gefrorenen ViT-Backbones als Regionenklassifikator, wodurch das Vergessen von Open-Vocabulary-Wissen während des Finetunings verhindert wird. Auf dem LVIS-Open-Vocabulary-Detektionsbenchmark erreicht CFM-ViT mit 33,9 AP$r$ einen state-of-the-art-Ergebnis, was die bisher beste Methode um 7,6 Punkte übertrifft und eine bessere Übertragung bei Zero-Shot-Detektion ermöglicht. Schließlich erzielt CFM-ViT starke Bild-Level-Repräsentationen und schneidet auf 8 von 12 Metriken im Zero-Shot-Bild-Text-Abfrage-Benchmark besser ab als die aktuell beste Methode.