HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastives Merkmalsmaskieren für offene-Vokabular-Visions-Transformer

Dahun Kim Anelia Angelova Weicheng Kuo

Zusammenfassung

Wir präsentieren den Contrastive Feature Masking Vision Transformer (CFM-ViT) – eine Bild-Text-Vortrainingsmethode, die gleichzeitige Lernung von Bild- und Regionsebene-Repräsentationen für die Open-Vocabulary-Objektdetektion (OVD) ermöglicht. Unser Ansatz kombiniert das Masked Autoencoder (MAE)-Ziel mit dem Contrastive-Learning-Ziel, um die Repräsentation für Lokalisierungsaufgaben zu verbessern. Im Gegensatz zum herkömmlichen MAE führen wir die Rekonstruktion nicht im Pixelraum, sondern im gemeinsamen Bild-Text-Einbettungsraum durch, was dazu führt, dass das Modell semantische Informationen auf Regionsebene besser erlernt. Zudem führen wir das Positional Embedding Dropout (PED) ein, um die Skalenvariation zwischen Bild-Text-Vortraining und Detektions-Finetuning zu bewältigen, indem wir während des Vortrainings zufällig Positionseingaben ausblenden. PED verbessert die Detektionsleistung und ermöglicht die Verwendung eines gefrorenen ViT-Backbones als Regionenklassifikator, wodurch das Vergessen von Open-Vocabulary-Wissen während des Finetunings verhindert wird. Auf dem LVIS-Open-Vocabulary-Detektionsbenchmark erreicht CFM-ViT mit 33,9 APrrr einen state-of-the-art-Ergebnis, was die bisher beste Methode um 7,6 Punkte übertrifft und eine bessere Übertragung bei Zero-Shot-Detektion ermöglicht. Schließlich erzielt CFM-ViT starke Bild-Level-Repräsentationen und schneidet auf 8 von 12 Metriken im Zero-Shot-Bild-Text-Abfrage-Benchmark besser ab als die aktuell beste Methode.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kontrastives Merkmalsmaskieren für offene-Vokabular-Visions-Transformer | Paper | HyperAI