vor 2 Monaten

CALIP: Null-Shot Verbesserung von CLIP durch parameterfreie Aufmerksamkeit

Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui

Abstract

Das Contrastive Language-Image Pre-training (CLIP) hat gezeigt, dass es visuelle Repräsentationen mit großer Transferfähigkeit erlernen kann, die vielversprechende Genauigkeit für die Null-Shot-Klassifikation erreichen. Um seine Downstream-Leistung weiter zu verbessern, schlagen bestehende Arbeiten zusätzliche lernfähige Module auf CLIP vor und feinjustieren diese durch Few-Shot-Trainingsdatensätze. Allerdings hemmen die entstehenden zusätzlichen Trainingskosten und Datenanforderungen die Effizienz bei der Modellbereitstellung und dem Wissenstransfer erheblich. In dieser Arbeit stellen wir eine kostenlose Erweiterungsmethode, CALIP, vor, um CLIPs Null-Shot-Leistung durch ein parameterfreies Aufmerksamkeitsmodul zu steigern. Insbesondere führen wir visuelle und textuelle Repräsentationen an, sie miteinander interagieren zu lassen und über Aufmerksamkeit informative Merkmale aus verschiedenen Modalitäten zu erkunden. Da das Vortraining die Einbettungsabstände zwischen den beiden Modalitäten weitgehend reduziert hat, entfernen wir alle lernfähigen Parameter in der Aufmerksamkeit und aktualisieren die multimodalen Merkmale bidirektional, was den gesamten Prozess parameterfrei und trainingsfrei macht. Auf diese Weise werden Bilder mit textbasierten Signalen vermischt und die textuellen Repräsentationen werden visuell gesteuert, um eine bessere adaptive Null-Shot-Ausrichtung zu ermöglichen. Wir evaluieren CALIP anhand verschiedener Benchmarks von 14 Datensätzen sowohl für die Few-Shot-Klassifikation von 2D-Bildern als auch von 3D-Punktwolken, wobei eine konsistente Steigerung der Null-Shot-Leistung im Vergleich zu CLIP festgestellt wird. Basierend darauf fügen wir in CALIPs Aufmerksamkeitsmodul eine kleine Anzahl linearer Schichten ein und überprüfen unsere Robustheit unter Few-Shot-Einstellungen, was ebenfalls eine führende Leistung im Vergleich zu existierenden Methoden erzielt. Diese umfangreichen Experimente demonstrieren die Überlegenheit unseres Ansatzes zur effizienten Steigerung der CLIP-Leistung.