HyperAIHyperAI

Command Palette

Search for a command to run...

CALIP: Null-Shot Verbesserung von CLIP durch parameterfreie Aufmerksamkeit

Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui

Zusammenfassung

Das Contrastive Language-Image Pre-training (CLIP) hat gezeigt, dass es visuelle Repräsentationen mit großer Transferfähigkeit erlernen kann, die vielversprechende Genauigkeit für die Null-Shot-Klassifikation erreichen. Um seine Downstream-Leistung weiter zu verbessern, schlagen bestehende Arbeiten zusätzliche lernfähige Module auf CLIP vor und feinjustieren diese durch Few-Shot-Trainingsdatensätze. Allerdings hemmen die entstehenden zusätzlichen Trainingskosten und Datenanforderungen die Effizienz bei der Modellbereitstellung und dem Wissenstransfer erheblich. In dieser Arbeit stellen wir eine kostenlose Erweiterungsmethode, CALIP, vor, um CLIPs Null-Shot-Leistung durch ein parameterfreies Aufmerksamkeitsmodul zu steigern. Insbesondere führen wir visuelle und textuelle Repräsentationen an, sie miteinander interagieren zu lassen und über Aufmerksamkeit informative Merkmale aus verschiedenen Modalitäten zu erkunden. Da das Vortraining die Einbettungsabstände zwischen den beiden Modalitäten weitgehend reduziert hat, entfernen wir alle lernfähigen Parameter in der Aufmerksamkeit und aktualisieren die multimodalen Merkmale bidirektional, was den gesamten Prozess parameterfrei und trainingsfrei macht. Auf diese Weise werden Bilder mit textbasierten Signalen vermischt und die textuellen Repräsentationen werden visuell gesteuert, um eine bessere adaptive Null-Shot-Ausrichtung zu ermöglichen. Wir evaluieren CALIP anhand verschiedener Benchmarks von 14 Datensätzen sowohl für die Few-Shot-Klassifikation von 2D-Bildern als auch von 3D-Punktwolken, wobei eine konsistente Steigerung der Null-Shot-Leistung im Vergleich zu CLIP festgestellt wird. Basierend darauf fügen wir in CALIPs Aufmerksamkeitsmodul eine kleine Anzahl linearer Schichten ein und überprüfen unsere Robustheit unter Few-Shot-Einstellungen, was ebenfalls eine führende Leistung im Vergleich zu existierenden Methoden erzielt. Diese umfangreichen Experimente demonstrieren die Überlegenheit unseres Ansatzes zur effizienten Steigerung der CLIP-Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp