HyperAIHyperAI
vor 2 Monaten

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle

Iscen, Ahmet ; Caron, Mathilde ; Fathi, Alireza ; Schmid, Cordelia
Retrieval-Verstärkte Kontrastive Vision-Text-Modelle
Abstract

Kontrastive Bild-Text-Modelle wie CLIP bilden die Grundbausteine vielerstandardsicherer Systeme. Obwohl sie bei der Erkennung allgemeiner Konzeptehervorragend abschneiden, haben sie noch Schwierigkeiten mit feingranularenEntitäten, die selten oder gar nicht im Vortrainingsdatensatz vorkommen. Daherwar ein wesentlicher Faktor für ihren Erfolg die Verwendung umfangreicher,sorgfältig ausgewählter Vortrainingsdaten, die darauf abzielen, den Umfang derKonzepte zu erweitern, die sie während der Vortrainingsphase speichern können.In dieser Arbeit untersuchen wir eine Alternative zum direkten Kodieren vonfeingranularem Wissen in die Parameter des Modells: Wir trainieren das Modellstattdessen, dieses Wissen aus einem externen Gedächtnis abzurufen. Genauergesagt schlagen wir vor, bestehende Vision-Text-Modelle mit der Fähigkeit zuversehen, ihre Einbettungen (Embedding) durch krossmodale Informationen aus demGedächtnis zur Laufzeit zu verfeinern, was ihre zero-shot-Vorhersagen erheblichverbessert. Bemerkenswerterweise zeigen wir, dass dies mit einem leichten,einlagigen Fusionstransformer auf einem gefrorenen CLIP erreicht werden kann.Unsere Experimente bestätigen, dass unsere retriaval-verstärkte kontrastive(RECO) Trainingsmethode die Leistung von CLIP bei mehreren anspruchsvollenfeingranularen Aufgaben erheblich verbessert: Zum Beispiel um +10.9 Punkte beiStanford Cars, +10.2 Punkte bei CUB-2011 und +7.3 Punkte beim aktuellen OVEN-Benchmark, wo wir sogar bei unbekannten Klassen besser abschneiden als die feintune-gesteuerten Modelle.请注意,"RECO" 是 "Retrieval-Enhanced Contrastive" 的缩写,这里直接采用了德语中的相应表述。此外,“zero-shot” 通常在德语中也保留为英语术语,因为它在机器学习领域有特定的含义。其他术语如 “embedding” 和 “benchmark” 也是常见的科技词汇,在德语中通常保留其英文形式。

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle | Neueste Forschungsarbeiten | HyperAI