vor 8 Monaten

Zusammenfassung

Kontrastive Bild-Text-Modelle wie CLIP bilden die Grundbausteine vielerstandardsicherer Systeme. Obwohl sie bei der Erkennung allgemeiner Konzeptehervorragend abschneiden, haben sie noch Schwierigkeiten mit feingranularenEntitäten, die selten oder gar nicht im Vortrainingsdatensatz vorkommen. Daherwar ein wesentlicher Faktor für ihren Erfolg die Verwendung umfangreicher,sorgfältig ausgewählter Vortrainingsdaten, die darauf abzielen, den Umfang derKonzepte zu erweitern, die sie während der Vortrainingsphase speichern können.In dieser Arbeit untersuchen wir eine Alternative zum direkten Kodieren vonfeingranularem Wissen in die Parameter des Modells: Wir trainieren das Modellstattdessen, dieses Wissen aus einem externen Gedächtnis abzurufen. Genauergesagt schlagen wir vor, bestehende Vision-Text-Modelle mit der Fähigkeit zuversehen, ihre Einbettungen (Embedding) durch krossmodale Informationen aus demGedächtnis zur Laufzeit zu verfeinern, was ihre zero-shot-Vorhersagen erheblichverbessert. Bemerkenswerterweise zeigen wir, dass dies mit einem leichten,einlagigen Fusionstransformer auf einem gefrorenen CLIP erreicht werden kann.Unsere Experimente bestätigen, dass unsere retriaval-verstärkte kontrastive(RECO) Trainingsmethode die Leistung von CLIP bei mehreren anspruchsvollenfeingranularen Aufgaben erheblich verbessert: Zum Beispiel um +10.9 Punkte beiStanford Cars, +10.2 Punkte bei CUB-2011 und +7.3 Punkte beim aktuellen OVEN-Benchmark, wo wir sogar bei unbekannten Klassen besser abschneiden als die feintune-gesteuerten Modelle.请注意，"RECO" 是 "Retrieval-Enhanced Contrastive" 的缩写，这里直接采用了德语中的相应表述。此外，“zero-shot” 通常在德语中也保留为英语术语，因为它在机器学习领域有特定的含义。其他术语如 “embedding” 和 “benchmark” 也是常见的科技词汇，在德语中通常保留其英文形式。

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Bildklassifikation

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Bildklassifikation

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle | Paper | HyperAI

Command Palette

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Retrieval-Verstärkte Kontrastive Vision-Text-Modelle

Iscen Ahmet ; Caron Mathilde ; Fathi Alireza ; Schmid Cordelia

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters