HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von angepassten visuellen Modellen mit wissensverstärktem Retrieval

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li

Zusammenfassung

Bild-Text-Kontrastivelles Lernmodelle wie CLIP haben eine starke Fähigkeit zur Aufgabenübertragung gezeigt. Die hohe Allgemeingültigkeit und Nutzbarkeit dieser visuellen Modelle wird durch einen webbasierten Datensammlungsprozess erreicht, der eine breite Konzeptabdeckung gewährleistet, gefolgt von aufwendigem Vortraining, um alle Kenntnisse in die Modellgewichte zu integrieren. Als Alternative schlagen wir REACT vor, ein Framework für Retrieval-verstärkte Anpassung (REtrieval-Augmented CusTomization), das relevante Webkenntnisse sammelt, um angepasste visuelle Modelle für Zielbereiche zu erstellen. Wir extrahieren die relevantesten Bild-Text-Paare (~3% der CLIP-Vortraining-Daten) aus der webbasierten Datenbank als externes Wissen und schlagen vor, das Modell durch das Training neuer modularer Blöcke anzupassen, während alle ursprünglichen Gewichte eingefroren bleiben. Die Effektivität von REACT wird durch umfangreiche Experimente in Klassifikations-, Retrieval-, Detektions- und Segmentierungsaufgaben unter Beweis gestellt, einschließlich Szenarien mit null, wenigen und vollständigen Beispielen. Insbesondere bei der Null-Shot-Klassifikation erzielt es im Vergleich zu CLIP eine Verbesserung von bis zu 5,4% auf ImageNet und 3,7% auf dem ELEVATER-Benchmark (20 Datensätze).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp