HyperAIHyperAI
vor 2 Monaten

Lernen von angepassten visuellen Modellen mit wissensverstärktem Retrieval

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li
Lernen von angepassten visuellen Modellen mit wissensverstärktem Retrieval
Abstract

Bild-Text-Kontrastivelles Lernmodelle wie CLIP haben eine starke Fähigkeit zur Aufgabenübertragung gezeigt. Die hohe Allgemeingültigkeit und Nutzbarkeit dieser visuellen Modelle wird durch einen webbasierten Datensammlungsprozess erreicht, der eine breite Konzeptabdeckung gewährleistet, gefolgt von aufwendigem Vortraining, um alle Kenntnisse in die Modellgewichte zu integrieren. Als Alternative schlagen wir REACT vor, ein Framework für Retrieval-verstärkte Anpassung (REtrieval-Augmented CusTomization), das relevante Webkenntnisse sammelt, um angepasste visuelle Modelle für Zielbereiche zu erstellen. Wir extrahieren die relevantesten Bild-Text-Paare (~3% der CLIP-Vortraining-Daten) aus der webbasierten Datenbank als externes Wissen und schlagen vor, das Modell durch das Training neuer modularer Blöcke anzupassen, während alle ursprünglichen Gewichte eingefroren bleiben. Die Effektivität von REACT wird durch umfangreiche Experimente in Klassifikations-, Retrieval-, Detektions- und Segmentierungsaufgaben unter Beweis gestellt, einschließlich Szenarien mit null, wenigen und vollständigen Beispielen. Insbesondere bei der Null-Shot-Klassifikation erzielt es im Vergleich zu CLIP eine Verbesserung von bis zu 5,4% auf ImageNet und 3,7% auf dem ELEVATER-Benchmark (20 Datensätze).

Lernen von angepassten visuellen Modellen mit wissensverstärktem Retrieval | Neueste Forschungsarbeiten | HyperAI