Flamingo: Ein visueller Sprachmodell für Few-Shot-Lernen

Das Erstellen von Modellen, die sich schnell an neue Aufgaben anpassen können, indem sie nur wenige annotierte Beispiele verwenden, stellt eine offene Herausforderung für die Forschung im Bereich multimodales maschinelles Lernen dar. Wir stellen Flamingo vor, eine Familie von Visuellen Sprachmodellen (VLM), die diese Fähigkeit besitzen. Wir schlagen wichtige architektonische Innovationen vor, um: (i) leistungsstarke vortrainierte visuelle und sprachliche Modelle zu verbinden, (ii) Sequenzen beliebig vermischter visueller und textueller Daten zu verarbeiten, und (iii) Bilder oder Videos nahtlos als Eingaben zu integrieren. Dank ihrer Flexibilität können Flamingo-Modelle auf großen multimodalen Web-Korpora trainiert werden, die beliebig vermischten Text und Bilder enthalten. Dies ist entscheidend, um ihnen in-Context Few-Shot-Learning-Fähigkeiten zu verleihen. Wir führen eine gründliche Bewertung unserer Modelle durch und untersuchen sowie messen ihre Fähigkeit, sich schnell an verschiedene Bild- und Videoaufgaben anzupassen. Dazu gehören offene Aufgaben wie visuelle Fragebeantwortung, bei der das Modell mit einer Frage konfrontiert wird, die es beantworten muss; Beschreibungsaufgaben, die die Fähigkeit zur Beschreibung einer Szene oder eines Ereignisses evaluieren; und geschlossene Aufgaben wie Multiple-Choice-Fragebeantwortung. Für Aufgaben entlang dieses Spektrums kann ein einzelnes Flamingo-Modell durch Few-Shot-Learning einen neuen Stand der Technik erreichen, indem es einfach mit aufgabenspezifischen Beispielen angeregt wird. Bei zahlreichen Benchmarks übertrifft Flamingo Modelle, die auf bis zu tausendmal mehr aufgabenspezifischen Daten feintune wurden.