vor 11 Tagen
OpenFlamingo: Ein Open-Source-Framework zur Trainingsgroßer autoregressiver Vision-Sprache-Modelle
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt

Abstract
Wir stellen OpenFlamingo vor, eine Familie autoregressiver Vision-Sprache-Modelle mit Größen von 3B bis 9B Parametern. OpenFlamingo ist ein laufender Forschungsansatz zur Erstellung einer quelloffenen Nachbildung der Flamingo-Modelle von DeepMind. Auf sieben Vision-Sprache-Datensätzen erreichen die OpenFlamingo-Modelle im Durchschnitt zwischen 80 % und 89 % der Leistung der entsprechenden Flamingo-Modelle. Dieser technische Bericht beschreibt unsere Modelle, das Trainingsdatenmaterial, die Hyperparameter sowie die Evaluierungsplattform. Die Modelle und den Quellcode stellen wir unter https://github.com/mlfoundations/open_flamingo zur Verfügung.