Florence-2: Fortschritt bei einer einheitlichen Darstellung für eine Vielzahl von Vision-Aufgaben

Wir stellen Florence-2 vor, ein neuartiges Vision-Grundmodell mit einer einheitlichen, promptbasierten Darstellung für eine Vielzahl von Aufgaben im Bereich Computer Vision und Vision-Sprache. Während bestehende große Vision-Modelle bei Transfer-Learning hervorragende Leistungen erzielen, haben sie Schwierigkeiten, eine Vielzahl von Aufgaben mit einfachen Anweisungen zu bewältigen – eine Fähigkeit, die die Bewältigung der Komplexität verschiedener räumlicher Hierarchien und semantischer Granularität erfordert. Florence-2 wurde speziell dafür entwickelt, Text-Prompts als Aufgabenanweisungen zu nutzen und in Textform zufriedenstellende Ergebnisse zu liefern, sei es bei Bildunterschriftenerstellung, Objekterkennung, Grounding oder Segmentierung. Dieses Multi-Task-Lern-Setup erfordert großskalige, hochwertige annotierte Daten. Daher haben wir gemeinsam mit FLD-5B entwickelt, eine Datensammlung mit 5,4 Milliarden umfassenden visuellen Annotationen auf 126 Millionen Bildern, die mithilfe einer iterativen Strategie aus automatisierter Bildannotation und Modellverfeinerung erstellt wurde. Für die Trainingsarchitektur von Florence-2 wurde eine Sequence-to-Sequence-Struktur verwendet, um vielseitige und umfassende visuelle Aufgaben zu ermöglichen. Umfangreiche Evaluationen auf zahlreichen Aufgaben zeigten, dass Florence-2 ein überzeugender Kandidat für ein starkes Vision-Grundmodell ist, das bisher unerreichte Fähigkeiten im Zero-Shot- und Fine-Tuning-Bereich aufweist.