Florence: Ein neues Grundlagenmodell für die Computer Vision

Die automatisierte visuelle Verständigung unserer vielfältigen und offenen Welt erfordert Computer-Vision-Modelle, die sich mit minimaler Anpassung an spezifische Aufgaben gut verallgemeinern lassen, ähnlich wie das menschliche Sehen. Computer-Vision-Grundlagenmodelle, die auf vielfältigen, groß angelegten Datensätzen trainiert werden und sich auf eine breite Palette von nachgelagerten Aufgaben anpassen lassen, sind für diese Mission zur Lösung realweltlicher Computer-Vision-Anwendungen entscheidend. Während bestehende Vision-Grundlagenmodelle wie CLIP, ALIGN und Wu Dao 2.0 hauptsächlich darauf abzielen, Bilder und textuelle Darstellungen in eine multimodale gemeinsame Darstellung zu übersetzen, stellen wir ein neues Computer-Vision-Grundlagenmodell vor: Florence. Florence erweitert die Darstellungen von grob (Szene) zu fein (Objekt), von statisch (Bilder) zu dynamisch (Videos) und von RGB zu mehreren Modalitäten (Beschriftung, Tiefe). Durch die Einbeziehung universeller visueller und sprachlicher Darstellungen aus webbasierten Bild-Text-Daten kann unser Modell Florence leicht an verschiedene Computer-Vision-Aufgaben angepasst werden, wie Klassifikation, Retrieval, Objekterkennung, VQA (Visual Question Answering), Bildbeschriftung, Video-Retrieval und Aktionserkennung. Zudem zeigt Florence herausragende Leistungen in verschiedenen Arten des Transfer-Learnings: vollständig ausgewähltes Feintuning, lineare Probing, Few-Shot-Transfer und Zero-Shot-Transfer für neue Bilder und Objekte. All diese Eigenschaften sind entscheidend für unser Vision-Grundlagenmodell, um allgemeine visuelle Aufgaben zu bearbeiten. Florence erreicht neue Stand der Technik-Ergebnisse in den meisten der 44 repräsentativen Benchmarks, z.B. eine Top-1-Akkuratesse von 83,74 % bei der Zero-Shot-Klassifikation auf ImageNet-1K und eine Top-5-Akkuratesse von 97,18 %. Es erreicht außerdem einen mAP-Wert von 62,4 % beim Feintuning auf COCO, 80,36 % bei VQA (Visual Question Answering) und 87,8 % bei Kinetics-600.