vor 2 Monaten

Florence: Ein neues Grundlagenmodell für die Computer Vision

Lu Yuan; Dongdong Chen; Yi-Ling Chen; Noel Codella; Xiyang Dai; Jianfeng Gao; Houdong Hu; Xuedong Huang; Boxin Li; Chunyuan Li; Ce Liu; Mengchen Liu; Zicheng Liu; Yumao Lu; Yu Shi; Lijuan Wang; Jianfeng Wang; Bin Xiao; Zhen Xiao; Jianwei Yang; Michael Zeng; Luowei Zhou; Pengchuan Zhang

Details der Forschungsarbeit anzeigen

Florence: Ein neues Grundlagenmodell für die Computer Vision

Abstract

Die automatisierte visuelle Verständigung unserer vielfältigen und offenen Welt erfordert Computer-Vision-Modelle, die sich mit minimaler Anpassung an spezifische Aufgaben gut verallgemeinern lassen, ähnlich wie das menschliche Sehen. Computer-Vision-Grundlagenmodelle, die auf vielfältigen, groß angelegten Datensätzen trainiert werden und sich auf eine breite Palette von nachgelagerten Aufgaben anpassen lassen, sind für diese Mission zur Lösung realweltlicher Computer-Vision-Anwendungen entscheidend. Während bestehende Vision-Grundlagenmodelle wie CLIP, ALIGN und Wu Dao 2.0 hauptsächlich darauf abzielen, Bilder und textuelle Darstellungen in eine multimodale gemeinsame Darstellung zu übersetzen, stellen wir ein neues Computer-Vision-Grundlagenmodell vor: Florence. Florence erweitert die Darstellungen von grob (Szene) zu fein (Objekt), von statisch (Bilder) zu dynamisch (Videos) und von RGB zu mehreren Modalitäten (Beschriftung, Tiefe). Durch die Einbeziehung universeller visueller und sprachlicher Darstellungen aus webbasierten Bild-Text-Daten kann unser Modell Florence leicht an verschiedene Computer-Vision-Aufgaben angepasst werden, wie Klassifikation, Retrieval, Objekterkennung, VQA (Visual Question Answering), Bildbeschriftung, Video-Retrieval und Aktionserkennung. Zudem zeigt Florence herausragende Leistungen in verschiedenen Arten des Transfer-Learnings: vollständig ausgewähltes Feintuning, lineare Probing, Few-Shot-Transfer und Zero-Shot-Transfer für neue Bilder und Objekte. All diese Eigenschaften sind entscheidend für unser Vision-Grundlagenmodell, um allgemeine visuelle Aufgaben zu bearbeiten. Florence erreicht neue Stand der Technik-Ergebnisse in den meisten der 44 repräsentativen Benchmarks, z.B. eine Top-1-Akkuratesse von 83,74 % bei der Zero-Shot-Klassifikation auf ImageNet-1K und eine Top-5-Akkuratesse von 97,18 %. Es erreicht außerdem einen mAP-Wert von 62,4 % beim Feintuning auf COCO, 80,36 % bei VQA (Visual Question Answering) und 87,8 % bei Kinetics-600.