HyperAIHyperAI

Command Palette

Search for a command to run...

Florence-2: Fortschritt bei einer einheitlichen Darstellung für eine Vielzahl von Vision-Aufgaben

Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan

Zusammenfassung

Wir stellen Florence-2 vor, ein neuartiges Vision-Grundmodell mit einer einheitlichen, promptbasierten Darstellung für eine Vielzahl von Aufgaben im Bereich Computer Vision und Vision-Sprache. Während bestehende große Vision-Modelle bei Transfer-Learning hervorragende Leistungen erzielen, haben sie Schwierigkeiten, eine Vielzahl von Aufgaben mit einfachen Anweisungen zu bewältigen – eine Fähigkeit, die die Bewältigung der Komplexität verschiedener räumlicher Hierarchien und semantischer Granularität erfordert. Florence-2 wurde speziell dafür entwickelt, Text-Prompts als Aufgabenanweisungen zu nutzen und in Textform zufriedenstellende Ergebnisse zu liefern, sei es bei Bildunterschriftenerstellung, Objekterkennung, Grounding oder Segmentierung. Dieses Multi-Task-Lern-Setup erfordert großskalige, hochwertige annotierte Daten. Daher haben wir gemeinsam mit FLD-5B entwickelt, eine Datensammlung mit 5,4 Milliarden umfassenden visuellen Annotationen auf 126 Millionen Bildern, die mithilfe einer iterativen Strategie aus automatisierter Bildannotation und Modellverfeinerung erstellt wurde. Für die Trainingsarchitektur von Florence-2 wurde eine Sequence-to-Sequence-Struktur verwendet, um vielseitige und umfassende visuelle Aufgaben zu ermöglichen. Umfangreiche Evaluationen auf zahlreichen Aufgaben zeigten, dass Florence-2 ein überzeugender Kandidat für ein starkes Vision-Grundmodell ist, das bisher unerreichte Fähigkeiten im Zero-Shot- und Fine-Tuning-Bereich aufweist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Florence-2: Fortschritt bei einer einheitlichen Darstellung für eine Vielzahl von Vision-Aufgaben | Paper | HyperAI