HyperAIHyperAI

Command Palette

Search for a command to run...

Florence: Ein neues Grundlagenmodell für die Computer Vision

Zusammenfassung

Die automatisierte visuelle Verständigung unserer vielfältigen und offenen Welt erfordert Computer-Vision-Modelle, die sich mit minimaler Anpassung an spezifische Aufgaben gut verallgemeinern lassen, ähnlich wie das menschliche Sehen. Computer-Vision-Grundlagenmodelle, die auf vielfältigen, groß angelegten Datensätzen trainiert werden und sich auf eine breite Palette von nachgelagerten Aufgaben anpassen lassen, sind für diese Mission zur Lösung realweltlicher Computer-Vision-Anwendungen entscheidend. Während bestehende Vision-Grundlagenmodelle wie CLIP, ALIGN und Wu Dao 2.0 hauptsächlich darauf abzielen, Bilder und textuelle Darstellungen in eine multimodale gemeinsame Darstellung zu übersetzen, stellen wir ein neues Computer-Vision-Grundlagenmodell vor: Florence. Florence erweitert die Darstellungen von grob (Szene) zu fein (Objekt), von statisch (Bilder) zu dynamisch (Videos) und von RGB zu mehreren Modalitäten (Beschriftung, Tiefe). Durch die Einbeziehung universeller visueller und sprachlicher Darstellungen aus webbasierten Bild-Text-Daten kann unser Modell Florence leicht an verschiedene Computer-Vision-Aufgaben angepasst werden, wie Klassifikation, Retrieval, Objekterkennung, VQA (Visual Question Answering), Bildbeschriftung, Video-Retrieval und Aktionserkennung. Zudem zeigt Florence herausragende Leistungen in verschiedenen Arten des Transfer-Learnings: vollständig ausgewähltes Feintuning, lineare Probing, Few-Shot-Transfer und Zero-Shot-Transfer für neue Bilder und Objekte. All diese Eigenschaften sind entscheidend für unser Vision-Grundlagenmodell, um allgemeine visuelle Aufgaben zu bearbeiten. Florence erreicht neue Stand der Technik-Ergebnisse in den meisten der 44 repräsentativen Benchmarks, z.B. eine Top-1-Akkuratesse von 83,74 % bei der Zero-Shot-Klassifikation auf ImageNet-1K und eine Top-5-Akkuratesse von 97,18 %. Es erreicht außerdem einen mAP-Wert von 62,4 % beim Feintuning auf COCO, 80,36 % bei VQA (Visual Question Answering) und 87,8 % bei Kinetics-600.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Florence: Ein neues Grundlagenmodell für die Computer Vision | Paper | HyperAI