HyperAIHyperAI

Command Palette

Search for a command to run...

Allgemeines Objektgrundlagenmodell für Bilder und Videos in großem Maßstab

Junfeng Wu Yi Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai

Zusammenfassung

In dieser Arbeit stellen wir GLEE vor, ein objektorientiertes Grundmodell zur Lokalisierung und Identifikation von Objekten in Bildern und Videos. Durch ein einheitliches Framework schafft GLEE es, die Erkennung, Segmentierung, Verfolgung, Verortung und Identifikation beliebiger Objekte in offenen Szenarien für verschiedene Objektperzeptionsaufgaben zu bewerkstelligen. GLEE nutzt eine kohärente Lernstrategie, um Wissen aus verschiedenen Datenquellen mit unterschiedlichen Supervisionsniveaus zu erwerben und allgemeine Objektrepräsentationen zu bilden, wodurch es in der zero-shot-Übertragung auf neue Daten und Aufgaben hervorragt.Speziell verwenden wir einen Bildencoder, einen Textencoder und einen visuellen Prompter, um multimodale Eingaben zu verarbeiten. Dies ermöglicht es uns, verschiedene objektorientierte Downstream-Aufgaben gleichzeitig zu lösen, während wir den Stand der Technik beibehalten. Wie durch umfangreiche Trainingsprozesse an mehr als fünf Millionen Bildern aus diversen Benchmarks gezeigt wurde, zeigt GLEE bemerkenswerte Vielseitigkeit und verbesserte Generalisierungsleistung. Es kann effizient Downstream-Aufgaben angehen, ohne spezifische Anpassungen für einzelne Aufgaben zu benötigen.Durch die Integration großer Mengen automatisch beschrifteter Daten verbessern wir zudem seine zero-shot-Generalisierungsfähigkeiten weiter. Zudem ist GLEE in der Lage, in große Sprachmodelle integriert zu werden und dient als Grundmodell zur Bereitstellung universeller objektorientierter Informationen für multimodale Aufgaben. Wir hoffen, dass die Vielseitigkeit und Universalität unserer Methode einen wichtigen Schritt in der Entwicklung effizienter visueller Grundmodelle für AGI-Systeme darstellen wird. Das Modell und der Code werden unter https://glee-vision.github.io veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp