Allgemeines Objektgrundlagenmodell für Bilder und Videos in großem Maßstab

In dieser Arbeit stellen wir GLEE vor, ein objektorientiertes Grundmodell zur Lokalisierung und Identifikation von Objekten in Bildern und Videos. Durch ein einheitliches Framework schafft GLEE es, die Erkennung, Segmentierung, Verfolgung, Verortung und Identifikation beliebiger Objekte in offenen Szenarien für verschiedene Objektperzeptionsaufgaben zu bewerkstelligen. GLEE nutzt eine kohärente Lernstrategie, um Wissen aus verschiedenen Datenquellen mit unterschiedlichen Supervisionsniveaus zu erwerben und allgemeine Objektrepräsentationen zu bilden, wodurch es in der zero-shot-Übertragung auf neue Daten und Aufgaben hervorragt.Speziell verwenden wir einen Bildencoder, einen Textencoder und einen visuellen Prompter, um multimodale Eingaben zu verarbeiten. Dies ermöglicht es uns, verschiedene objektorientierte Downstream-Aufgaben gleichzeitig zu lösen, während wir den Stand der Technik beibehalten. Wie durch umfangreiche Trainingsprozesse an mehr als fünf Millionen Bildern aus diversen Benchmarks gezeigt wurde, zeigt GLEE bemerkenswerte Vielseitigkeit und verbesserte Generalisierungsleistung. Es kann effizient Downstream-Aufgaben angehen, ohne spezifische Anpassungen für einzelne Aufgaben zu benötigen.Durch die Integration großer Mengen automatisch beschrifteter Daten verbessern wir zudem seine zero-shot-Generalisierungsfähigkeiten weiter. Zudem ist GLEE in der Lage, in große Sprachmodelle integriert zu werden und dient als Grundmodell zur Bereitstellung universeller objektorientierter Informationen für multimodale Aufgaben. Wir hoffen, dass die Vielseitigkeit und Universalität unserer Methode einen wichtigen Schritt in der Entwicklung effizienter visueller Grundmodelle für AGI-Systeme darstellen wird. Das Modell und der Code werden unter https://glee-vision.github.io veröffentlicht.