HyperAIHyperAI
vor 2 Monaten

Skalierung der Erkennung von Objekten mit offenen Vokabularien

Matthias Minderer; Alexey Gritsenko; Neil Houlsby
Skalierung der Erkennung von Objekten mit offenen Vokabularien
Abstract

Die Erkennung von Objekten mit offenen Vokabularien hat stark von vortrainierten visuellen Sprachmodellen profitiert, ist jedoch weiterhin durch die Menge der verfügbaren Detektions-Trainingsdaten eingeschränkt. Obwohl die Trainingsdaten für Detektion durch die Verwendung von Web-Bild-Text-Paaren als schwache Überwachung erweitert werden können, wurde dies bisher nicht in vergleichbaren Größenordnungen wie bei der Bild-Level-Vortrainierung erreicht. In diesem Beitrag skalieren wir die Detektionsdaten mittels Selbsttrainierung, bei der ein vorhandener Detektor Pseudo-Box-Annotierungen auf Bild-Text-Paaren generiert. Hauptausforderungen bei der Skalierung der Selbsttrainierung sind die Auswahl des Labelraums, das Filtern von Pseudo-Annotierungen und die Trainings-effizienz. Wir stellen das Modell OWLv2 und das OWL-ST-Selbsttrainierungsrezept vor, welche diese Herausforderungen angehen. OWLv2 übertreffen bereits bei vergleichbaren Trainingsgrößen (~10 Mio. Beispiele) die Leistung früherer Stand-of-the-Art-Detektoren für offene Vokabulare. Mit OWL-ST können wir jedoch auf über 1 Mrd. Beispiele skalieren, was zu weiteren erheblichen Verbesserungen führt: Bei einer L/14-Architektur verbessert OWL-ST den AP (Average Precision) für seltene Klassen im LVIS-Datensatz, für die das Modell keine menschlichen Box-Annotierungen gesehen hat, von 31,2 % auf 44,6 % (43 % relative Verbesserung). OWL-ST ermöglicht somit eine Web-skalierte Trainierung für die Lokalisierung in offenen Welten, ähnlich wie dies bereits für Bildklassifizierung und Sprachmodelle der Fall war.

Skalierung der Erkennung von Objekten mit offenen Vokabularien | Neueste Forschungsarbeiten | HyperAI