vor 2 Monaten

Skalierung der Erkennung von Objekten mit offenen Vokabularien

Matthias Minderer; Alexey Gritsenko; Neil Houlsby

Abstract

Die Erkennung von Objekten mit offenen Vokabularien hat stark von vortrainierten visuellen Sprachmodellen profitiert, ist jedoch weiterhin durch die Menge der verfügbaren Detektions-Trainingsdaten eingeschränkt. Obwohl die Trainingsdaten für Detektion durch die Verwendung von Web-Bild-Text-Paaren als schwache Überwachung erweitert werden können, wurde dies bisher nicht in vergleichbaren Größenordnungen wie bei der Bild-Level-Vortrainierung erreicht. In diesem Beitrag skalieren wir die Detektionsdaten mittels Selbsttrainierung, bei der ein vorhandener Detektor Pseudo-Box-Annotierungen auf Bild-Text-Paaren generiert. Hauptausforderungen bei der Skalierung der Selbsttrainierung sind die Auswahl des Labelraums, das Filtern von Pseudo-Annotierungen und die Trainings-effizienz. Wir stellen das Modell OWLv2 und das OWL-ST-Selbsttrainierungsrezept vor, welche diese Herausforderungen angehen. OWLv2 übertreffen bereits bei vergleichbaren Trainingsgrößen (~10 Mio. Beispiele) die Leistung früherer Stand-of-the-Art-Detektoren für offene Vokabulare. Mit OWL-ST können wir jedoch auf über 1 Mrd. Beispiele skalieren, was zu weiteren erheblichen Verbesserungen führt: Bei einer L/14-Architektur verbessert OWL-ST den AP (Average Precision) für seltene Klassen im LVIS-Datensatz, für die das Modell keine menschlichen Box-Annotierungen gesehen hat, von 31,2 % auf 44,6 % (43 % relative Verbesserung). OWL-ST ermöglicht somit eine Web-skalierte Trainierung für die Lokalisierung in offenen Welten, ähnlich wie dies bereits für Bildklassifizierung und Sprachmodelle der Fall war.