Webüberwachte Konzepterweiterung für allgemeine visuelle Modelle

Allgemeine Visuelle Systeme (General Purpose Vision, GPV) sind Modelle, die entwickelt wurden, um eine breite Palette visueller Aufgaben zu lösen, ohne architekturale Änderungen zu erfordern. Heutzutage lernen GPVs hauptsächlich sowohl Fähigkeiten als auch Konzepte aus großen vollständig überwachten Datensätzen. Das Skalieren von GPVs auf zehntausende von Konzepten durch das Erwerben von Daten zum Lernen jedes Konzepts für jede Fähigkeit wird schnell unzumutbar. Diese Arbeit präsentiert eine effektive und kostengünstige Alternative: Fähigkeiten aus überwachten Datensätzen lernen, Konzepte aus Webbildersuchen lernen und eine wesentliche Eigenschaft von GPVs nutzen: die Fähigkeit, visuelles Wissen zwischen verschiedenen Fähigkeiten zu transferieren. Wir verwenden einen Datensatz mit über 1 Million Bildern, die mehr als 10.000 visuelle Konzepte abdecken, um webbasierte Konzepterweiterung für zwei bestehende GPVs (GPV-1 und VL-T5) anhand von 3 Benchmarks zu demonstrieren: 5 COCO-basierte Datensätze (80 Hauptkonzepte), eine neu zusammengestellte Reihe von 5 Datensätzen basierend auf den Repositorien OpenImages und VisualGenome (ca. 500 Konzepte) sowie einem webbasierten Datensatz (über 10.000 Konzepte). Wir schlagen außerdem eine neue Architektur vor, das GPV-2, das eine Vielzahl von Aufgaben unterstützt – von visuellen Aufgaben wie Klassifizierung und Lokalisierung bis hin zu vision+sprachlichen Aufgaben wie QA (Question Answering) und Beschreibungserstellung, sowie spezielleren Aufgaben wie der Detektion mensch-objekter Interaktionen. GPV-2 profitiert enorm von Webdaten und übertreffen GPV-1 und VL-T5 in diesen Benchmarks. Unsere Daten, Code und Web-Demo sind unter https://prior.allenai.org/projects/gpv2 verfügbar.