HyperAIHyperAI
vor 17 Tagen

Eine großskalige Studie zur Repräsentationslernens mit dem Visual Task Adaptation Benchmark

Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby
Eine großskalige Studie zur Repräsentationslernens mit dem Visual Task Adaptation Benchmark
Abstract

Die Darstellungslernmethoden versprechen, das tiefe Lernen für die lange Schwanzverteilung visueller Aufgaben ohne kostspielige gelabelte Datensätze nutzbar zu machen. Dennoch behindert das Fehlen einer einheitlichen Evaluierung für allgemeine visuelle Darstellungen den Fortschritt. Häufig verwendete Bewertungsprotokolle sind oft zu eingeschränkt (z. B. lineare Klassifikation), in ihrer Vielfalt begrenzt (z. B. ImageNet, CIFAR, Pascal-VOC) oder nur schwach mit der Qualität der Darstellung verknüpft (z. B. ELBO, Rekonstruktionsfehler). Wir stellen den Visual Task Adaptation Benchmark (VTAB) vor, der gute Darstellungen als solche definiert, die sich mit wenigen Beispielen auf vielfältige, bisher unbekannte Aufgaben anpassen können. Mit VTAB führen wir eine groß angelegte Studie zahlreicher bekannter, öffentlich verfügbaren Darstellungslernalgorithmen durch. Dabei kontrollieren wir sorgfältig Störfaktoren wie Architektur und Optimierungsaufwand. Wir bearbeiten Fragen wie: Wie effektiv sind ImageNet-Darstellungen jenseits standardmäßiger natürlicher Datensätze? Wie vergleichen sich Darstellungen, die mittels generativer und diskriminativer Modelle trainiert wurden? Inwieweit kann Selbstüberwachung Labels ersetzen? Und wie nah sind wir bereits an allgemeinen visuellen Darstellungen?