Command Palette
Search for a command to run...
ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen
ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen
Chunyuan Li∗1♠, Haotian Liu∗2, Liunian Harold Li3, Pengchuan Zhang1, Jyoti Aneja1, Jianwei Yang1, Ping Jin1, Houdong Hu1, Zicheng Liu1, Yong Jae Lee2, Jianfeng Gao1
Zusammenfassung
Das Lernen visueller Repräsentationen durch natürlichsprachliche Überwachung hat in einer Reihe von bahnbrechenden Arbeiten kürzlich großes Potenzial gezeigt. Im Allgemeinen demonstrieren diese sprachverstärkten visuellen Modelle eine starke Übertragbarkeit auf verschiedene Datensätze und Aufgaben. Dennoch stellt die Bewertung der Übertragbarkeit dieser Modelle aufgrund des Mangels an benutzerfreundlichen Evaluierungswerkzeugen und öffentlichen Benchmarks eine Herausforderung dar. Um dieses Problem anzugehen, haben wir ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer – Bewertung der sprachverstärkten visuellen Aufgabenebene-Übertragung) entwickelt, den ersten Benchmark und das erste Werkzeug zur Bewertung (vorab trainierter) sprachverstärkter visueller Modelle. ELEVATER besteht aus drei Komponenten: (i) Datensätze. Als nachgeschaltete Evaluierungssuiten umfasst es 20 Bildklassifizierungsdatensätze und 35 Objekterkennungsdatensätze, wobei jeder mit externem Wissen erweitert wurde. (ii) Werkzeug. Ein automatisches Hyperparameter-Tuning-Werkzeug wurde entwickelt, um die Modellbewertung bei nachgeschalteten Aufgaben zu erleichtern. (iii) Metriken. Eine Vielzahl von Evaluationsmetriken wird verwendet, um die Stichprobeneffizienz (Zero-Shot und Few-Shot) und die Parameter-Effizienz (lineare Probing und vollständiges Feinjustieren des Modells) zu messen. ELEVATER ist eine Plattform für Computer Vision in the Wild (CVinW – Computer Vision im Freien), die unter https://computer-vision-in-the-wild.github.io/ELEVATER/ öffentlich veröffentlicht wurde.