vor 2 Monaten

ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen

Chunyuan Li; Haotian Liu; Liunian Harold Li; Pengchuan Zhang; Jyoti Aneja; Jianwei Yang; Ping Jin; Houdong Hu; Zicheng Liu; Yong Jae Lee; Jianfeng Gao

Details der Forschungsarbeit anzeigen

ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen

Abstract

Das Lernen visueller Repräsentationen durch natürlichsprachliche Überwachung hat in einer Reihe von bahnbrechenden Arbeiten kürzlich großes Potenzial gezeigt. Im Allgemeinen demonstrieren diese sprachverstärkten visuellen Modelle eine starke Übertragbarkeit auf verschiedene Datensätze und Aufgaben. Dennoch stellt die Bewertung der Übertragbarkeit dieser Modelle aufgrund des Mangels an benutzerfreundlichen Evaluierungswerkzeugen und öffentlichen Benchmarks eine Herausforderung dar. Um dieses Problem anzugehen, haben wir ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer – Bewertung der sprachverstärkten visuellen Aufgabenebene-Übertragung) entwickelt, den ersten Benchmark und das erste Werkzeug zur Bewertung (vorab trainierter) sprachverstärkter visueller Modelle. ELEVATER besteht aus drei Komponenten: (i) Datensätze. Als nachgeschaltete Evaluierungssuiten umfasst es 20 Bildklassifizierungsdatensätze und 35 Objekterkennungsdatensätze, wobei jeder mit externem Wissen erweitert wurde. (ii) Werkzeug. Ein automatisches Hyperparameter-Tuning-Werkzeug wurde entwickelt, um die Modellbewertung bei nachgeschalteten Aufgaben zu erleichtern. (iii) Metriken. Eine Vielzahl von Evaluationsmetriken wird verwendet, um die Stichprobeneffizienz (Zero-Shot und Few-Shot) und die Parameter-Effizienz (lineare Probing und vollständiges Feinjustieren des Modells) zu messen. ELEVATER ist eine Plattform für Computer Vision in the Wild (CVinW – Computer Vision im Freien), die unter https://computer-vision-in-the-wild.github.io/ELEVATER/ öffentlich veröffentlicht wurde.