HyperAIHyperAI

Command Palette

Search for a command to run...

ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen

Chunyuan Li∗1♠, Haotian Liu∗2, Liunian Harold Li3, Pengchuan Zhang1, Jyoti Aneja1, Jianwei Yang1, Ping Jin1, Houdong Hu1, Zicheng Liu1, Yong Jae Lee2, Jianfeng Gao1

Zusammenfassung

Das Lernen visueller Repräsentationen durch natürlichsprachliche Überwachung hat in einer Reihe von bahnbrechenden Arbeiten kürzlich großes Potenzial gezeigt. Im Allgemeinen demonstrieren diese sprachverstärkten visuellen Modelle eine starke Übertragbarkeit auf verschiedene Datensätze und Aufgaben. Dennoch stellt die Bewertung der Übertragbarkeit dieser Modelle aufgrund des Mangels an benutzerfreundlichen Evaluierungswerkzeugen und öffentlichen Benchmarks eine Herausforderung dar. Um dieses Problem anzugehen, haben wir ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer – Bewertung der sprachverstärkten visuellen Aufgabenebene-Übertragung) entwickelt, den ersten Benchmark und das erste Werkzeug zur Bewertung (vorab trainierter) sprachverstärkter visueller Modelle. ELEVATER besteht aus drei Komponenten: (i) Datensätze. Als nachgeschaltete Evaluierungssuiten umfasst es 20 Bildklassifizierungsdatensätze und 35 Objekterkennungsdatensätze, wobei jeder mit externem Wissen erweitert wurde. (ii) Werkzeug. Ein automatisches Hyperparameter-Tuning-Werkzeug wurde entwickelt, um die Modellbewertung bei nachgeschalteten Aufgaben zu erleichtern. (iii) Metriken. Eine Vielzahl von Evaluationsmetriken wird verwendet, um die Stichprobeneffizienz (Zero-Shot und Few-Shot) und die Parameter-Effizienz (lineare Probing und vollständiges Feinjustieren des Modells) zu messen. ELEVATER ist eine Plattform für Computer Vision in the Wild (CVinW – Computer Vision im Freien), die unter https://computer-vision-in-the-wild.github.io/ELEVATER/ öffentlich veröffentlicht wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ELEVATER: Eine Referenz und Werkzeugkiste zur Bewertung von sprachverstärkten visuellen Modellen | Paper | HyperAI