HyperAIHyperAI

Command Palette

Search for a command to run...

Messung des Fortschritts in der feinkörnigen visuell-sprachlichen Verständnisfähigkeit

Emanuele Bugliarello Laurent Sartran Aishwarya Agrawal Lisa Anne Hendricks Aida Nematzadeh

Zusammenfassung

Während die Vortrainierung auf großskaligen Bild-Text-Daten aus dem Web einen schnellen Fortschritt bei vielen Aufgaben im Bereich Vision-and-Language (V&L) ermöglicht hat, hat jüngste Forschung gezeigt, dass vortrainierte Modelle ein Mangel an „feinabgestimmtem“ Verständnis aufweisen, beispielsweise die Fähigkeit, Beziehungen, Verben und Zahlen in Bildern zu erkennen. Dies hat zu einer zunehmenden Interesse in der Gemeinschaft geführt, entweder neue Benchmarks oder Modelle für solche Fähigkeiten zu entwickeln. Um den Fortschritt in dieser Richtung besser zu verstehen und zu quantifizieren, untersuchen wir vier konkurrenzfähige V&L-Modelle anhand von vier feinabgestimmten Benchmarks. Unsere Analyse zeigt, dass X-VLM (Zeng et al., 2022) konsistent andere Baselines übertrifft, und dass Modellinnovationen die Leistung möglicherweise stärker beeinflussen als die Skalierung von Web-Daten – letztere kann sogar gelegentlich die Leistung verschlechtern. Durch eine detailliertere Untersuchung von X-VLM heben wir die Bedeutung sowohl neuer Verlustfunktionen als auch reichhaltiger Datenquellen für das Erlernen feinabgestimmter Fähigkeiten hervor. Schließlich analysieren wir die Trainingsdynamik und entdecken, dass die Leistung für bestimmte Aufgaben bereits früh im Trainingsprozess ihren Höhepunkt erreicht oder erheblich schwankt, ohne jemals zu konvergieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp