vor 11 Tagen

Messung des Fortschritts in der feinkörnigen visuell-sprachlichen Verständnisfähigkeit

Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh

Abstract

Während die Vortrainierung auf großskaligen Bild-Text-Daten aus dem Web einen schnellen Fortschritt bei vielen Aufgaben im Bereich Vision-and-Language (V&L) ermöglicht hat, hat jüngste Forschung gezeigt, dass vortrainierte Modelle ein Mangel an „feinabgestimmtem“ Verständnis aufweisen, beispielsweise die Fähigkeit, Beziehungen, Verben und Zahlen in Bildern zu erkennen. Dies hat zu einer zunehmenden Interesse in der Gemeinschaft geführt, entweder neue Benchmarks oder Modelle für solche Fähigkeiten zu entwickeln. Um den Fortschritt in dieser Richtung besser zu verstehen und zu quantifizieren, untersuchen wir vier konkurrenzfähige V&L-Modelle anhand von vier feinabgestimmten Benchmarks. Unsere Analyse zeigt, dass X-VLM (Zeng et al., 2022) konsistent andere Baselines übertrifft, und dass Modellinnovationen die Leistung möglicherweise stärker beeinflussen als die Skalierung von Web-Daten – letztere kann sogar gelegentlich die Leistung verschlechtern. Durch eine detailliertere Untersuchung von X-VLM heben wir die Bedeutung sowohl neuer Verlustfunktionen als auch reichhaltiger Datenquellen für das Erlernen feinabgestimmter Fähigkeiten hervor. Schließlich analysieren wir die Trainingsdynamik und entdecken, dass die Leistung für bestimmte Aufgaben bereits früh im Trainingsprozess ihren Höhepunkt erreicht oder erheblich schwankt, ohne jemals zu konvergieren.