MELTR: Meta Loss Transformer für das Lernen des Feinabstimmens von Video-Grundmodellen

Grundmodelle (Foundation Models) haben in verschiedenen Domänen außergewöhnliche Leistungsfähigkeit und Generalisierungskapazitäten gezeigt. Da die meisten Studien zu Grundmodellen sich hauptsächlich auf die Vortrainingsphase konzentrieren, wird für das Feinjustieren (Fine-Tuning) eine naive Strategie zur Minimierung eines einzigen, aufgabenbezogenen Verlustes (task-specific loss) angewendet. Allerdings nutzen solche Feinjustierungsverfahren nicht vollständig andere Verlustfunktionen aus, die potenziell förderlich für die Zielaufgabe sein könnten. Daher schlagen wir den MEta Loss TRansformer (MELTR) vor, ein Plug-In-Modul, das verschiedene Verlustfunktionen automatisch und nichtlinear kombiniert, um das Lernen der Zielaufgabe durch Hilfslernen (auxiliary learning) zu unterstützen. Wir formulieren das Hilfslernen als ein zweistufiges Optimierungsproblem und präsentieren einen effizienten Optimierungsalgorithmus basierend auf Approximativer Impliziter Differenzierung (AID). Für die Bewertung wenden wir unser Framework auf verschiedene Video-Grundmodelle (UniVL, Violet und All-in-one) an und zeigen signifikante Leistungsverbesserungen bei allen vier Downstream-Aufgaben: Text-zu-Video-Retrieval, Video-Fragebeantwortung, Video-Beschreibungserstellung und multimodale Stimmungsanalyse. Unsere qualitativen Analysen belegen, dass MELTR individuelle Verlustfunktionen angemessen „transformiert“ und sie in einen effektiven vereinten Verlust „schmilzt“. Der Quellcode ist unter https://github.com/mlvlab/MELTR verfügbar.