Ein guter Prompt ist wertvoller als Millionen von Parametern: Low-resource Prompt-basiertes Lernen für Vision-Language-Modelle

Große vortrainierte Vision-Sprache-(VL-)Modelle können eine neue Aufgabe mit nur wenigen Beispielen erlernen und generalisieren auf neue Aufgaben ohne Feintuning. Allerdings sind diese VL-Modelle aufgrund ihrer unpraktisch großen Größe und langsamen Inferenzgeschwindigkeit schwer für reale Anwendungen einsetzbar. Um diese Einschränkung zu überwinden, untersuchen wir promptbasiertes Lernen mit geringem Ressourcenbedarf für VL-Aufgaben mit unserer vorgeschlagenen Methode, FewVLM, die im Vergleich zu jüngeren Few-Shot-Lernern deutlich kleiner ist. Für FewVLM prätrainieren wir ein sequenz-zu-Sequenz-Transformer-Modell mittels Prefix-Sprachmodellierung (PrefixLM) und maskierter Sprachmodellierung (MaskedLM). Zudem analysieren wir den Einfluss vielfältiger Prompts auf Few-Shot-Aufgaben. Experimentelle Ergebnisse im Bereich VQA zeigen, dass FewVLM mit promptbasiertem Lernen eine Leistung erreicht, die 18,2 Prozentpunkte über der von Frozen liegt – einem Modell, das 31-mal größer ist als FewVLM – und Ergebnisse erzielt, die mit einem 246-mal größeren Modell, PICa, vergleichbar sind. In unserer Analyse beobachten wir (1) einen erheblichen Einfluss von Prompts auf die Zero-Shot-Leistung, während ihr Einfluss auf die Few-Shot-Leistung marginal ist, (2) dass Modelle mit verrauschten Prompts, bei ausreichend großem Trainingsdatensatz, genauso schnell lernen wie solche mit handgefertigten Prompts, und (3) dass MaskedLM VQA-Aufgaben unterstützt, während PrefixLM die Leistung bei Bildunterschriften verbessert. Unser Quellcode ist öffentlich unter \url{https://github.com/woojeongjin/FewVLM} verfügbar.