HyperAIHyperAI

Command Palette

Search for a command to run...

Ein guter Prompt ist wertvoller als Millionen von Parametern: Low-resource Prompt-basiertes Lernen für Vision-Language-Modelle

Woojeong Jin Yu Cheng Yelong Shen Weizhu Chen Xiang Ren

Zusammenfassung

Große vortrainierte Vision-Sprache-(VL-)Modelle können eine neue Aufgabe mit nur wenigen Beispielen erlernen und generalisieren auf neue Aufgaben ohne Feintuning. Allerdings sind diese VL-Modelle aufgrund ihrer unpraktisch großen Größe und langsamen Inferenzgeschwindigkeit schwer für reale Anwendungen einsetzbar. Um diese Einschränkung zu überwinden, untersuchen wir promptbasiertes Lernen mit geringem Ressourcenbedarf für VL-Aufgaben mit unserer vorgeschlagenen Methode, FewVLM, die im Vergleich zu jüngeren Few-Shot-Lernern deutlich kleiner ist. Für FewVLM prätrainieren wir ein sequenz-zu-Sequenz-Transformer-Modell mittels Prefix-Sprachmodellierung (PrefixLM) und maskierter Sprachmodellierung (MaskedLM). Zudem analysieren wir den Einfluss vielfältiger Prompts auf Few-Shot-Aufgaben. Experimentelle Ergebnisse im Bereich VQA zeigen, dass FewVLM mit promptbasiertem Lernen eine Leistung erreicht, die 18,2 Prozentpunkte über der von Frozen liegt – einem Modell, das 31-mal größer ist als FewVLM – und Ergebnisse erzielt, die mit einem 246-mal größeren Modell, PICa, vergleichbar sind. In unserer Analyse beobachten wir (1) einen erheblichen Einfluss von Prompts auf die Zero-Shot-Leistung, während ihr Einfluss auf die Few-Shot-Leistung marginal ist, (2) dass Modelle mit verrauschten Prompts, bei ausreichend großem Trainingsdatensatz, genauso schnell lernen wie solche mit handgefertigten Prompts, und (3) dass MaskedLM VQA-Aufgaben unterstützt, während PrefixLM die Leistung bei Bildunterschriften verbessert. Unser Quellcode ist öffentlich unter \url{https://github.com/woojeongjin/FewVLM} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein guter Prompt ist wertvoller als Millionen von Parametern: Low-resource Prompt-basiertes Lernen für Vision-Language-Modelle | Paper | HyperAI