HyperAIHyperAI
vor 2 Monaten

Texte als Bilder in der Prompt-Tuning für die mehrfache Bilderkennung

Guo, Zixian ; Dong, Bowen ; Ji, Zhilong ; Bai, Jinfeng ; Guo, Yiwen ; Zuo, Wangmeng
Texte als Bilder in der Prompt-Tuning für die mehrfache Bilderkennung
Abstract

Prompt Tuning wird als effiziente Methode zur Anpassung großer visueller-linguistischer Vortrainingsmodelle (z.B. CLIP) an verschiedene Downstream-Aufgaben in daten- oder labelbeschränkten Szenarien eingesetzt. Dennoch ist visuelle Daten (z.B. Bilder) standardmäßig Voraussetzung für das Lernen von Prompts in existierenden Methoden. In dieser Arbeit plädieren wir dafür, dass die Effektivität des bild-textkontrastiven Lernens bei der Ausrichtung der beiden Modalitäten (für das Training von CLIP) es weiterhin ermöglicht, Texte als Bilder für das Prompt Tuning zu behandeln und TaI-Prompting einzuführen. Im Gegensatz zu visuellen Daten sind textuelle Beschreibungen leicht zu sammeln, und ihre Klassenlabels können direkt abgeleitet werden. Insbesondere wenden wir TaI-Prompting auf die mehrklassige Bilderkennung an, wobei Sätze aus dem natürlichen Sprachgebrauch als Alternative zu Bildern für das Prompt Tuning dienen. Darüber hinaus wird mit TaI ein doppelt granulares Prompt Tuning (TaI-DPT) vorgestellt, um sowohl grob- als auch feinkörnige Einbettungen zu extrahieren, um die Leistung der mehrklassigen Erkennung zu verbessern. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes TaI-DPT in mehreren Benchmarks, z.B. MS-COCO, VOC2007 und NUS-WIDE, erheblich besser abschneidet als das zero-shot CLIP und dass es mit bestehenden Methoden zur Ermittlung von Prompts aus Bildern kombiniert werden kann, um die Erkennungsleistung weiter zu steigern. Der Quellcode ist unter https://github.com/guozix/TaI-DPT veröffentlicht.

Texte als Bilder in der Prompt-Tuning für die mehrfache Bilderkennung | Neueste Forschungsarbeiten | HyperAI