HyperAIHyperAI
vor 2 Monaten

Z-LaVI: Zero-Shot Sprachlöser angetrieben durch visuelle Vorstellungskraft

Yue Yang; Wenlin Yao; Hongming Zhang; Xiaoyang Wang; Dong Yu; Jianshu Chen
Z-LaVI: Zero-Shot Sprachlöser angetrieben durch visuelle Vorstellungskraft
Abstract

Großskalige vortrainierte Sprachmodelle haben erhebliche Fortschritte bei der Lösung von nachgelagerten Sprachverstehensaufgaben gemacht. Allerdings leiden sie generell unter dem Berichterstattungsverzerrungseffekt (reporting bias), einem Phänomen, das die fehlende explizite Alltagswissen-Komponente in geschriebenen Texten beschreibt, wie zum Beispiel „eine Orange ist orange“. Um diese Einschränkung zu überwinden, entwickeln wir einen neuen Ansatz, Z-LaVI, um Sprachmodellen mit visuellen Vorstellungsfähigkeiten zu versehen. Insbesondere nutzen wir zwei ergänzende Arten von „Vorstellungen“: (i) das Wiederholen vorhandener Bilder durch Retrieval und (ii) das Erzeugen nichtexistierender Bilder mittels Text-zu-Bild-Generierung. Durch die gemeinsame Nutzung der Spracheingaben und der Vorstellungskraft komponiert ein vortrainiertes Vision-Sprach-Modell (wie z.B. CLIP) schließlich eine Lösung ohne vorheriges Training (zero-shot) für die ursprünglichen Sprachaufgaben. Bemerkenswerterweise kann die Bereitstellung von Vorstellungskraft den Sprachmodellen effektiv helfen, visuelles Wissen zu nutzen, um einfache Sprachaufgaben zu lösen. Folglich verbessert Z-LaVI die zero-shot-Leistung bestehender Sprachmodelle konsistent in einer Vielzahl von Sprachaufgaben.

Z-LaVI: Zero-Shot Sprachlöser angetrieben durch visuelle Vorstellungskraft | Neueste Forschungsarbeiten | HyperAI