HyperAIHyperAI

Command Palette

Search for a command to run...

Z-LaVI: Zero-Shot Sprachlöser angetrieben durch visuelle Vorstellungskraft

Yue Yang; Wenlin Yao; Hongming Zhang; Xiaoyang Wang; Dong Yu; Jianshu Chen

Zusammenfassung

Großskalige vortrainierte Sprachmodelle haben erhebliche Fortschritte bei der Lösung von nachgelagerten Sprachverstehensaufgaben gemacht. Allerdings leiden sie generell unter dem Berichterstattungsverzerrungseffekt (reporting bias), einem Phänomen, das die fehlende explizite Alltagswissen-Komponente in geschriebenen Texten beschreibt, wie zum Beispiel „eine Orange ist orange“. Um diese Einschränkung zu überwinden, entwickeln wir einen neuen Ansatz, Z-LaVI, um Sprachmodellen mit visuellen Vorstellungsfähigkeiten zu versehen. Insbesondere nutzen wir zwei ergänzende Arten von „Vorstellungen“: (i) das Wiederholen vorhandener Bilder durch Retrieval und (ii) das Erzeugen nichtexistierender Bilder mittels Text-zu-Bild-Generierung. Durch die gemeinsame Nutzung der Spracheingaben und der Vorstellungskraft komponiert ein vortrainiertes Vision-Sprach-Modell (wie z.B. CLIP) schließlich eine Lösung ohne vorheriges Training (zero-shot) für die ursprünglichen Sprachaufgaben. Bemerkenswerterweise kann die Bereitstellung von Vorstellungskraft den Sprachmodellen effektiv helfen, visuelles Wissen zu nutzen, um einfache Sprachaufgaben zu lösen. Folglich verbessert Z-LaVI die zero-shot-Leistung bestehender Sprachmodelle konsistent in einer Vielzahl von Sprachaufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp