HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Zero: Skalierbare Selbstverbesserung von VLMs durch strategisches, gamifiziertes Selbstspielen

Qinsi Wang Bo Liu Tianyi Zhou Jing Shi Yueqian Lin Yiran Chen Hai Helen Li Kun Wan Wentian Zhao

Zusammenfassung

Obwohl Verstärkendes Lernen (Reinforcement Learning, RL) die Schlussfolgerungsfähigkeiten von Vision-Sprache-Modellen (Vision-Language-Modellen, VLMs) effektiv verbessern kann, sind derzeitige Ansätze weiterhin stark von arbeitsintensiven Datensätzen abhängig, die umfangreiche manuelle Erstellung und Validierung erfordern. Dies führt zu extrem hohen Trainingskosten und begrenzt somit die praktische Anwendung von VLMs. Um dieser Herausforderung zu begegnen, stellen wir Vision-Zero vor – einen domainspezifischen Rahmen, der es VLMs ermöglicht, sich durch wettbewerbsorientierte visuelle Spiele zu verbessern, die aus beliebigen Bildpaaren generiert werden. Konkret umfasst Vision-Zero drei zentrale Eigenschaften: (1) Strategisches Selbst-Spiel-Rahmenwerk: Vision-Zero trainiert VLMs in „Wer ist der Spion“-artigen Spielen, bei denen die Modelle strategisches Denken und Handeln über mehrere Rollen hinweg ausüben. Durch interaktives Spielen generieren die Modelle ihre Trainingsdaten autonom, ohne menschliche Annotationen. (2) Spiele aus beliebigen Bildern: Im Gegensatz zu bestehenden gamifizierten Ansätzen kann Vision-Zero Spiele aus beliebigen Bildern generieren, wodurch die Schlussfolgerungsfähigkeit des Modells über verschiedene Domänen hinweg verbessert und eine starke Generalisierung auf unterschiedliche Aufgaben erreicht wird. Diese Vielseitigkeit demonstrieren wir anhand dreier unterschiedlicher Bild-Datensätze: CLEVR-basierte synthetische Szenen, Diagramme und reale Weltbilder. (3) Nachhaltiger Leistungsfortschritt: Wir führen einen neuartigen Trainingsalgorithmus ein – Iterative Self-Play Policy Optimization (Iterative-SPO) –, der zwischen Selbst-Spiel und Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) wechselt. Dies mindert die Leistungsplatte, die häufig bei reinem Selbst-Spiel-Training auftritt, und ermöglicht nachhaltige, langfristige Verbesserungen. Trotz Verzicht auf gelabelte Daten erreicht Vision-Zero Spitzenleistungen bei Schlussfolgerungsaufgaben, der Beantwortung von Fragen zu Diagrammen sowie visuell zentrierten Verständnisaufgaben und übertrifft dabei andere auf Annotationen basierende Methoden. Die Modelle und den Quellcode finden Sie unter: https://github.com/wangqinsi1/Vision-Zero.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision-Zero: Skalierbare Selbstverbesserung von VLMs durch strategisches, gamifiziertes Selbstspielen | Paper | HyperAI