HyperAIHyperAI
vor 4 Tagen

Vision-Zero: Skalierbare Selbstverbesserung von VLMs durch strategisches, gamifiziertes Selbstspielen

Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
Vision-Zero: Skalierbare Selbstverbesserung von VLMs durch strategisches, gamifiziertes Selbstspielen
Abstract

Obwohl Verstärkendes Lernen (Reinforcement Learning, RL) die Schlussfolgerungsfähigkeiten von Vision-Sprache-Modellen (Vision-Language-Modellen, VLMs) effektiv verbessern kann, sind derzeitige Ansätze weiterhin stark von arbeitsintensiven Datensätzen abhängig, die umfangreiche manuelle Erstellung und Validierung erfordern. Dies führt zu extrem hohen Trainingskosten und begrenzt somit die praktische Anwendung von VLMs. Um dieser Herausforderung zu begegnen, stellen wir Vision-Zero vor – einen domainspezifischen Rahmen, der es VLMs ermöglicht, sich durch wettbewerbsorientierte visuelle Spiele zu verbessern, die aus beliebigen Bildpaaren generiert werden. Konkret umfasst Vision-Zero drei zentrale Eigenschaften: (1) Strategisches Selbst-Spiel-Rahmenwerk: Vision-Zero trainiert VLMs in „Wer ist der Spion“-artigen Spielen, bei denen die Modelle strategisches Denken und Handeln über mehrere Rollen hinweg ausüben. Durch interaktives Spielen generieren die Modelle ihre Trainingsdaten autonom, ohne menschliche Annotationen. (2) Spiele aus beliebigen Bildern: Im Gegensatz zu bestehenden gamifizierten Ansätzen kann Vision-Zero Spiele aus beliebigen Bildern generieren, wodurch die Schlussfolgerungsfähigkeit des Modells über verschiedene Domänen hinweg verbessert und eine starke Generalisierung auf unterschiedliche Aufgaben erreicht wird. Diese Vielseitigkeit demonstrieren wir anhand dreier unterschiedlicher Bild-Datensätze: CLEVR-basierte synthetische Szenen, Diagramme und reale Weltbilder. (3) Nachhaltiger Leistungsfortschritt: Wir führen einen neuartigen Trainingsalgorithmus ein – Iterative Self-Play Policy Optimization (Iterative-SPO) –, der zwischen Selbst-Spiel und Verstärkungslernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) wechselt. Dies mindert die Leistungsplatte, die häufig bei reinem Selbst-Spiel-Training auftritt, und ermöglicht nachhaltige, langfristige Verbesserungen. Trotz Verzicht auf gelabelte Daten erreicht Vision-Zero Spitzenleistungen bei Schlussfolgerungsaufgaben, der Beantwortung von Fragen zu Diagrammen sowie visuell zentrierten Verständnisaufgaben und übertrifft dabei andere auf Annotationen basierende Methoden. Die Modelle und den Quellcode finden Sie unter: https://github.com/wangqinsi1/Vision-Zero.