VisPlay: Selbstentwickelnde Vision-Sprache-Modelle aus Bildern
Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

Abstract
Reinforcement Learning (RL) bietet einen konsistenten Rahmen zur Verbesserung von Vision-Language-Modellen (VLMs) bei komplexen Schlussfolgerungsaufgaben. Allerdings beruhen bestehende RL-Ansätze häufig auf menschlich annotierten Labels oder auf aufgabenbezogenen Heuristiken zur Definition überprüfbarer Belohnungen – beides kostspielige und schwer skalierbare Ansätze. Wir stellen VisPlay vor, einen selbstentwickelnden RL-Framework, der es VLMs ermöglicht, ihre Schlussfolgerungsfähigkeiten autonom mithilfe großer Mengen an unbeschrifteten Bilddaten zu verbessern. Ausgehend von einem einzigen Basis-VLM weist VisPlay dem Modell zwei interagierende Rollen zu: einen bildbedingten Fragesteller, der anspruchsvolle, aber beantwortbare visuelle Fragen formuliert, und einen multimodalen Schlussfolgerer, der sogenannte „Silberantworten“ generiert. Diese Rollen werden gemeinsam mit der Gruppen-Relativen Politik-Optimierung (Group Relative Policy Optimization, GRPO) trainiert, die Belohnungen für Vielfalt und Schwierigkeit integriert, um die Komplexität der generierten Fragen mit der Qualität der Silberantworten auszubalancieren. VisPlay skaliert effizient über zwei Modellfamilien hinweg. Bei der Ausbildung auf Qwen2.5-VL und MiMo-VL erzielt VisPlay konsistente Verbesserungen in visueller Schlussfolgerung, kompositionaler Generalisierung und Reduktion von Halluzinationen an acht Benchmarks, darunter MM-Vet und MMMU, was einen skalierbaren Weg hin zu selbstentwickelnder multimodaler Intelligenz demonstriert. Die Projektseite ist unter https://bruno686.github.io/VisPlay/ verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.