WeThink: Ein Schritt hin zu allgemein verwendbarer visueller Sprach-Reasoning durch Verstärkungslernen

Aufbauend auf dem Erfolg textbasierter Schlussfolgerungsmodelle wie DeepSeek-R1 eröffnet die Erweiterung dieser Fähigkeiten auf multimodale Schlussfolgerung großes Potenzial. Während jüngere Arbeiten versucht haben, DeepSeek-R1-ähnliche Ansätze des Verstärkungslernens (Reinforcement Learning, RL) auf multimodale große Sprachmodelle (Multimodal Large Language Models, MLLM) anzupassen, wobei der Fokus auf domain-spezifische Aufgaben wie Mathematik und visuelle Wahrnehmung lag, bleibt eine zentrale Frage offen: Wie können wir allgemein anwendbare visuelle Sprachschlussfolgerung mittels RL erreichen? Um dieser Herausforderung zu begegnen, leisten wir drei entscheidende Beiträge: (1) Eine neuartige, skalierbare Pipeline zur Synthese multimodaler QA-Paare, die kontextbewusste, schlussfolgerungsorientierte Fragen und Antworten direkt aus gegebenen Bildern autonom generiert. (2) Das Open-Source-Datenset WeThink mit über 120.000 multimodalen QA-Paaren und annotierten Schlussfolgerungspfaden, das aus 18 unterschiedlichen Datensätzen zusammengestellt wurde und eine Vielzahl von Fragebereichen abdeckt. (3) Eine umfassende Untersuchung des RL auf unserem Datensatz, die eine hybride Belohnungsmechanik integriert, die regelbasierte Überprüfung mit modellbasierten Bewertungen kombiniert, um die Effizienz des RL-Trainings über verschiedene Aufgabendomänen hinweg zu optimieren. In 14 unterschiedlichen MLLM-Benchmark-Aufgaben zeigen wir, dass unser WeThink-Datensatz die Leistung erheblich verbessert – von der mathematischen Schlussfolgerung bis hin zu vielfältigen allgemeinen multimodalen Aufgaben. Darüber hinaus demonstrieren wir, dass unsere automatisierte Datensynthese-Pipeline kontinuierlich die Datenvielfalt erhöhen und damit die Modellleistung weiter steigern kann.