HyperAIHyperAI

Command Palette

Search for a command to run...

WeThink: Ein Schritt hin zu allgemein verwendbarer visueller Sprach-Reasoning durch Verstärkungslernen

Zusammenfassung

Aufbauend auf dem Erfolg textbasierter Schlussfolgerungsmodelle wie DeepSeek-R1 eröffnet die Erweiterung dieser Fähigkeiten auf multimodale Schlussfolgerung großes Potenzial. Während jüngere Arbeiten versucht haben, DeepSeek-R1-ähnliche Ansätze des Verstärkungslernens (Reinforcement Learning, RL) auf multimodale große Sprachmodelle (Multimodal Large Language Models, MLLM) anzupassen, wobei der Fokus auf domain-spezifische Aufgaben wie Mathematik und visuelle Wahrnehmung lag, bleibt eine zentrale Frage offen: Wie können wir allgemein anwendbare visuelle Sprachschlussfolgerung mittels RL erreichen? Um dieser Herausforderung zu begegnen, leisten wir drei entscheidende Beiträge: (1) Eine neuartige, skalierbare Pipeline zur Synthese multimodaler QA-Paare, die kontextbewusste, schlussfolgerungsorientierte Fragen und Antworten direkt aus gegebenen Bildern autonom generiert. (2) Das Open-Source-Datenset WeThink mit über 120.000 multimodalen QA-Paaren und annotierten Schlussfolgerungspfaden, das aus 18 unterschiedlichen Datensätzen zusammengestellt wurde und eine Vielzahl von Fragebereichen abdeckt. (3) Eine umfassende Untersuchung des RL auf unserem Datensatz, die eine hybride Belohnungsmechanik integriert, die regelbasierte Überprüfung mit modellbasierten Bewertungen kombiniert, um die Effizienz des RL-Trainings über verschiedene Aufgabendomänen hinweg zu optimieren. In 14 unterschiedlichen MLLM-Benchmark-Aufgaben zeigen wir, dass unser WeThink-Datensatz die Leistung erheblich verbessert – von der mathematischen Schlussfolgerung bis hin zu vielfältigen allgemeinen multimodalen Aufgaben. Darüber hinaus demonstrieren wir, dass unsere automatisierte Datensynthese-Pipeline kontinuierlich die Datenvielfalt erhöhen und damit die Modellleistung weiter steigern kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp