Command Palette
Search for a command to run...
Allgemein gültige geometrische Synthese von Bildunterschriften
Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Abstract
Multimodale große Sprachmodelle weisen zahlreiche praktische Anwendungen auf, die starke Schlussfolgerungsfähigkeiten erfordern. Trotz neuerer Fortschritte haben diese Modelle weiterhin Schwierigkeiten, komplexe geometrische Aufgaben zu lösen. Ein zentrales Problem ergibt sich aus dem Mangel an hochwertigen Datensätzen aus Bild-Text-Paaren, die zur Verständnis geometrischer Bilder erforderlich sind. Zudem versagen die meisten datenbasierten Synthesepipelines, die auf Vorlagen beruhen, typischerweise bei der Generalisierung auf Fragen jenseits ihrer vorgegebenen Vorlagen. In diesem Artikel schließen wir diese Lücke, indem wir einen ergänzenden Prozess des Verstärkenden Lernens mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) in die Datensynthese integrieren. Durch die Anwendung von RLVR zur Feinabstimmung von Bildunterschriften für geometrische Bilder, die aus 50 grundlegenden geometrischen Beziehungen synthetisiert wurden, und durch die Nutzung von Belohnungssignalen, die aus mathematischen Problemlösungsaufgaben abgeleitet werden, gelingt es unserem Pipeline, die wesentlichen Merkmale des geometrischen Problemlösens effektiv zu erfassen. Dies ermöglicht eine verbesserte Generalisierbarkeit der Aufgaben und führt zu signifikanten, nicht-trivialen Verbesserungen. Darüber hinaus stärkt der generierte Datensatz selbst in Out-of-Distribution-Szenarien die allgemeinen Schlussfolgerungsfähigkeiten multimodaler großer Sprachmodelle: In statistischen, arithmetischen, algebraischen und numerischen Aufgaben mit nicht-geometrischen Eingabebildern aus MathVista und MathVerse erzielt das Modell eine Genauigkeitssteigerung um 2,8 % bis 4,8 %, während in den Aufgabenbereichen Kunst, Design, Technik und Ingenieurwesen (MMMU) Verbesserungen zwischen 2,4 % und 3,9 % erreicht werden.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.