HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Allgemein gültige geometrische Synthese von Bildunterschriften

Yue Xin Wenyuan Wang Rui Pan Ruida Wang Howard Meng et al

Allgemein gültige geometrische Synthese von Bildunterschriften

Abstract

Multimodale große Sprachmodelle weisen zahlreiche praktische Anwendungen auf, die starke Schlussfolgerungsfähigkeiten erfordern. Trotz neuerer Fortschritte haben diese Modelle weiterhin Schwierigkeiten, komplexe geometrische Aufgaben zu lösen. Ein zentrales Problem ergibt sich aus dem Mangel an hochwertigen Datensätzen aus Bild-Text-Paaren, die zur Verständnis geometrischer Bilder erforderlich sind. Zudem versagen die meisten datenbasierten Synthesepipelines, die auf Vorlagen beruhen, typischerweise bei der Generalisierung auf Fragen jenseits ihrer vorgegebenen Vorlagen. In diesem Artikel schließen wir diese Lücke, indem wir einen ergänzenden Prozess des Verstärkenden Lernens mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) in die Datensynthese integrieren. Durch die Anwendung von RLVR zur Feinabstimmung von Bildunterschriften für geometrische Bilder, die aus 50 grundlegenden geometrischen Beziehungen synthetisiert wurden, und durch die Nutzung von Belohnungssignalen, die aus mathematischen Problemlösungsaufgaben abgeleitet werden, gelingt es unserem Pipeline, die wesentlichen Merkmale des geometrischen Problemlösens effektiv zu erfassen. Dies ermöglicht eine verbesserte Generalisierbarkeit der Aufgaben und führt zu signifikanten, nicht-trivialen Verbesserungen. Darüber hinaus stärkt der generierte Datensatz selbst in Out-of-Distribution-Szenarien die allgemeinen Schlussfolgerungsfähigkeiten multimodaler großer Sprachmodelle: In statistischen, arithmetischen, algebraischen und numerischen Aufgaben mit nicht-geometrischen Eingabebildern aus MathVista und MathVerse erzielt das Modell eine Genauigkeitssteigerung um 2,8 % bis 4,8 %, während in den Aufgabenbereichen Kunst, Design, Technik und Ingenieurwesen (MMMU) Verbesserungen zwischen 2,4 % und 3,9 % erreicht werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Allgemein gültige geometrische Synthese von Bildunterschriften | Forschungsarbeiten | HyperAI