VL-Cogito: Progressives Curriculum-Verstärkungslernen für fortgeschrittene multimodale Schlussfolgerung

Reinforcement Learning hat seine Wirksamkeit bei der Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle bereits unter Beweis gestellt. In jüngster Zeit wurden zunehmend Forschungsanstrengungen unternommen, um dieses Paradigma auf multimodale Schlussfolgerungsaufgaben zu erweitern. Aufgrund der inhärenten Komplexität und Vielfalt multimodaler Aufgaben – insbesondere hinsichtlich des semantischen Inhalts und der Problemformulierungen – zeigen bestehende Modelle oft instabile Leistungen über verschiedene Domänen und Schwierigkeitsstufen hinweg. Um diese Einschränkungen zu überwinden, stellen wir VL-Cogito vor, ein fortschrittliches multimodales Schlussfolgerungsmodell, das mittels eines neuartigen mehrstufigen Progressiven Curriculum-Reinforcement-Learning (PCuRL)-Frameworks trainiert wurde. Das PCuRL-Framework führt das Modell systematisch durch Aufgaben mit schrittweise steigender Schwierigkeit und verbessert dadurch signifikant dessen Schlussfolgerungsfähigkeiten in vielfältigen multimodalen Kontexten. Die Architektur weist zwei zentrale Innovationen auf: (1) einen online-optimierten, weichen Gewichtungsmechanismus für die Schwierigkeit, der die Trainingskomplexität in aufeinanderfolgenden RL-Trainingsphasen dynamisch anpasst; und (2) einen dynamischen Längenbelohnungsmechanismus, der das Modell ermutigt, die Länge seines Schlussfolgerungspfades an die Aufgabenkomplexität anzupassen, wodurch ein ausgewogenes Verhältnis zwischen Schlussfolgerungseffizienz und Korrektheit erreicht wird. Experimentelle Evaluierungen zeigen, dass VL-Cogito in den gängigen multimodalen Benchmarks – die Mathematik, Naturwissenschaften, Logik und allgemeines Verständnis abdecken – konsistent die Leistung bestehender, auf Schlussfolgerung ausgerichteter Modelle erreicht oder sogar übertreffen kann, was die Wirksamkeit unseres Ansatzes belegt.