HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

OpenMMReasoner: Erweiterung der Grenzen des multimodalen Schlussfolgerns durch einen offenen und allgemeinen Ansatz

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

OpenMMReasoner: Erweiterung der Grenzen des multimodalen Schlussfolgerns durch einen offenen und allgemeinen Ansatz

Abstract

Hier ist die Übersetzung des Textes in fachsprachliches Deutsch, angepasst an den Stil wissenschaftlicher Publikationen und technischer Berichte:Jüngste Fortschritte bei großen Reasoning-Modellen haben das wachsende Interesse daran geweckt, diese Fähigkeiten auf multimodale Bereiche auszudehnen. Trotz bemerkenswerter Fortschritte beim visuellen Reasoning (Schlussfolgern) bleibt der Mangel an transparenten und reproduzierbaren Strategien zur Datenkuratierung und zum Training jedoch ein wesentliches Hindernis für skalierbare Forschung. In dieser Arbeit stellen wir OpenMMReasoner vor, ein vollständig transparentes, zweistufiges Verfahren für multimodales Reasoning, das Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) umfasst.In der SFT-Phase konstruieren wir einen Kaltstart-Datensatz (Cold-Start Dataset) mit 874.000 Beispielen und einer strengen Schritt-für-Schritt-Validierung, was eine starke Grundlage für die Reasoning-Fähigkeiten bildet. Die anschließende RL-Phase nutzt einen Datensatz mit 74.000 Beispielen aus diversen Domänen, um diese Fähigkeiten weiter zu schärfen und zu stabilisieren, was in einem robusteren und effizienteren Lernprozess resultiert.Umfangreiche Evaluationen zeigen, dass unser Trainingsansatz nicht nur starke Baselines übertrifft, sondern auch die entscheidende Rolle der Datenqualität und des Trainingsdesigns für die Leistung beim multimodalen Reasoning hervorhebt. Insbesondere erzielt unsere Methode eine Verbesserung von 11,6 % gegenüber der Qwen2.5-VL-7B-Instruct-Baseline über neun Benchmarks für multimodales Reasoning hinweg und schafft damit eine solide empirische Grundlage für die zukünftige Forschung im Bereich des groß angelegten multimodalen Reasonings. Wir haben unseren gesamten Code, die Pipeline und die Daten unter https://github.com/EvolvingLMMs-Lab/OpenMMReasoner als Open Source veröffentlicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OpenMMReasoner: Erweiterung der Grenzen des multimodalen Schlussfolgerns durch einen offenen und allgemeinen Ansatz | Forschungsarbeiten | HyperAI