HyperAI
vor 7 Tagen

Open Vision Reasoner: Übertragung linguistischen kognitiven Verhaltens auf visuelle Schlussfolgerung

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
Open Vision Reasoner: Übertragung linguistischen kognitiven Verhaltens auf visuelle Schlussfolgerung
Abstract

Die bemerkenswerte Schließleistung großer Sprachmodelle (LLMs) stammt von kognitiven Verhaltensweisen, die durch Verstärkung mit verifizierbaren Belohnungen entstehen. Diese Arbeit untersucht, wie dieses Prinzip auf mehrmodale LLMs (MLLMs) übertragen werden kann, um fortschrittliches visuelles Schließen zu ermöglichen. Wir stellen ein zweistufiges Paradigma vor, das auf Qwen2.5-VL-7B basiert: eine umfangreiche sprachliche Anlaufverfeinerung, gefolgt von mehrmodaler Verstärkungslernen (RL), das fast 1.000 Schritte umfasst und alle bisherigen Open-Source-Bemühungen hinsichtlich der Skalierung übertrifft. Diese bahnbrechende Arbeit enthüllt drei grundlegende Erkenntnisse: 1) Das Verhaltensübertragungsprinzip tritt überraschend früh während des Anlaufs aufgrund linguistischer Mentalimagery auf. 2) Der Anlauf verinnerlicht visuelle Verhaltensweisen breit gestreut, während RL kritisch zwischen effektiven Mustern unterscheidet und diese skaliert. 3) Die Übertragung begünstigt strategisch hochnutzbringende Verhaltensweisen wie visuelle Reflexion. Unser daraus resultierendes Modell, der Open-Vision-Reasoner (OVR), erzielt Spitzenleistungen in einer Reihe von Schließbenchmarks, darunter 95,3 % bei MATH500, 51,8 % bei MathVision und 54,6 % bei MathVerse. Wir veröffentlichen unser Modell, unsere Daten und die Trainingsdynamik, um die Entwicklung fähigerer, verhaltensaustimmter mehrmodaler Schließmodelle zu beschleunigen.