Command Palette
Search for a command to run...
Mini-o3: Skalierung von Schlussfolgerungsmustern und Interaktionsschritten für die visuelle Suche
Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

Abstract
Neuere Fortschritte bei großen multimodalen Modellen haben bildbasierte Werkzeuge in Kombination mit Verstärkungslernen genutzt, um visuelle Aufgaben zu bewältigen. Allerdings zeigen bestehende Open-Source-Ansätze oft eintönige Schlussfolgerungsstrukturen und erlauben nur eine begrenzte Anzahl an Interaktionsrunden, was sie für anspruchsvolle Aufgaben unzureichend macht, die eine explorative Trial-and-Error-Strategie erfordern. In dieser Arbeit beheben wir diesen Limitationen durch eine Skalierung der werkzeugbasierten Interaktionen und stellen Mini-o3 vor, ein System, das tiefgehende, mehrschrittige Schlussfolgerungen – über zehn bis mehrere Dutzend Schritte hinweg – ermöglicht und state-of-the-art-Leistungen bei anspruchsvollen visuellen Suchaufgaben erzielt. Unser Rezept zur Nachbildung von OpenAI o3-ähnlichem Verhalten besteht aus drei Schlüsselelementen. Erstens entwickeln wir den Visual Probe Dataset, eine Sammlung von Tausenden anspruchsvoller visueller Suchprobleme, die speziell für exploratives Denken konzipiert sind. Zweitens etablieren wir eine iterative Datensammlungspipeline, um kaltgestartete Trajektorien zu gewinnen, die eine Vielzahl von Schlussfolgerungsmustern zeigen – darunter Tiefensuche, Trial-and-Error-Strategien und Zielstabilität. Drittens schlagen wir eine Over-Turn-Masking-Strategie vor, die die Straffung überlanger Antworten (also solcher, die die maximale Anzahl an Interaktionsrunden erreichen) während des Verstärkungslernens verhindert, wodurch eine Balance zwischen Trainingszeit-Effizienz und Skalierbarkeit im Testzeitraum erreicht wird. Trotz einer Trainingsbeschränkung auf maximal sechs Interaktionsrunden generiert unser Modell im Inference-Phase Trajektorien, die sich natürlicherweise auf zehn oder mehr Runden skalieren, wobei die Genauigkeit mit zunehmender Anzahl an Schritten steigt. Umfangreiche Experimente zeigen, dass Mini-o3 reichhaltige Schlussfolgerungsmuster und tiefgehende Denkwege erzeugt und damit anspruchsvolle visuelle Suchaufgaben effektiv löst.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.