HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Mini-o3: Skalierung von Schlussfolgerungsmustern und Interaktionsschritten für die visuelle Suche

Xin Lai Junyi Li Wei Li Tao Liu Tianjian Li Hengshuang Zhao

Mini-o3: Skalierung von Schlussfolgerungsmustern und Interaktionsschritten für die visuelle Suche

Abstract

Neuere Fortschritte bei großen multimodalen Modellen haben bildbasierte Werkzeuge in Kombination mit Verstärkungslernen genutzt, um visuelle Aufgaben zu bewältigen. Allerdings zeigen bestehende Open-Source-Ansätze oft eintönige Schlussfolgerungsstrukturen und erlauben nur eine begrenzte Anzahl an Interaktionsrunden, was sie für anspruchsvolle Aufgaben unzureichend macht, die eine explorative Trial-and-Error-Strategie erfordern. In dieser Arbeit beheben wir diesen Limitationen durch eine Skalierung der werkzeugbasierten Interaktionen und stellen Mini-o3 vor, ein System, das tiefgehende, mehrschrittige Schlussfolgerungen – über zehn bis mehrere Dutzend Schritte hinweg – ermöglicht und state-of-the-art-Leistungen bei anspruchsvollen visuellen Suchaufgaben erzielt. Unser Rezept zur Nachbildung von OpenAI o3-ähnlichem Verhalten besteht aus drei Schlüsselelementen. Erstens entwickeln wir den Visual Probe Dataset, eine Sammlung von Tausenden anspruchsvoller visueller Suchprobleme, die speziell für exploratives Denken konzipiert sind. Zweitens etablieren wir eine iterative Datensammlungspipeline, um kaltgestartete Trajektorien zu gewinnen, die eine Vielzahl von Schlussfolgerungsmustern zeigen – darunter Tiefensuche, Trial-and-Error-Strategien und Zielstabilität. Drittens schlagen wir eine Over-Turn-Masking-Strategie vor, die die Straffung überlanger Antworten (also solcher, die die maximale Anzahl an Interaktionsrunden erreichen) während des Verstärkungslernens verhindert, wodurch eine Balance zwischen Trainingszeit-Effizienz und Skalierbarkeit im Testzeitraum erreicht wird. Trotz einer Trainingsbeschränkung auf maximal sechs Interaktionsrunden generiert unser Modell im Inference-Phase Trajektorien, die sich natürlicherweise auf zehn oder mehr Runden skalieren, wobei die Genauigkeit mit zunehmender Anzahl an Schritten steigt. Umfangreiche Experimente zeigen, dass Mini-o3 reichhaltige Schlussfolgerungsmuster und tiefgehende Denkwege erzeugt und damit anspruchsvolle visuelle Suchaufgaben effektiv löst.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mini-o3: Skalierung von Schlussfolgerungsmustern und Interaktionsschritten für die visuelle Suche | Forschungsarbeiten | HyperAI